PageRank系列之二:PageRank算法和Google搜索

2021-01-08 搜狐網

  看了第一章《 Pagerank 的歷史》,大家應該知道了 PageRank 的由來,聽過了 PageRank 是怎麼在 Larry Page 和 Sergey Brin 的努力下誕生的。

  今天 Google PageRank 是什麼第二章,我會開始帶著大家一起初步認識 PageRank 和 Google 搜索結果,看看 Pagerank 的原理。

  PageRank 的重要性

  PageRank 之所以那麼重要對不同的人而言有不同的原因,我可以想到的和 PageRank 有關係的人有 Google 本身、 Google 的用戶和網站站長(包括部落客)。

  對於 Google 本身來說, PageRank 成就了自己, Google 今天可以坐上網絡第一把交椅,成為網絡第一大巨頭,很大的原因來自 PageRank 技術,因為 PageRank 技術讓 Google 的搜索結果比其他的搜尋引擎優秀許多。

  對於 Google 用戶來說,他們搜索得到的 Google 搜索結果就是被 PageRank 所影響的,這些搜索結果讓 Google 用戶可以從浩瀚網際網路中快速找到準確的資料,是網民們重要的工具,讓網民的許多工作都事半功倍。

  最後是網際網路上許許多多網站的站長,這裡的站長也包括了我們這些部落客,網站在搜索結果中的排名對許多網站來說是生存的關鍵,也關係著商業網站公司的盈利,對於很多網站來說,在搜索結果內的低排名等於倒閉。

  在這篇文章中,我只會注重在 PageRank 和站長這方面。

  PageRank 的基本原理/算法

  PageRank 的基本原理是,當網頁 A 連結到網頁 B ,網頁 A 就等像投了票給網頁 B ,要是網頁 A 的重要性比較高,它投給網頁 B 的票數就越多,通過統計這些票數來判斷網頁的重要性。

  我們直接來看看 PageRank 是如何決定的,請看圖。

  圖中的長方形是網頁,左上角的網頁因為得到其他網頁的投票,它擁有了 100 個票數,它把得到的票數平分了給它連結的網站,在圖中是兩個網站,這兩個網站分別得到 50 個票數。

  右上角的網站得到了 50 個票數,又從另一個網站得到 3 個票數,結果它擁有總數為 53 的票數。

  簡單來說,一個網頁擁有的票數是所有反向連結的票數總和,而一個網頁可以投的票數決定於它擁有的票數。當這個網頁連結到其他網頁,它擁有的票數會平分給它連結的網頁。

  澄清一點,這裡所解釋的只是 PageRank 的基本原理,不是完全的 PageRank 計算方式,因為沒有人真正知道。

  PageRank 與網頁內容無關

  還有很重要的一點,很多人以為網頁的內容對 PageRank 值存在影響力,其實完全沒有, PageRank 的數值完全決定於上面所解釋的連結投票。

  PageRank 和 Google 搜索結果

  我們知道,站長們會重視著 PageRank 是因為 PageRank 影響著他們網站在 Google 搜索結果上的排名,那麼 Google 的搜索結果是怎麼決定的呢?

  老實說吧,除了 Google 內部的某些中堅員工,世界人沒有任何人真正知道 Google 的搜索結果和 PageRank 是如何決定的。

  雖然不能真正知道全部,我們還是知道某些重要的因素,從第一章《 Pagerank 的歷史》我們看到, Google 的搜索結果主要由 PageRank 和文本匹配技術決定,再加上其他超過 200 個元素。

  所以,網頁在搜索結果的排名是由許許多多的因素計算出來的,網頁的 PageRank 只是其中一個因素。

  來源:KennyP

(責任編輯:韓建光)

相關焦點

  • CheckPageRank快速檢測某網站PR值是否作假
    如果該域名具有真實 PR 值,查詢結果返回 「Pagerank is valid!」 的提示信息;反之,如果 PR 值系偽造,返回 「Pagerank seems to be forged!」 的提示信息。除此之外,該工具提供域名在搜尋引擎中的反向連結查詢,以及該域名是否被DMOZ、Google Directory、Yahoo!
  • 歷史圖上的PageRank算法設計與實現
    為了減少算法的耗時,常家偉等人[4]在PageRank算法的迭代過程中加入可控制迭代次數的參數b和一個用於修剪結果向量的閾值α。然後針對主題相關性的問題中,使用了歸一化的鄰接矩陣的特徵值與特徵向量來評估節點之間的距離,從而產生最終的推薦列表,而列表中的對象主題相關性則會較高些。對於APP搜索來說,雖然按照關鍵詞搜索出來的應用主題相關性比較高,但是質量參差不齊。
  • 關於PHP在linux下面獲取GOOGLE的PR值
    $url));   $fp = fsockopen("www.google.com", 80, $errno, $errstr, 30);  if(!$fp){   echo "$errstr ($errno)<br />\n";  }else{   $out = "GET /search?
  • 很準的google PR值在線預測工具推薦
    首頁 > 空間 > 關鍵詞 > SEO最新資訊 > 正文 很準的google PR值在線預測工具推薦
  • 生存曲線的 log-rank 檢驗
    專門的假設檢驗方法有 log-rank 檢驗(注意:這裡的 log 表示 count、register 或 record,與對數毫無關係,也稱為時序檢驗/對數秩檢驗)。對數秩檢驗用來檢驗兩條或多條生存曲線的發病率是否相同。與普通卡方檢驗不同之處是:log-rank 檢驗能充分利用生存時間(包括刪失數據),而且能對各組的生存曲線作整體比較。
  • 用戶影響力指數——Google探索SNS盈利的新舉措
    核心提示:Google十年,法寶之一就是其享譽世界的Pagerank算法,以此決定了網頁在Google搜索結果中顯示順序的優先級。利用SNS上的影響力指數,為用戶以及用戶的朋友提供切實的利益。
  • Substrate Warpage 探討 1
    ,本章主要簡述基板wapage 的失效原因的魚骨圖分析,後續主要針對2大類產品(Signle Unit & Strip)及4種基板工藝進行詳細分析,同時列舉已知和未知的相關質量案件分析Strip 基板warpage 的失效機理示意Warpage Fishbone分析 ---Substrate基板覆銅板的warpage 因素有很多
  • Google PR值大調整,新站飆升,垃圾站狂降
    原PR1 現 PR3kincool.cn 原PR0 現 PR3saipiao.com 原PR3 現 PR4 ddpiao.com 原PR0 現 PR2 dashibei.com 原PR0 現 PR2 tuiba.net 原PR4 現PR4 yubin.org.cn 原PR0 現 PR3 51mn.net 原PR2 現PR0 根據google
  • 要做文本自動摘要,你得先了解PageRank算法
    前言因為想做一下文本自動摘要,文本自動摘要是NLP的重要應用,搜了一下,有一種TextRank的算法,可以做文本自動摘要。其算法思想來源於Google的PageRank,所以先把PageRank給了解一下。
  • 2020 圖算法工程師面試基礎、要點
    這段時間面試連連,幾輪下來的感受就是,好點兒的公司對細節摳的很細,希望求職者能夠對使用的算法以及這個算法的其它觸類旁通的領域都能夠有系統的理解。CNN 能夠提取和組合高解析度特徵的多尺度局部空間特徵,這導致了幾乎所有機器學習領域的突破和深度學習的革命。當我們深入到 CNN 和計算機視覺應用時,我們發現CNN 的成功之處在於:局部連接、權值共享和多層的使用。
  • 鳥哥:讓你的 PHP 7 更快之 Hugepage
    作者: Laruence (鳥哥)( )  開源中國ID: @Laruence 本文地址: http://www.laruence.com/2015/10/02/3069.html   轉載請註明出處PHP 7 剛剛發布了 RC4,包含一些bug修復和一個我們最新的性能提升成果
  • 搜索那點事兒:Lucene文件存儲和讀取技術詳解
    作者簡介劉光敏:達觀數據搜索組研發技術人員,負責搜尋引擎架構的設計和研發,搜索集群健康狀況監控模塊的開發及維護等。Lucene是一個高性能、可伸縮的信息搜索(IR)庫。它可以為你的應用程式添加索引和搜索能力。Lucene是用java實現的、成熟的開源項目,是著名的Apache Jakarta大家庭的一員,並且基於Apache軟體許可。同樣,Lucene是當前非常流行的、免費的Java信息搜索(IR)庫。
  • 信息安全的隱患 GoogleHacking原理和防範
    前言:2004年在拉斯維加斯舉行的BlackHat大會上,有兩位安全專家分別作了名為You found that on google ? 和google attacks 的主題演講。經過安全焦點論壇原版主WLJ大哥翻譯整理後,個人覺得有必要補充完善一些細節部分。
  • R語言做生存分析:繪製 Kaplan-Meirer生存曲線和實現Log-rank檢驗
    劉老師總結的統計教程合集,可以節省你不少時間一般生存分析文章的統計部分通常會這麼寫:採用Kaplan-Meier法計算生存率和中位生存期,採用log-rank檢驗生存率差異,Cox回歸法進行多因素分析。檢驗水準α= 0.05。我們首先看看什麼是生存分析?
  • Mybatis之PageHelper分頁原理
    在Mybatis的系列文章中說個Invocation對象,這個類就三個變量,一個是目標對象,一個是目標方法,最後就是方法中的參數數組。我們所需要的就是從Invocation中取出來對應的變量做邏輯處理。
  • 百度搜索進攻新市場「土狼」打法:RANK技術當尖兵 | 獵雲網
    RANK排序是計算機算法裡最重要的分支,也是搜尋引擎最重要的環節。早期搜尋引擎比拼結果集大不大(召回率),響應時間快不快。人類進入信息過載時代後,尤其是移動搜索的崛起則讓搜索結果準不準成為最重要考量。「準」,即結果與用戶需求的相關性。NLP理解用戶需求,WD準備數據,決定結果相關性的是RANK策略。
  • 推薦算法系統/人臉識別/深度學習對話機器人高級實戰課
    11、分布式搜尋引擎12、推薦Rerank二次重排序算法(基於邏輯回歸、GBDT、隨機森林、神經網絡的算法思想做二次排序)【可試聽】13、推薦Rerank二次重排序算法(基於Learning TO rank排序學習思想做二次排序)14、推薦Rerank二次重排序算法