SEO學習搜尋引擎爬蟲網頁抓取策略

2020-12-24 網際網路IT先鋒

搜尋引擎處理的主要對象是海量的網頁,一方面為了節省帶寬、計算和存儲資源,另一方面是為了利用有限的資源抓取到最有價值的網頁以滿足用戶搜索需求,所以在搜尋引擎在處理海量網頁的時候會有一定的策略性。本文主要簡單介紹了寬度(廣度)優先,兼顧深度的遍歷策略、不重複抓取策略、大站優先策略、非完全PageRank策略、OCIP策略、合作抓取策略等主流的網頁抓取策略。1、寬度(廣度)優先,兼顧深度的遍歷策略;① 採用廣度優先的原因:重要的網頁往往離種子站點距離較近;全球資訊網的深度沒有我們想像的那麼深,但卻出乎意料地寬(中文全球資訊網直徑長度只有17,即任意兩個網頁之間點擊17次後便可以訪問到);寬度優先有利於多爬蟲合作抓取;② 廣度優先的存在不利結果:容易導致爬蟲陷入死循環,不該抓取的反覆抓取;應該抓取的沒有機會抓取;③ 解決以上兩個缺點的方法是深度抓取策略(Depth-First Trsversal)和不重複抓取策略④ 為了防止爬蟲無限制地寬度優先抓取,必須在某個深度上進行限制,達到這個深度後停止抓取,這個深度就是全球資訊網的直徑長度。當最大深度上停止抓取時,那些深度過大的未抓取網頁,總是期望可以從其他種子站點更加經濟地到達。限制抓取深度會破壞死循環的條件,即使出現循環也會在有限次後停止。⑤評價:寬度(廣度)優先,兼顧深度的遍歷策略,可以有效保證抓取過程中的封閉性,即在抓取過程(遍歷路徑)中總是抓取相同域名下的網頁,而很少出現其他域名下的網頁。2、不重複抓取策略保證一個變化不大的網頁只抓取一次即可,防止重複抓取佔用大量CPU和帶寬資源,從而集中有限的資源區抓取更重要、質量更高的網頁。3、大站優先策略(Larser Site First)通常大型網站都是優質的內容,網頁質量一般較高,以網站為單位來衡量網頁重要性,是有一定依據的。對於待抓取URL隊列中的網頁,根據等待下載的頁面多少來判斷下載優先級。4、非完全PageRank策略(Partial PageRank)對於已經下載的網頁(不完整的網際網路頁面的子集)內,加上待抓取的URL隊列中的URL一起,形成網頁集合,在此集合內部進行PageRank計算;計算完成以後,將待抓取URL隊列裡的網頁按照PageRank得分由高到低排序,形成序列就是爬蟲接下來應該依次抓取的URL列表。由於PageRank是一個全局算法,就是當所有網頁都被下載完成以後,其計算結果才是可靠的,但是爬蟲在抓取過程中只能接觸到一部分網頁,所以在抓取階段的網頁時無法進行可靠的PageRank計算的,所以叫做非完全PageRank策略。5、OCIP策略(Online Page Importance Computation)OCIP字面含義為「在線頁面重要性計算」,算是一種改進的PageRank算法。算法開始前,每個網際網路頁面被賦予相同的數值,每當下載了某個頁面P後,P將自己擁有的數值平均分配給頁面中包含的連結,同時清空自己的數值。對於待抓取URL隊列中的網頁,根據其手頭數值大小排序,優先下載數值較大的網頁。6、合作抓取策略(抓取提速策略)增加爬蟲數量可以提高總體抓取速度,但需要將工作量分解給不同的網頁爬蟲,以保證分工明確,防止出現多個爬蟲抓取相同的頁面,浪費資源。① 通過web主機的IP位址來分解,讓某個爬蟲僅抓取某個地址段的網頁對於中小型網站,出於經濟的考慮,通常會在一臺伺服器中提供不同的web服務,這樣就出現多個域名對應一個IP段的情況;但新浪、搜狐等大型網站通常採用負載均衡的IP組技術,同樣的域名對應多個IP位址。所以這種方式並不方便② 通過網頁域名來分解,使某個爬蟲僅抓取某個域名段的網頁將不同域名分配給不同爬蟲抓取,某一個爬蟲只抓取固定域名集合下的網頁;這樣保證不重複抓取大型網站的網頁,中小型網站即便重複抓取也可以接受的策略分配任務。所以,為了抓取大網站,按照域名分解的策略更加合理。內容比較教條化,主要用於梳理常識使用。

相關焦點

  • 網站SEO優化,爬蟲如何抓取數據,搜尋引擎的工作原理
    搞懂了搜尋引擎的工作原理之後,可以解決優化當中很多問題,如網站網站蜘蛛有沒有來網站,網站為什麼沒有收錄,網站為什麼有收錄,沒有排名。搜尋引擎為想要抓取網際網路站的頁面,不可能手動去完成,那麼百度、google他們的工程師就編寫了一個程序,他們給這個自動抓取的程序起了一個名字,爬蟲(也可以叫做「蜘蛛」)。
  • SEO的定義-什麼是搜尋引擎優化?
    搜尋引擎排名高是SEO的目標SEO的目標是使網頁獲得較高的搜尋引擎排名。網頁的搜尋引擎優化越好,它將在搜索結果列表中獲得更高的排名。(請注意,SEO是不是決定搜尋引擎的網頁排名的唯一因素。)對於SEO同樣重要的是所謂的「頁外」策略。現代搜尋引擎不僅僅檢查網頁本身,還考慮了其他因素,例如頁面連結的數量。網頁的入站連結越多,它將在搜尋引擎中排名越高。 來賓博客(在其他站點的網站和博客上發布作品)是一種安全有效的連接建立方法。
  • 「爬蟲」如何搶低價票?藉助超連結信息抓取網頁
    藉助超連結信息抓取網頁  「『爬蟲』技術是實現網頁信息採集的關鍵技術之一,通俗來說,『爬蟲』就是一段用來批量、自動化採集網站數據的程序,幾乎不需要人工幹預。」北京理工大學網絡科學與技術研究院副教授閆懷志告訴科技日報記者。
  • SEO優化裡的nofollow 是什麼意思?在使用nofllow有哪些技巧!
    它的出現為網站管理員提供了一種方式,即告訴搜尋引擎」不要追蹤此網頁上的連結」或」不要追蹤此特定連結。這個標籤的意義是告訴搜尋引擎這個連結不是經過作者自己編輯的,所以這個連結不是一個信任票。加nofllow有什麼影響 Nofollow屬性介紹:通常情況下,反向連結是會傳遞權重的,所以一些做SEO的為了添加反向連結,就在論壇和博客等大量發布帶無關連結的內容。
  • 什麼是搜尋引擎?什麼是SEO?什麼是域名、網址、網站名?
    10、什麼是robots搜尋引擎用來爬取網頁內容的工具我們稱之為搜尋引擎機器人。搜尋引擎機器人每次來到要抓取的網站,都會先訪問這個網站根目錄下的一個文件(robots.txt),如果不存在該文件,則搜尋引擎機器人默認這個網站允許其全部抓取。
  • 什麼是搜尋引擎蜘蛛?工作原理是什麼?
    通過昨天的分享,我們知道了如何發布文章更容易被搜尋引擎收錄,我們同時提到了「蜘蛛」這個程序,今天帶大家認識一下搜尋引擎蜘蛛。1、搜尋引擎蜘蛛介紹網絡爬蟲,是一種負責收集網絡信息的程序,每個搜尋引擎都配有蜘蛛程序。
  • 關於SEO搜尋引擎蜘蛛的幾個知識點
    關於SEO搜尋引擎蜘蛛的幾個知識點一、搜尋引擎地址庫為了避免重複爬行和抓取網址,搜尋引擎會建立一個地址庫,記錄已經被發現、但是還沒有抓取的頁面,以及已經被抓取的頁面。3、站長通過搜尋引擎網頁提交表格進來的網址。4、站長通過xml網站地圖、站長平臺提交的網址。蜘蛛按重要性從待訪問地址庫中提取URL,訪問並抓取頁面,然後把這個URL從待訪問地址庫中刪除,放進已訪問地址庫中。
  • 通過了解搜尋引擎基本工作原理掌握SEO優化技巧
    排名這一塊設計算法問題,暫且不去深究,這裡主要說說爬行和抓取以及預處理兩個方面。搜尋引擎爬行和抓取原理通過蜘蛛程序,各搜尋引擎在訪問網站時都會先去抓取網站根目錄下的robots.txt文件,從而獲取網站中被禁止爬取網址的信息。對於被禁止抓取部分的網址,不會被搜尋引擎收錄。
  • 你其實並不了解的搜尋引擎蜘蛛分類
    以百度為例,大家要為什麼能在百度上搜到各類網站網頁的內容,是因為百度派出去的小弟—百度蜘蛛(baiduspider)跑到各大網站上去抓取網頁,經過層層過濾將百度認為有價值的網頁抓回自己的資料庫並進行相關性的排名,最後當用戶搜索的時候再呈現出來。但是網站極多,質量也參差不齊,對所有網站花費一樣的資源去抓取肯定也是不現實的,於是百度就搞出不同類型的蜘蛛對不同網站進行不同程度,不同廣度的抓取。
  • 網絡爬蟲無處不在,無意中的連結分享就能洩露你的隱私
    回答前,需要解釋一下網頁爬蟲的作用。今天,搜尋引擎已經成為大家上網衝浪的標配,甚至有「內事不決問百度,外事不決問谷歌」的說法。搜尋引擎可以根據用戶的需要提供內容豐富的網上信息,相對於傳統的紙質信息媒介,從根本上改變了人們獲取及處理信息的習慣,極大提高了效率。而其基礎就在於大量收集網頁信息的網絡爬蟲。在搜尋引擎發展的初期,程序猿小哥哥相互間炫耀的一個指標就是,自己的爬蟲收集的網頁數量。
  • 做Google SEO前,先了解Google抓取網頁流程和搜索算法
    做Google SEO前,先了解Google抓取網頁流程和搜索算法我們自己搭建外貿獨立站更多的就是為了做Google SEO獲得排名以獲取免費的搜尋引擎流量。想要做Google SEO,那麼我們首先應該要了解一下Google的搜尋引擎抓取網頁流程,知道了流程你才知道應該要如何應對。
  • Python新手學習網絡爬蟲要做什麼?
    爬蟲,被稱為網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者,是一種按照一定的規則,自動地抓取全球資訊網信息的程序或者腳本,主要用於搜尋引擎,它將一個網站的所有內容與連結進行閱讀,並建立相關的全文索引到資料庫中,然後跳到另一個網站。
  • 了解入門爬蟲技術原理,看這篇就夠了
    一、爬蟲系統的誕生通用搜尋引擎的處理對象是網際網路網頁,目前網際網路網頁的數量已達百億,所以搜尋引擎首先面臨的問題是:如何能夠設計出高效的下載系統,以將如此海量的網頁數據傳送到本地,在本地形成網際網路網頁的鏡像備份。
  • 網絡爬蟲作用有哪些?如何構建網絡爬蟲?
    機器人掃描並抓取每個所需頁面上的某些信息,直到處理完所有能正常打開的頁面。網絡爬蟲大致有4種類型的結構:通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲、深層網絡爬蟲 。3、增量Web爬蟲增量式網絡爬蟲,在爬取網頁的時候,只爬取內容發生變化的網頁或者新產生的網頁,對於未發生內容變化的網頁,則不會爬取。增量式網絡爬蟲在一定程度上能夠保證所爬取的頁面,儘可能是新頁面。
  • SEO搜尋引擎優化代運營,教育類網站如何優化?
    SEO搜尋引擎優化推廣的定義 SEO搜尋引擎優化是一種利用搜尋引擎的規則提高網站在有關搜尋引擎內的自然排名。了解各種搜尋引擎怎樣進行搜索、怎樣抓取網際網路頁面、怎樣確定特定關鍵詞的搜索結果排名的技術。
  • 技術之一,seo服務服務價格_seo優化公司電話
    專注於SEO關鍵詞排名優化,品牌網站建設,營銷型網站建設,App、小程序開發,搜尋引擎seo優化,競價託管sem,品牌口碑建設與代運營等服務。企業通過引進前BAT產品經理不斷豐富產品線優化技術實力,力爭為企業提供更優,更全,更精的網絡營銷服務。
  • 網絡爬蟲技術有哪些用途和危害?
    其實這就是運用了網絡爬蟲技術。估計有人對爬蟲二字看起來就發毛。與自然接觸少的城裡長大的人,很多都天生怕蟲子,不過對從小燒烤蒸煮過無數蟲子螞蚱的老一代人來說,蟲子又有什麼可怕的?網絡爬蟲說到底就是一種小程序,屬於按照一定的規則,自動抓取全球網絡上的程序和腳本。對網絡用戶關注的信息進行分析和統計,最終作為一種網絡分析資源來獲得特定的利益。
  • 成為搜索產品經理(2):認識網絡爬蟲
    減少被抓取網站的網絡負載四、爬蟲質量的評價標準從用戶體驗角度,我們需要對爬蟲質量進行衡量,有以下3個指標:1. 抓取網頁覆蓋率2. 抓取網頁時新性3.抓取網頁重要性4.1 覆蓋率覆蓋率 = 爬蟲抓取的網頁數量 / 網際網路所有網頁數量的比例覆蓋率高,等價於搜尋引擎的召回率越高。
  • 2018年最新搜尋引擎蜘蛛大全
    今天冬鏡SEO講的是2018年最新各大搜尋引擎蜘蛛名稱整理分享各大seo搜尋引擎的蜘蛛會不斷地訪問抓取我們站點的內容,也會消耗一定的站點流量有時候就需要屏蔽某些蜘蛛訪問我們的站點,文章尾部會講解決辦法了解各大搜尋引擎蜘蛛爬蟲
  • 搜尋引擎工作原理:內容處理的步驟
    搜尋引擎工作原理中內容處理部分在相關seo書籍和網絡文章中已經分析得很透徹,其實這部分內容中有不少東西值得研究思考,並能運用到日常的seo工作中。不論是白帽還是黑帽seo,在這部分都有很大技術和邏輯上的操作空間。