從搜尋引擎角度講,網際網路中的頁面主要分為四種頁面,即已抓取網頁、待抓取網頁、可抓取網頁以及暗網。
網頁四大類型講解,熟悉網站頁面分類方式
顧名思義,已抓取網頁就是蜘蛛已經抓取過的網站內容, 待抓取就是未抓取但是已經進入等待列表中,可抓取是還沒有發現但是已經存在的頁面,暗網則是搜尋引擎通過連結自我抓取無法找到需要手動提交才能發現的頁面。
平時我們所分析的頁面抓取主要是非暗網中的頁面抓取,暗網抓取每個搜尋引擎都有其獨到的算法我們不做過多的剖析。
搜尋引擎的抓取策略主要有兩種策略,即為廣度優先策略和深度優先策略。
廣度優先策略講解
大多數網頁都會有除卻自身連結之外的很多連結,比如詳情頁有相關新聞、相關案例等連結,當搜尋引擎訪問到一個頁面之後,它該頁面所有連結依次入庫排列,然後對發現的頁面進行遍歷抓取,再把最新發現的URL進行入庫排列等待抓取,按照這樣的邏輯依次進行抓取即為廣度優先策略。如圖:抓取順序為1-2、3、4-5-11-6-12-3-7-13-8-14。結合圖文自我理解一下。
深度優先策略講解
按照頁面的一條連結一層一層的進行抓取,直到抓取到最末端的連結後,再返回初始位置按照同樣的方式進行抓取其餘連結則為深度優先策略。
不管是廣度優先還是深度優先兩種策略,只要有足夠的時間搜尋引擎都能抓取全部的頁面,但是搜尋引擎的抓取精力是優先的,並不能保證頁面抓取的全面性,搜尋引擎受到自身資源的限制不得不考慮抓取頁面優先級的問題。也對應出現了另外兩種抓取策略。
重要網頁優先抓取策略
判斷頁面的重要性,搜尋引擎主要從自身的質量、權重來判斷另外還有一個比較重要的因素就是導入連結的多少,比如首頁的導入連結肯定是必起於頁面多的,因此首頁的優先級也是比較高的。
大站連結優先策略
大站優先很明顯的就是搜索一群對大型網站有偏愛性,它自身的權重就是比較高的,這裡的權重講的不單純是PR,而是信任度,並不是說人家實力大就是權重高搜尋引擎就喜歡,很多B2B網站內容量也是很龐大的,然而搜尋引擎並不能很好的去爬取頁面內容,相對來說一些較好的網站可以有著很好的活躍度,所以發新聞可以增加活躍度提高,發到大站首頁也可以實現秒收。
總而言之,搜尋引擎的資源是有限的,在搜尋引擎有限資源的情況下,我們應該儘可能的依靠外部連結來引導蜘蛛和提升網站權重,這才是網站SEO搜尋引擎優化長期運營的重中之重