看了幾篇有關於搜尋引擎蜘蛛分類的文章,基本都是一樣的內容,內容來源也都基本是痞子瑞的那本書,內容改動的部分不超過5%,真的是替搜尋引擎的蜘蛛感到不值得啊,辛辛苦苦抓來的竟然都是這種「垃圾頁面」。本文同樣介紹三種基本的搜尋引擎蜘蛛類型,也就是批量型蜘蛛、增量型蜘蛛以及垂直型蜘蛛,至於是不是垃圾內容,您看完再進行評判。
為了大家能夠更好的理解,我們把搜尋引擎比作一個擁有無限果樹的果園老闆,蜘蛛比作是摘果子的工人。蜘蛛抓取頁面的過程就是工人摘果子的過程。我們帶著這個比喻來理解搜尋引擎蜘蛛的三種類型。
一、批量型蜘蛛
咱們不太清楚這蜘蛛類型的名字是怎麼區分的,咱也不知道,咱也不敢問。首先這個批量型蜘蛛就很容易讓人產生誤解,以為批量就不會有限制,但是實際上批量型蜘蛛是有限制的。限制主要有三點:1、限定抓取數量;2、限定抓取時間;3、限制抓取固定網站的固定內容。看到這限制的內容,大家可能會想要一些採集類的工具,其實就是批量型蜘蛛的原理。
那麼想到我們那個工人摘果子的比喻,批量型蜘蛛的限定條件就可以對應果園老闆告訴工人:1、要摘過1000個水果;2、要摘夠八個小時的水果;3、要把38號果樹的果子摘完。
二、增量型蜘蛛
增量型蜘蛛可以理解為給批量型蜘蛛增加量了,具體就是不會有關於數量、時間、內容範圍的限定,會一直抓取下去,直到把網際網路中的內容抓完為止(以目前採集和偽原創的「努力」,抓完是不可能抓完的了),增量型蜘蛛除了負責抓取新頁面還要負責老頁面的再次抓取,以便及時的做出頁面的更新和刪除。增量型蜘蛛也是目前搜尋引擎主要的蜘蛛類型。
那麼這種類型的蜘蛛對比到摘果子的過程,就是果園的老闆告訴工人,需要無休止的進行摘果子,沒有時間、數量、目標的限制,而且不光要進行摘果子,還要查看是不是有果子漏摘了,或者摘完的果子壞掉了,進行及時的處理。
三、垂直型蜘蛛
垂直型蜘蛛可以理解為限定了爬取內容的增量型蜘蛛,需要和批量型蜘蛛進行區別的是,垂直型蜘蛛限制的並不是數量、時間,限定的是爬取的內容,或者說爬取頁面的類別,對於不符合類別的頁面將會直接丟棄,但是垂直型蜘蛛也會在這個類別中無限的爬取下去。
這種類型的蜘蛛對比到摘果子的過程就是果園老闆告訴工人,只需要摘取蘋果,不需要摘取其他的水果,遇到梨、桃子直接略過即可。雖然限制了水果的分類,但是蘋果的數量依然是很多的,需要不斷的採摘下去。
希望上述工人摘果子的比喻可以讓你更容易的理解搜尋引擎蜘蛛的類型,搜尋引擎對於蜘蛛的分類當然是想更快的把優質頁面抓取回來,滿足搜索用戶的需求,在一定程度上這和工人如何摘取水果才能滿足採購商的需求也是相似的。最後祝各位站長的「水果」都被摘走!