你其實並不了解的搜尋引擎蜘蛛分類

2020-12-21 天鴻談網際網路廣告

本章主要介紹一下搜尋引擎蜘蛛都有哪些類型。了解類型之前要先知道什麼是搜尋引擎蜘蛛。百度百科上有相關解釋,天鴻用一個形象的表述重新說一下。以百度為例,大家要為什麼能在百度上搜到各類網站網頁的內容,是因為百度派出去的小弟—百度蜘蛛(baiduspider)跑到各大網站上去抓取網頁,經過層層過濾將百度認為有價值的網頁抓回自己的資料庫並進行相關性的排名,最後當用戶搜索的時候再呈現出來。但是網站極多,質量也參差不齊,對所有網站花費一樣的資源去抓取肯定也是不現實的,於是百度就搞出不同類型的蜘蛛對不同網站進行不同程度,不同廣度的抓取。按照現在網絡上所有Spider的作用及表現出來的特徵,可以將其分為三類:批量型Spider、增量型Spider和垂直型Spider。

1.批量型Spider

一般具有明顯的抓取範圍和目標,設置抓取時間的限制、抓取數據量的限制,或抓取固定範圍內頁面的限制等。當Spider的作業達到預先設置的目標就會停止。普通站長和SEO人員使用的採集工具或程序,所派出的Spider大都屬於批量型Spider,一般只抓取固定網站的固定內容,或者設置對某一資源的固定目標數據量,當抓取的數據或者時間達到設置限制後就會自動停止,這種Spider就是很典型的批量型Spider。

2.增量型Spider

增量型Spider也可以稱之為通用爬蟲。一般可以稱為搜尋引擎的網站或程序,使用的都是增量型Spider,但是站內搜尋引擎除外,自有站內搜尋引擎一般是不需要Spider的。增量型Spider和批量型Spider不同,沒有固定目標、範圍和時間限制,一般會無休止地抓取下去,直到把全網的數據抓完為止。

增量型Spider不僅僅抓取儘可能全的頁面,還要對已經抓取到的頁面進行相應的再次抓取和更新。因為整個網際網路是在不斷變化的,單個網頁上的內容可能會隨著時間的變化不斷更新,甚至在一定時間之後該頁面會被刪除,優秀的增量型Spider需要及時發現這種變化,並反映給搜尋引擎後續的處理系統,對該網頁進行重新處理。當下百度、Google網頁搜索等全文搜尋引擎的Spider,一般都是增量型Spider。

3.垂直型Spider

垂直型Spider也可以稱之為聚焦爬蟲,只對特定主題、特定內容或特定行業的網頁進行抓取,一般都會聚焦在某一個限制範圍內進行增量型的抓取。此類型的Spider不像增量型Spider一樣追求大而廣的覆蓋面,而是在增量型Spider上增加一個抓取網頁的限制,根據需求抓取含有目標內容的網頁,不符合要求的網頁會直接被放棄抓取。

對於網頁級別純文本內容方面的識別,現在的搜尋引擎Spider還不能百分之百地進行準確分類,並且垂直型Spider也不能像增量型Spider那樣進行全網際網路爬取,因為那樣太浪費資源。所以現在的垂直搜尋引擎如果有附屬的增量型Spider,那麼就會利用增量型Spider以站點為單位進行內容分類,然後再派出垂直型Spider抓取符合自己內容要求的站點;沒有增量型Spider作為基礎的垂直搜尋引擎,一般會採用人工添加抓取站點的方式來引導垂直型Spider作業。當然在同一個站點內也會存在不同的內容,此時垂直型Spider也需要進行內容判斷,但是工作量相對來說已經縮減優化了很多。

現在一淘網、優酷下的搜庫、百度和Google等大型搜尋引擎下的垂直搜索使用的都是垂直型Spider。雖然現在使用比較廣泛的垂直型Spider對網頁的識別度已經很高,但是總會有些不足,這也使得垂直類搜尋引擎上的SEO有了很大空間。

總而言之,搜尋引擎蜘蛛劃分不同的蜘蛛類型就是秉著一個原則:好站多抓深抓,破站少抓淺抓甚至屏蔽不抓。

天鴻seo博客www.thseoer.com

相關焦點

  • 三種基本的搜尋引擎蜘蛛類型
    看了幾篇有關於搜尋引擎蜘蛛分類的文章,基本都是一樣的內容,內容來源也都基本是痞子瑞的那本書,內容改動的部分不超過5%,真的是替搜尋引擎的蜘蛛感到不值得啊,辛辛苦苦抓來的竟然都是這種「垃圾頁面」。本文同樣介紹三種基本的搜尋引擎蜘蛛類型,也就是批量型蜘蛛、增量型蜘蛛以及垂直型蜘蛛,至於是不是垃圾內容,您看完再進行評判。為了大家能夠更好的理解,我們把搜尋引擎比作一個擁有無限果樹的果園老闆,蜘蛛比作是摘果子的工人。蜘蛛抓取頁面的過程就是工人摘果子的過程。我們帶著這個比喻來理解搜尋引擎蜘蛛的三種類型。
  • 搜尋引擎蜘蛛的基本原理及工作流程
    搜尋引擎用來爬行和訪問頁面的程序被稱為蜘蛛(spider),也叫機器人(bot)。搜尋引擎蜘蛛訪問網站頁面時類似於普通用戶使用瀏覽器,蜘蛛程序發出頁面訪問請求後,伺服器返回HTML代碼,蜘蛛程序把收到的代碼存入原始頁面資料庫,搜尋引擎為了提高爬行和抓取的速度,都使用多個蜘蛛分布爬行。
  • 2018年最新搜尋引擎蜘蛛大全
    今天冬鏡SEO講的是2018年最新各大搜尋引擎蜘蛛名稱整理分享各大seo搜尋引擎的蜘蛛會不斷地訪問抓取我們站點的內容,也會消耗一定的站點流量有時候就需要屏蔽某些蜘蛛訪問我們的站點,文章尾部會講解決辦法了解各大搜尋引擎蜘蛛爬蟲
  • 搜尋引擎蜘蛛如何判斷文章原創度?
    seo優化人員有一個很重要的工作就是每天更新網站文章,文章原創度越高,對搜尋引擎越友好。那麼搜尋引擎是怎麼判斷文章是否是原創?星若傳媒小編總結了幾點:1.百度蜘蛛最先在哪裡看到這個內容一般那些權重高的平臺,搜尋引擎蜘蛛抓取網站比較頻繁,那些從這些平臺複製粘貼的內容,百度蜘蛛是可以辨別出來哪個是原創。
  • 什麼是搜尋引擎蜘蛛?工作原理是什麼?
    通過昨天的分享,我們知道了如何發布文章更容易被搜尋引擎收錄,我們同時提到了「蜘蛛」這個程序,今天帶大家認識一下搜尋引擎蜘蛛。1、搜尋引擎蜘蛛介紹網絡爬蟲,是一種負責收集網絡信息的程序,每個搜尋引擎都配有蜘蛛程序。
  • 關於SEO搜尋引擎蜘蛛的幾個知識點
    關於SEO搜尋引擎蜘蛛的幾個知識點一、搜尋引擎地址庫為了避免重複爬行和抓取網址,搜尋引擎會建立一個地址庫,記錄已經被發現、但是還沒有抓取的頁面,以及已經被抓取的頁面。蜘蛛在頁面上發現連結後並不是馬上就去訪問,而是將URL存入地址庫,然後統一安排抓取。二、地址庫中的URL有幾個來源:1、人工錄入的種子網站。2、蜘蛛抓取頁面後,從html中解析出新的連結URL,與地址庫中的數據進行對比,如果是地址庫中沒有的網址,就存入待訪問地址庫。
  • 搜尋引擎蜘蛛智能到什麼程度?
    關於搜尋引擎蜘蛛的蜘蛛的算法有多強大?今天我們在這裡介紹一下:大家應該有聽過網站降權、K站、不收錄、沒排名等等情況把?首先我們要先知道搜尋引擎蜘蛛是什麼?又稱為網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取全球資訊網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
  • 按照搜尋引擎蜘蛛抓取規則定期更新文章,穩定首頁排名不在話下
    因為它將被降級和沙盒,它將給搜尋引擎留下一個壞印象,你的網站排名就會不穩定。作為搜尋引擎評分網站的重要標準,我們需要關注它。那麼什麼是優質內容呢?我們認為創意和網站內容是兩個重要方面。不管你怎麼寫,都要注意發表的內容與網站主題的相關性。加強兩者之間的聯繫有什麼好處?首先,它有利於增強用戶體驗。二是有利於吸引搜尋引擎的青睞,建設優質網站,提高網站權重。
  • 通過了解搜尋引擎基本工作原理掌握SEO優化技巧
    對於一個SEO新手來說,你不需要考慮太多的東西,明白了偽原創也是制勝的法寶的真諦,了解獲取外鏈資源的方法,足以讓你受益匪淺。而隨著SEO工作的不斷深入,你也就會慢慢的發現充分利用好網絡給予你的一針一線的重要性。了解搜尋引擎的工作原理,其意義自然不在話下。
  • SEO搜尋引擎優化代運營,教育類網站如何優化?
    SEO搜尋引擎優化推廣的定義 SEO搜尋引擎優化是一種利用搜尋引擎的規則提高網站在有關搜尋引擎內的自然排名。了解各種搜尋引擎怎樣進行搜索、怎樣抓取網際網路頁面、怎樣確定特定關鍵詞的搜索結果排名的技術。
  • 搜尋引擎(百度)的工作原理:第一爬行和抓取
    蜘蛛訪問網站時,會先訪問網站的robots.txt文件,如果robots.txt文件裡頭有止訪問的文件或者目錄,蜘蛛就不會抓取。其實就是入鄉隨俗好,我這裡不讓吃豬肉,你雖然是幹部,也好遵守,就是這個意思。
  • 網絡機器人,網頁蜘蛛了解一下
    網絡機器人,網頁蜘蛛了解一下時間:2020-03-24 16:48   來源:小雞詞典   責任編輯:沫朵 川北在線核心提示:原標題:網絡爬蟲什麼意思什麼梗?網絡機器人,網頁蜘蛛了解一下 也叫網絡機器人,網頁蜘蛛 通俗的講,就是根據人的需求,在網絡中尋找需要的信息,就像一隻蜘蛛一樣在網絡中爬來爬去,不斷尋找需要的信息 網絡爬蟲有善意的,比如搜尋引擎的爬蟲,就是尋找有用的信息   原標題:網絡爬蟲什麼意思什麼梗?
  • 新研究稱鱟分類上更接近蜘蛛 叫馬蹄蟹並不準確
    當然,鱟血剛取出的時候,其實是乳白色的。在空氣中氧化後,才變成了藍色(銅離子的代表色)。因為一身厚實的盔甲,鱟有了「馬蹄蟹」的俗稱,儘管它還有一條長刺的尾巴來幫助自己翻身。有趣的是,近期的一項新研究稱,大家搞錯了鱟的生物學分類,它應該被認為是一種蜘蛛綱動物。
  • 什麼是搜尋引擎?什麼是SEO?什麼是域名、網址、網站名?
    如果需要了解更多關於Disallow:的用法,請了解百度官方的介紹:http://www.baidu.com/search/robots.html通過robots.txt來刪除被收錄的內容1、當你的網頁已被收錄,但想用robots.txt刪除掉,一般需要1-2個月。
  • SEO技巧:如何搞定搜狗搜尋引擎的收錄
    做SEO最先解決的問題,就是收錄,然後才是排名,在搜尋引擎裡,最難解決收錄的,是公認的搜狗搜尋引擎,那有沒有辦法解決搜狗的收錄呢?張智偉SEO博客搜狗收錄截圖先看上圖,是本人博客的的搜狗收錄截圖,解決搜狗搜尋引擎收錄的方法具體操作如下:1、解決網站首頁收錄的問題,這個相對簡單
  • 網站SEO優化,爬蟲如何抓取數據,搜尋引擎的工作原理
    什麼是搜尋引擎搜尋引擎是一個幫助用戶搜索他們需要內容的電腦程式。換一種說法,搜尋引擎把計算機中存儲的信息與用戶的信息需求(information need)相匹配,並把匹配的結果展示出來。搞懂了搜尋引擎的工作原理之後,可以解決優化當中很多問題,如網站網站蜘蛛有沒有來網站,網站為什麼沒有收錄,網站為什麼有收錄,沒有排名。搜尋引擎為想要抓取網際網路站的頁面,不可能手動去完成,那麼百度、google他們的工程師就編寫了一個程序,他們給這個自動抓取的程序起了一個名字,爬蟲(也可以叫做「蜘蛛」)。
  • 搜尋引擎排名因素有哪些?
    隨著百度算法的不斷調整,使搜尋引擎排名成了一個動態因素,對搜索排序進行了大洗牌,通常情況下來說,影響搜尋引擎排名的因素,既有硬體因素,也有軟體因素。3、伺服器穩定性搜尋引擎是依靠蜘蛛爬行模式去抓取網站和網址的,在網際網路之間不斷的爬行,收錄各種關鍵詞網站,因此網站的伺服器穩定性就顯得至關重要了,也為蜘蛛的爬行和抓取提供了便利條件。
  • 網站建設-怎樣建設對搜尋引擎友好的站點
    如何識別百度蜘蛛  百度蜘蛛對於站長來說可謂上賓,可是我們曾經遇到站長這樣提問:我們如何判斷瘋狂抓我們網站內容的蜘蛛是不是百度的?其實站長可以通過DNS反查IP的方式判斷某隻spider是否來自百度搜尋引擎。
  • 澳大利亞發現蜘蛛新品種:關於蜘蛛,你了解多少
    這次新發現的蜘蛛,在澳大利亞東部創造了隱蔽得難以置信的洞穴,這可能就是為什麼這群新蜘蛛一直沒有被發現的原因。而關於蜘蛛,你了解多少呢?今天咱們來說說蜘蛛這種特別常見的動物。1.蜘蛛不是昆蟲蜘蛛是蛛形綱動物。它們不是昆蟲。蜘蛛和昆蟲都屬於節肢動物門,但昆蟲的身體分為頭部、胸部、腹部三部分,而蜘蛛的身體只有頭胸部和腹部兩部分,腹部有吐絲器。蜘蛛有八條腿,而昆蟲有六條。
  • 360搜尋引擎優化:如何提高26%的流量
    這可能由於許多原因而發生; 首先,360的搜尋引擎算法並不像百度那樣完善。其次,就像百度一樣,360和搜狗都在用戶搜索方面進行了大量的實時測試(我的意思是很多如同你所做的每一個其他搜索一樣,你在一次或另一次測試中)。有點離題了, 30%的桌面流量,還不錯,是吧?