搜尋引擎抓取的原理和步驟主要分為四點:即抓取、過濾、建立索引、輸出結果。
1、抓取
蜘蛛在對網站進行抓取時會採取兩種抓取策略:廣度優先策略和深度優先策略。廣度優先是蜘蛛會先抓取起始網頁中的所有連結後,再選擇其中一個連結抓取此網頁中的所有連結;深度優先就是蜘蛛會從起始頁開始,一個連結一個連結跟蹤下去,處理完這條線路後再轉入下一個起始頁。而搜尋引擎會混合使用這兩種策略對你的網站進行抓取。
蜘蛛抓取的內容包括連結、文本、圖片、視頻、CSS、JS、iframe框架。而這裡面css、js、iframe框架對於蜘蛛識別是不太友好的。
2、過濾
蜘蛛將網頁進行抓取後會將其存入一個原始頁面資料庫中,在這裡搜尋引擎會進行過濾,將欺騙用戶的頁面(文不對題)、死連結頁面(打不開的頁面)、空白頁面(頁面沒內容)、毫無價值的頁面過濾,將這些頁面全部都摒棄掉。而將能夠滿足用戶需求的高質量頁面保留下來。

3、建立索引
搜尋引擎過濾後留下來的高質量頁面就會對其建立索引。搜尋引擎建立索引時會對網站的內容分類整理;並計算連結關係,包括優質外鏈和垃圾外鏈;對特殊文件進行處理(txt文件、pdf文件、jpg文件);最後根據關鍵詞識別存儲,這樣就完成了索引流程。
4、輸出結果
當索引建立完成後,用戶搜索關鍵詞就會觸發搜尋引擎的關鍵詞關鍵庫,並將符合條件的搜索結果展示到搜索結果頁(SERP)。