搜尋引擎引擎的工作過程非常複雜,其工作過程大致可以分為三個階段
1.網頁收集:搜尋引擎蜘蛛通過連結進行爬行和住區,將抓取到的頁面存儲到原始資料庫中
2.預處理:搜尋引擎蜘蛛抓到的頁面不能直接進行用戶查詢混排名,需要進行預處理
3.檢索服務:用戶輸入查詢詞後,排名程序調用索引數據中的數據,用戶用戶搜索詞相關的頁面按照排序順序彰顯給用戶
搜尋引擎是通過蜘蛛程序對網際網路中的網頁進行抓取和收集的,網頁收集是搜尋引擎工作的第一步,了解手所引起網頁的抓取機制,便於蜘蛛抓取更多的頁面,使得網站有更好的排名
什麼是蜘蛛
蜘蛛:網絡爬蟲,又被稱為網頁蜘蛛,網絡機器人,是按照一定規則,自動抓取網際網路網頁的程序和腳本
蜘蛛的工作方式:對於網際網路中的網站來說,如果沒有對其中的連結進行屏蔽設置,蜘蛛就可以通過連結在網址或者網站之間進行爬行和抓取,由於網際網路中的網頁頁面連結結構異常,蜘蛛需要採取一定爬行策略才能進行抓取多的頁面
簡單爬行策略有兩種:一種是深度優先,一種是廣度優先。
深度優先:是指蜘蛛會從起始網頁開始,一個連結接著一個連結跟蹤吸取去,出來完這條線路之後再進入下一個起始頁繼續跟蹤連結。
如圖1所示:

深度優先模式,蜘蛛從f頁面爬行到A1、A2、A3頁面,到A3頁面後,已經沒有其他連結可爬行了,就會返回到f頁面,順著頁面上的另一個連結爬行到B1、B2、B3頁面。在深度優先策略中,蜘蛛一直爬到無法再向前,才會返回爬行另一條線路
廣度優先:是指蜘蛛會抓取起始網頁連結中所有的連結,然後再選其中的一個連結頁面,繼續抓取在此頁面中的所有頁面,這是常用的方式,因為這個方法可以讓網絡蜘蛛並行處理,提升其抓取速度
如圖2所示:

是廣度有限的模型圖,蜘蛛從f頁面順著連結爬行到A1、B1、C1頁面,直到f頁面上的所有連結都爬行完,再從f頁面發現的下一層連結A1爬行到A2、A3、A4頁面
深度優先和官渡優先通常都是混合使用的,這樣既可以照顧到儘量多的網站,也可以照顧到一部分網站的內頁,勇士也會考慮頁面權重、網站規模、外鏈、更新等因素,而且搜尋引擎為了提升爬行和抓取的速度,都是用多個蜘蛛並發分布爬行,根據這一原理,在優化網站時,應該合理設置網站中的連結(內鏈的結構布局),便於直至順序的爬行網站中的各個頁面