關於SEO搜尋引擎蜘蛛的幾個知識點
一、搜尋引擎地址庫
為了避免重複爬行和抓取網址,搜尋引擎會建立一個地址庫,記錄已經被發現、但是還沒有抓取的頁面,以及已經被抓取的頁面。蜘蛛在頁面上發現連結後並不是馬上就去訪問,而是將URL存入地址庫,然後統一安排抓取。
二、地址庫中的URL有幾個來源:
1、人工錄入的種子網站。
2、蜘蛛抓取頁面後,從html中解析出新的連結URL,與地址庫中的數據進行對比,如果是地址庫中沒有的網址,就存入待訪問地址庫。
3、站長通過搜尋引擎網頁提交表格進來的網址。
4、站長通過xml網站地圖、站長平臺提交的網址。
蜘蛛按重要性從待訪問地址庫中提取URL,訪問並抓取頁面,然後把這個URL從待訪問地址庫中刪除,放進已訪問地址庫中。
大部分主流搜尋引擎都提供一個表格,讓站長提交網址。不過這些提交來的網址都只是存入地址庫而已,是否收錄還要看頁面重要性如何。搜尋引擎所收錄的絕大部分頁面是蜘蛛自己跟蹤連結而得到的。可以說提交頁面作用微乎其微,搜尋引擎更喜歡自己沿著連結發現新頁面。
三、文件存儲
搜尋引擎蜘蛛抓取的資料庫存入原始頁面資料庫。其中頁面數據與用戶瀏覽得到的html是完全一樣的。每個URL都有一個獨特的文件編號。
四、爬行時的複製內容檢測
檢測並刪除複製內容通常實在下面介紹的預處理過程中進行的,但現在的蜘蛛在爬行和抓取文件時也會進行一定程度的複製內容檢測。遇到權重很低的網站上大量轉載或抄襲內容時,很可能不再繼續爬行。這也就是有的站長在日誌文件中發現了蜘蛛,但頁面從來沒有被收錄過的原因之一。
通過以上的介紹應該掌握做seo優化時吸引蜘蛛時,大致可以從幾個方面來入手了。以上內容均來源於東莞網絡公司,由東莞培戀網科技整合。東莞市培戀網科技為企業網頁建設排名優化,提供企業、個人模板網站製作,國外域名註冊和伺服器提供商。