爬蟲是搜尋引擎用來抓取網站的一套自動化程序,是搜尋引擎基本原理所必須的一環,屏蔽爬蟲抓取之後,搜尋引擎蜘蛛將無法抓取網站。除了有品牌保護的品牌詞會排名第一,其他關鍵詞的排名基本會消失,甚至索引也會被清除。
1、爬蟲不會再抓取網站
robots是用來控制爬蟲抓取網站的txt文件,通過robots屏蔽爬蟲抓取之後,爬蟲將不會繼續抓取網站,在搜索結果會顯示無法提供頁面的內容描述。
2、不抓取之後索引會逐漸被清除
屏蔽抓取之後,頁面快照會一直停留在最後一次更新快照的時間,之後就不會再繼續抓取該頁面,對於搜尋引擎來說,這個頁面基本等於不更新也不重要的,漸漸會被清除索引。
3、未被清除的索引也無法獲得排名
搜尋引擎和用戶喜歡新鮮的內容,屏蔽抓取之後,搜尋引擎抓取不到頁面上有哪些內容,也不知道頁面有沒有更新,所以快照也不會更新。
前面說過搜尋引擎會清除一部分索引,而有些索引可能一直留在索引庫的低質索引庫裡,雖然site能查詢到該收錄頁面,但在低質索引庫的頁面沒有機會參與排名。
最後
如果只是想屏蔽某個搜尋引擎爬蟲的抓取,可以在robots的寫法上做一些優化。比如,對所有搜尋引擎生效的寫法是user-agent: *,要屏蔽百度蜘蛛,可以添加user-agent: baiduspider,360則用user-agent: 360spider。