谷歌開源robots.txt 欲引領搜尋引擎爬蟲的行業標準!

2020-12-05 太平洋電腦網

[PConline資訊]外媒報導稱,谷歌希望將發展數十年的robots.txt解析器開源,以推動REP成為搜尋引擎爬蟲的行業標準。機器人排除協議(REP)是荷蘭軟體工程師MartijnKoster於1994年提出的一個標準,幾乎已經成為了網站不希望被搜尋引擎收錄的注釋的事實標準。

比如谷歌爬蟲(Googlebot)就會在索引某個網站時掃描robots.txt文件,以確定其應該忽略掉哪些部分。如果根目錄中未包含該文件,那搜尋引擎就會默認索引(index)全站內容。

值得一提的是,,該文件不僅可以用於提供直接的爬蟲索引,還可以被用來填充一些關鍵字,以實現「搜尋引擎優化」(SEO)。此外,並非所有抓取工具都會嚴格遵從robots.txt文件。

比如幾年前,網際網路檔案光就選擇了為其「時光機」(WaybackMachine)歸檔工具提供支持,另外一些惡意抓取工具也會有意忽略REP。

不過需要指出的是,即便REP已經成為了默認的實施標準,但它實際上從未成為真正的網際網路標準,正如網際網路工程任務組(IETF-一家非營利性開放標註組織)所定義的那樣。

為了推動這項轉變,谷歌正在積極參與行動。這家搜索巨頭表示,當前的REP可以被「解釋」,但並不總是涵蓋邊緣化的案例。

作為補充,谷歌提出了更全面的「未定義場景」。比如在執行一次「掃描已知內容」的任務時,爬蟲該如何處理「伺服器出現不可訪問故障」的robots.txt文件、或者有拼寫錯誤的規則?

谷歌在一篇博客文章中寫到:「對於網站所有者來說,這是一項極具挑戰性的問題。因為模糊的事實標準,讓他們很難恰當地編寫規則」。

我們希望幫助網站所有者和開發者在網際網路上創造出令人驚嘆的體驗,而無需擔心如何對抓取工具加以限制。

於是谷歌與REP原作者MartijnKoster、網站管理員、以及其它搜尋引擎合作,向IETF提交了一份關於《如何在現代網絡上適用REP》的提案。

該公司尚未公布該草案的全貌,但卻是提供了一些指引。比如任何基於URI的傳輸協議,都可以適用robots.txt。且其不再局限於HTTP,亦可面向FTP或CoAP。

據悉,開發者必須至少解析robots.txt的前500KB內容。定義文件的大小,可確保每個連接的打開時間不會太長,從而減輕不必要的伺服器壓力。

另外,新的最大緩存時間被設置為24小時(或可用的緩存指令值),使得網站所有者能夠隨時靈活地更新他們的robots.txt,且爬蟲不會因此而讓網站超載。

例如,在HTTP的情況下,可使用Cache-Control報頭來確定緩存時間。而當先前可訪問的robots.txt文件由於伺服器故障而變得不可用時,則會在相當長的時間段內不再檢索該網站。

這裡需要點明的是,抓取工具可以用不同的方式去解析robots.txt文件中的說明,這可能會導致網站所有者的混淆。  為此,谷歌特地推出了C++庫,其支持Googlebot在GitHub上給出的解析和匹配系統,以供任何人訪問。

根據GitHub上的發布說明,Google希望開發者構建自己的解析器,以更好地反映Google的robots.txt文件的解析和匹配。

相關焦點

  • 2018年最新搜尋引擎蜘蛛大全
    今天冬鏡SEO講的是2018年最新各大搜尋引擎蜘蛛名稱整理分享各大seo搜尋引擎的蜘蛛會不斷地訪問抓取我們站點的內容,也會消耗一定的站點流量有時候就需要屏蔽某些蜘蛛訪問我們的站點,文章尾部會講解決辦法了解各大搜尋引擎蜘蛛爬蟲,對我們進行網站SEO優化起到很大作用冬鏡SEO收集了各大搜尋引擎的蜘蛛爬蟲UA,以便你需要時查閱
  • 常見的反爬蟲技術有哪些?如何防止別人爬自己的網站?
    搜尋引擎可以通過爬蟲抓取網頁信息,同時也有很多企業通過爬蟲獲取其他平臺的信息用於數據分析或者內容優化,但是對於自身網站有些頁面或者信息並不希望被爬蟲抓取,那我們如何來實現反爬蟲技術呢?如何防止別人爬自己的網站呢?
  • 最全的 Python 反爬蟲及應對方案!
    解決方法:可以自己設置一下user-agent,或者更好的是,可以從一系列的user-agent裡隨機挑出一個符合標準的使用。實現難度:★ 2. IP限制如果一個固定的ip在短暫的時間內,快速大量的訪問一個網站,後臺管理員可以編寫IP限制,不讓該IP繼續訪問。解決方法:比較成熟的方式是:IP代理池img簡單的說,就是通過ip代理,從不同的ip進行訪問,這樣就不會被封掉ip了。
  • 【英文SEO】搜尋引擎工作原理
    搜尋引擎是一個龐大複雜的電腦程式,它通過網際網路搜集信息並且加以一定組織和處理提供用戶查詢服務(如百度,谷歌,好搜,搜狗等)包括阿里巴巴集團下的電子商務平臺,ebay,亞馬遜都可以說是搜尋引擎,只不過對於整個網際網路來說它們是站內的,它們都是在為用戶提供有價值信息。
  • 在搜尋引擎領域,有哪些常用的網絡爬蟲?
    但業界內很少叫蜘蛛的,一般都叫做網絡爬蟲,Spider只是個別爬蟲的名稱。 網絡爬蟲是一個自動提取網頁的程序,它為搜尋引擎從Internet網上下載網頁,是搜尋引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。
  • 搜尋引擎爬蟲的工作原理解析
    作為一名合格的SEOER,我們接觸的是網站,接觸的是搜尋引擎,既然如此,那麼我們就必須對搜尋引擎有一定的了解,只有這樣才能做出效果。嚴格來說搜尋引擎是通過一種「爬蟲(蜘蛛)」這樣的電腦程式來抓取我們網頁上面的信息的,總體來講,搜尋引擎爬蟲的工作原理一共分為抓取、過濾、收錄索引、排序四大環節,下面我們一起來看一下。
  • 搜尋引擎蜘蛛(爬蟲)工作過程及原理
    什麼是搜尋引擎爬蟲,搜尋引擎爬蟲是如何工作的。搜尋引擎爬蟲也叫做搜尋引擎蜘蛛,是用來抓取網頁信息的,搜尋引擎抓取過程分為大致五個步驟。#Python爬蟲#分別是:抓取 → 存放 → 甄別 → 收錄 → 權重衡量分配排名搜尋引擎蜘蛛首先會抓取網頁信息,把抓取到的信息存放到搜尋引擎臨時資料庫中,接著搜尋引擎會根據自身的甄別原則分析信息價值,有價值的信息保留下來,沒有價值的信息進行刪除處理。
  • 歐洲小眾搜尋引擎欲挑戰谷歌
    【新華社微特稿】曝出數據隱私醜聞的美國網際網路巨頭谷歌公司如今面臨歐洲一批小眾搜尋引擎企業挑戰。美聯社22日報導,法國寬特公司、英國Mojeek和德國Unbubble等企業承諾保護用戶隱私,不會追蹤用戶數據、過濾搜索結果或有針對性地推送廣告。
  • 3B大戰,中國爬蟲第一案的來龍去脈
    最近,大數據行業,特別是涉及到爬蟲技術的大數據公司接連出事,風波不斷,不是被警方帶走或被查封人公司,就是自行停止了數據爬蟲服務。一時間,大數據公司是不是會像P2P一樣,成多米諾骨牌效應,引發猜測和行業恐慌。
  • 爬蟲究竟是合法還是違法的?
    來源:格隆匯作者:純潔的微笑來源:純潔的微笑據說網際網路上 50%以上的流量都是爬蟲創造的,也許你看到很多熱門數據都是爬蟲所創造的,所以可以說無爬蟲就無網際網路的繁榮。前天寫了一篇文章《 只因寫了一段爬蟲,公司200多人被抓!》,講述程式設計師因寫爬蟲而被刑偵的事件。文章傳播很廣,評論中討論最熱是:爬蟲究竟是合法還是違法的?
  • 搜尋引擎的工作原理:了解抓取工具所需的一切
    儘管Google和其他搜尋引擎都對搜索結果背後的機制保密,但營銷人員卻從了解搜尋引擎的工作原理中受益。了解搜尋引擎如何查找,組織和選擇結果意味著您可以更好地優化網頁排名。一、搜尋引擎的工作原理:基礎知識「搜尋引擎」是幾種相互關聯的機制,這些機制可以根據您在搜索欄中輸入的文字一起識別網頁內容(圖像,視頻,網站頁面等)。
  • 開源搜尋引擎solr介紹
    「內事不決問百度,外事不決問谷歌」,相信大家對百度、谷歌等搜尋引擎都很熟悉了。網上信息浩瀚萬千,而且毫無秩序,所以搜尋引擎對用戶的作用就體現出來了。不過,因為商業原因,百度、谷歌等搜尋引擎都不是開源的。但是,大家不用擔心,有閉源的,當然也有開源的搜尋引擎。
  • 什麼是搜尋引擎蜘蛛,什麼是爬蟲程序?有哪些類型
    什麼是搜尋引擎蜘蛛,什麼是爬蟲程序?搜尋引擎蜘蛛程序,其實就是搜尋引擎的一個自動應用程式,它的作用是什麼呢?其實很簡單,就是在網際網路中瀏覽信息,然後把這些信息都抓取到搜尋引擎的伺服器上,然後建立索引庫等等。
  • 谷歌會賣掉「鴨子」嗎?搜尋引擎DuckDuck Go欲收購域名duck.com!
    域名duck.com註冊於1995年,是英文單詞「鴨子」的意思。據了解,該域名由谷歌公司於2010年收購視訊壓縮科技公司On2 Technologies時所得。(該公司前身為The Duck Corporation,官網域名曾為duck.com。)大概是由於以「duck」命名的終端企業較多,在谷歌上搜索「duck」常常會引起混淆。為此,谷歌在推特上稱,已對duck一詞的搜索作出了調整,分別給出了易混淆的品牌和連結,用於正確跳轉至品牌官網。
  • 作為搜尋引擎,谷歌在中國為什麼競爭不過百度?
    谷歌簡介:Google成立於1997年,幾年間迅速發展成為目前規模最大的搜尋引擎,並向Yahoo、AOL等其他目錄索引和搜尋引擎提供後臺網頁查詢服務。目前Google每天處理的搜索請求已達2億次!而且這一數字還在不斷增長。Google資料庫存有30億個Web文件。屬於全文(Full Text)搜尋引擎。
  • Google SEO:什麼樣的網站才是合格標準的?網站SEO標準
    ,什麼樣的網站對於Google搜尋引擎來說才是標準合格的呢? 很多剛進入SEO行業的小夥伴都有一個疑問,什麼樣的網站對於Google搜尋引擎來說才是標準合格的呢?標準合格的網站需符合以下幾個條件: 1.