騰訊科技訊 12月15日,2000年剛剛成立兩年時,谷歌就達到了一個裡程碑,並為其在未來20年佔據主導地位奠定了基礎。當時,谷歌成為世界上最大的搜尋引擎,擁有超過10億個網頁的索引。隨著時間推移,谷歌的網頁索引變得越來越龐大。據估計,其如今可以檢索的網頁數量在5000億到6000億個之間。
現在,世界各地的監管機構都在研究如何遏制谷歌的權力,包括預計最早將於本周由多州總檢察長提起的搜索壟斷案,以及司法部在10月份提起的反壟斷訴訟。這些監管部門正在與一家規模龐大的公司對陣,其規模已經完全壓制了競爭對手。在反擊中,這些競爭對手正將調查人員的焦點引向了谷歌搜索龐大的索引。
大約20年前創辦搜尋引擎Gigablast馬特·威爾斯(Matt Wells)說:「如果人們使用索引較小的搜尋引擎,他們不會總是得到想要的結果,然後他們就會去谷歌,並留在那裡。像我這樣的小公司,根本無法與谷歌競爭。」Gigablast大約可以檢索50億個網頁。
了解谷歌的搜索是如何運作的,這是弄清楚為何這麼多公司發現幾乎無法與之競爭的關鍵。事實上,他們會不遺餘力地迎合谷歌的需求。每次搜索請求都會為谷歌提供更多數據,使其搜索算法更加智能化。谷歌上的搜索次數比其他任何同類服務都多,因此在了解消費者的需求方面,它比競爭對手擁有巨大的優勢。這一領先優勢只會繼續擴大,因為谷歌所佔市場份額約為90%。
谷歌將數十億用戶引導到網際網路上的各個位置,而渴望獲得這些流量的網站則為該公司制定了不同的規則。網站經常提供對谷歌所謂「網絡爬蟲」(自動搜索網際網路並掃描網頁的計算機)的更大、更頻繁的訪問支持,使該公司能夠提供關於網際網路上可用內容的更廣泛、更新的索引。
軟體工程師扎克·馬裡爾(Zack Maril)在音樂網站BandCamp工作時,開始擔心谷歌的主導地位會對其造成何種影響。2018年,當谷歌稱其爬蟲程序谷歌機器人(Googlebot)在BandCamp的一個頁面上出現問題時,馬裡爾把解決這個問題作為當務之急,因為谷歌對該網站的流量至關重要。當其他爬蟲遇到問題時,BandCamp通常會阻止它們。
馬裡爾繼續研究網站為谷歌打開大門和關閉大門的不同方式。去年,他向美國眾議院反壟斷小組委員會發送了長達20頁的報告《理解谷歌》,然後與調查人員會面,解釋為什麼其他公司不能重建谷歌的索引。馬裡爾說:「這在很大程度上是其壟斷地位不受約束的權力來源。」
軟體工程師馬裡爾向調查人員解釋稱,谷歌的索引賦予了它非常強大的功能美國眾議院今年公布的報告引用了馬裡爾的研究,他詳細闡述了谷歌創建網際網路實時地圖的努力以及如何「鎖定其主導地位」。雖然美國司法部正在尋求解除谷歌的商業交易,這些交易將谷歌的搜尋引擎置於數十億部智慧型手機和電腦的前沿,但馬裡爾敦促政府干預和監管谷歌的索引。谷歌發言人拒絕置評。
網站和搜尋引擎是共生的:網站的流量依賴於搜尋引擎,而搜尋引擎需要訪問網站才能為用戶提供相關結果。但每個網絡爬蟲都會在伺服器和帶寬成本上給網站的資源帶來壓力,有些激進的爬蟲類甚至可能存在導致網站癱瘓的安全風險。由於抓取網頁需要付費,網站更希望只讓有足夠流量的搜尋引擎來做這件事。在目前的搜索領域,這就剩下了谷歌。在某些情況下,還有微軟的必應。
谷歌和微軟是僅有的兩家每年花費數億美元來維護英文網際網路實時地圖的搜尋引擎。英國競爭和市場管理局今年夏天的報告稱,這還不包括他們多年來為建立索引而花費的數十億美元。谷歌在市場份額上明顯領先於微軟必應。英國競爭主管部門表示,谷歌的索引包括大約5000億至6000億個網頁,相比之下,微軟檢索的網頁約為1000億至2000億個。
其他大型科技公司將網絡爬蟲用於其他目的。Facebook有個爬蟲程序,可以搜索出現在其網站或服務上的連結。亞馬遜表示,其爬蟲程序有助於改進其基於語音的智能助手Alexa。蘋果有自己的爬蟲程序Applebot,這引發了人們的猜測,即蘋果可能正在尋求建立自己的搜尋引擎。
但對於沒有雄厚財力的公司來說,檢索網頁始終是個挑戰。注重保護隱私的搜尋引擎DuckDuckGo在十多年前就決定停止在整個網絡上檢索,現在從微軟那裡獲取搜索結果。DuckDuckGo仍然會檢索維基百科等網站,為答案框提供結果,但維持自己的索引通常對公司來說沒有財務意義。
DuckDuckGo執行長加布裡埃爾·溫伯格表示,維護單獨的索引成本超出了其承受能力DuckDuckGo執行長加布裡埃爾·溫伯格(Gabriel Weinberg)表示:「維護單獨索引的成本超出了我們的承受能力。」在去年提交給眾議院反壟斷小組委員會的一份書面聲明中,該公司表示,如今以及在可預見的未來,「雄心勃勃的搜尋引擎初創企業不可避免地需要」向微軟或谷歌尋求搜索結果。
2015年,當FindX開始開發谷歌的替代品時,這家丹麥公司開始創建自己的索引,並提供了一種自己構建的算法來提供個性化結果。然而,FindX很快就遇到了問題。大型網站運營商,如Yelp和LinkedIn,不允許羽翼未豐的搜尋引擎檢索他們的網站。由於其代碼中存在漏洞,FindX在網際網路上檢索的計算機被標記為安全風險,並被許多基礎設施提供商屏蔽。他們收集的網頁經常是垃圾網頁或惡意網頁。
FindX於2018年關閉,其聯合創始人布萊恩·斯喬特·勞爾森(Brian Sschilt Laursen)說:「建立索引是最難做的事情。」勞爾森去年推出了新的搜尋引擎Givero,用戶可以選擇將公司收入的一部分捐給慈善事業。當他創辦Givero時,整合了微軟的搜索結果。
多數大型網站對於誰可以檢索他們的頁面都很謹慎。一般而言,谷歌和微軟獲得更多訪問權限是因為它們擁有更多用戶,而規模較小的搜尋引擎則需要請求許可。德國搜尋引擎Cliqz聯席執行長馬克·哈姆斯(Marc Al-Hames)說:「你需要流量來說服網站允許你複製和檢索其網頁,但你也需要內容來擴大你的索引並拉動流量。」在運營了七年之後,Cliqz於今年關閉。
馬裡爾展示了他研究網頁檢索的網站在歐洲,名為開放搜索基金會(Open Search Foundation)的組織提出了一項計劃,旨在創建一個能夠支撐許多歐洲搜尋引擎的通用網際網路索引。該組織董事長兼創始人斯特凡·福格特(Stefan Voigt)表示,擁有多樣化的搜索結果選項至關重要,因為只有少數幾家公司才能決定用戶顯示和不顯示哪些連結。
Science Direct是個同行評議論文的網站,它只允許谷歌的爬蟲訪問包含PDF文檔的連結。只有谷歌的電腦才能訪問PBS Kids上的列表。在阿里巴巴的美國網站上,也只有谷歌的爬蟲才能訪問列出產品的頁面。
今年,馬裡爾創辦了名為「傻瓜俱樂部」的組織,並推出了一個網站,以提高人們對谷歌網頁檢索壟斷地位的認識。他說:「谷歌在社會上擁有如此強大的影響力,我認為應該對這一權力進行控制。」(騰訊科技審校/金鹿)