周三,綠黨發言人薩拉·漢森·揚呼籲莫裡森政府推動建設澳大利亞公有搜尋引擎。搜尋引擎的核心只是鍵值資料庫查詢。關鍵是您的一組搜索詞。它返回的值是包含這些搜索詞的網頁的URL。藉助先進的搜尋引擎,它甚至可以搜到您的位置,對您的興趣的了解,其他人一直在搜索的內容等等。
您必須考慮同義詞,在其中搜索「卡車」的人可能也想要「貨車」的結果。您還必須考慮上下文。搜索有關鳥類,運動隊,天主教會高級牧師,指南針方向,數學概念或奧託·普萊明格(Otto Preminger)導演的1963年電影或2017-2020年電視的「主教」系列,還是雪梨斯坦莫爾的手錶零售商?還是由音樂家Richard Davies和Eric Matthews於1992年創立的美國獨立流行組合?因此,它「只是」資料庫查找,但實際上卻非常複雜。
除了這種複雜性,以及Google在理解它方面已有22年的領先優勢這一事實,讓我們看一下工程技術。
「首先,下載網際網路...」
收集資料庫的所有數據非常簡單:使用Web搜尋器下載整個Internet。或至少其中一些在全球資訊網上可見。然後索引它。然後,當每個網站發生更改時,對每個網站都重新執行一次(對於新聞網站而言,這是非常常見的)。這將需要多少存儲空間?很多。我們甚至可以對此進行估算。事實證明,有一些集合論告訴我們,鍵值映射的存儲要求等同於同一數據集的值鍵映射的存儲要求。(期末考試不會對此有任何疑問。)我們已經有一個等效於此值-鍵映射的反向搜尋引擎,它以URL開頭並返回我們可能在網頁上搜索的內容,也就是網頁上的所有內容。它被稱為全球資訊網。因此,不僅需要下載整個Web供參考,還需要相同數量的索引存儲空間。是的,您的搜尋引擎索引的存儲需求大約是1.0全球資訊網。
現在,在Google中搜索「基數」。它剛剛為我說:「大約271,000,000個結果(0.83秒)。」 很快!實際上,它是如此之快以至於不可能涉及任何磁碟訪問。是的,您需要將索引數據的1.0全球資訊網保存在RAM中。實際上,您需要在RAM中保留多個副本以應對故障。那是相當多的RAM。當然,您可以僅通過索引網絡的一部分來減少開銷,但是誰來做編輯決定呢?還有誰會使用它?索引的那些副本需要在地理位置上分散以實現冗餘,這意味著您需要一個足夠快的WAN,以便在整個World Wide Web的副本周圍附加內容以進行複製。加起來,那是相當昂貴的。
顯然,有多種方法可以對此進行優化,但是還需要有足夠的基礎架構來應對用戶數量。至少,這使我們對所需的基礎架構規模有了一個大概的了解。這使我們回到了漢森·楊參議員的謙虛建議。誰為此付費?她寫道:「我們需要一個出於公共利益而運行的獨立搜尋引擎,而不是為企業巨頭謀取利益。這意味著澳大利亞人可以放心搜索網際網路,因為他們的數據不會出售給廣告商和公司。」
換句話說,漢森-楊提議我們用政府的資金來建立所有這一切,因此要用政府的項目管理來建立。即使將其外包給私營部門的供應商,也仍然是政府提供(您知道)治理。鑑於過去的表現,我們認為澳大利亞政府會如何處理?還記得NBN嗎?最後一點,與綠黨的世界觀有關:您認為所有這些都會燃燒多少能量?也許現任澳大利亞政府可能最終會建立一個燃煤搜尋引擎。
對我來說,所有這些中令人沮喪的方面是,這樣一個古怪的想法似乎一直到新聞稿都沒有被任何有頭緒的人操縱。這是一個政黨針對媒體和通訊的官方發言人,公開呼籲對一個想法進行調查,該想法可能在與幾乎任何知道搜尋引擎實際工作原理的人進行的快速咖啡會議中被擊落。無論如何,參議員,我們節省了政府不得不進行昂貴的查詢程序的時間。我應該在哪裡寄發票?