為什麼全澳大利亞的公共搜尋引擎是一個荒謬的想法

2021-02-11 聚鋒實驗室

周三,綠黨發言人薩拉·漢森·揚呼籲莫裡森政府推動建設澳大利亞公有搜尋引擎。搜尋引擎的核心只是鍵值資料庫查詢。關鍵是您的一組搜索詞。它返回的值是包含這些搜索詞的網頁的URL。藉助先進的搜尋引擎,它甚至可以搜到您的位置,對您的興趣的了解,其他人一直在搜索的內容等等。

您必須考慮同義詞,在其中搜索「卡車」的人可能也想要「貨車」的結果。您還必須考慮上下文。搜索有關鳥類,運動隊,天主教會高級牧師,指南針方向,數學概念或奧託·普萊明格(Otto Preminger)導演的1963年電影或2017-2020年電視的「主教」系列,還是雪梨斯坦莫爾的手錶零售商?還是由音樂家Richard Davies和Eric Matthews於1992年創立的美國獨立流行組合?因此,它「只是」資料庫查找,但實際上卻非常複雜。

除了這種複雜性,以及Google在理解它方面已有22年的領先優勢這一事實,讓我們看一下工程技術。

「首先,下載網際網路...」

收集資料庫的所有數據非常簡單:使用Web搜尋器下載整個Internet。或至少其中一些在全球資訊網上可見。然後索引它。然後,當每個網站發生更改時,對每個網站都重新執行一次(對於新聞網站而言,這是非常常見的)。這將需要多少存儲空間?很多。我們甚至可以對此進行估算。事實證明,有一些集合論告訴我們,鍵值映射的存儲要求等同於同一數據集的值鍵映射的存儲要求。(期末考試不會對此有任何疑問。)我們已經有一個等效於此值-鍵映射的反向搜尋引擎,它以URL開頭並返回我們可能在網頁上搜索的內容,也就是網頁上的所有內容。它被稱為全球資訊網。因此,不僅需要下載整個Web供參考,還需要相同數量的索引存儲空間。是的,您的搜尋引擎索引的存儲需求大約是1.0全球資訊網。

現在,在Google中搜索「基數」。它剛剛為我說:「大約271,000,000個結果(0.83秒)。」 很快!實際上,它是如此之快以至於不可能涉及任何磁碟訪問。是的,您需要將索引數據的1.0全球資訊網保存在RAM中。實際上,您需要在RAM中保留多個副本以應對故障。那是相當多的RAM。當然,您可以僅通過索引網絡的一部分來減少開銷,但是誰來做編輯決定呢?還有誰會使用它?索引的那些副本需要在地理位置上分散以實現冗餘,這意味著您需要一個足夠快的WAN,以便在整個World Wide Web的副本周圍附加內容以進行複製。加起來,那是相當昂貴的。

顯然,有多種方法可以對此進行優化,但是還需要有足夠的基礎架構來應對用戶數量。至少,這使我們對所需的基礎架構規模有了一個大概的了解。這使我們回到了漢森·楊參議員的謙虛建議。誰為此付費?她寫道:「我們需要一個出於公共利益而運行的獨立搜尋引擎,而不是為企業巨頭謀取利益。這意味著澳大利亞人可以放心搜索網際網路,因為他們的數據不會出售給廣告商和公司。」

換句話說,漢森-楊提議我們用政府的資金來建立所有這一切,因此要用政府的項目管理來建立。即使將其外包給私營部門的供應商,也仍然是政府提供(您知道)治理。鑑於過去的表現,我們認為澳大利亞政府會如何處理?還記得NBN嗎?最後一點,與綠黨的世界觀有關:您認為所有這些都會燃燒多少能量?也許現任澳大利亞政府可能最終會建立一個燃煤搜尋引擎。

對我來說,所有這些中令人沮喪的方面是,這樣一個古怪的想法似乎一直到新聞稿都沒有被任何有頭緒的人操縱。這是一個政黨針對媒體和通訊的官方發言人,公開呼籲對一個想法進行調查,該想法可能在與幾乎任何知道搜尋引擎實際工作原理的人進行的快速咖啡會議中被擊落。無論如何,參議員,我們節省了政府不得不進行昂貴的查詢程序的時間。我應該在哪裡寄發票?

相關焦點

  • 【治理與反思】澳大利亞移動公共服務媒介:普及性及其影響
  • 澳大利亞成全球首個強制數字平臺向媒體付費國家!
    在外界多方的壓力之下,在與澳大利亞政府磋商後,谷歌的立場開始軟化,提出了一個折中的解決方案:通過旗下即將推出的一款新聞產品 News Showcase 向媒體付款,而不是直接向搜尋引擎中的連結和摘要向媒體付費。News Showcase 計劃在未來3年內,向全球新聞媒體合作夥伴支付10億美元的授權費。
  • 谷歌欲在澳大利亞撤出搜尋引擎;馬斯克獎勵碳捕捉技術1億美元|前沿科技周報
    讓小探帶你來看看吧~在大公司方面,谷歌因不滿澳大利亞新規而欲撤出其搜尋引擎 ;馬斯克為碳捕捉技術提供1億美元獎金;微軟與Cruise、通用汽車正在合作研發自動駕駛汽車;川普在離任前特赦了前谷歌工程師;蘋果或在2022年推出VR頭盔;亞馬遜主動提出為拜登政府接種疫苗提供幫助;在前沿科技方面,一位植入了人工合成角膜的盲人重獲視力;研究人員研發出了預測物體運動的AI框架
  • 為什麼大多數公司做不好搜尋引擎
    畢竟,人人都想有一個江湖百曉生那樣的朋友,更想自己也成為這樣受歡迎的人。信息搜集和整理的能力,一定程度上取決於用了什麼搜索工具。過去我們的搜索,靠的是搜尋引擎。現在的搜索,是萬物皆可引擎。也是所有搜尋引擎正在面臨的挑戰。我們的問題不是信息不夠多。而是太多。判斷一個搜尋引擎好不好用,主要看三方面。第一,高效。第二,精準。第三,穩定。
  • 為何生命的意義是荒謬的?
    某些想法或話題漂浮在我的腦海中,但卻沒有具體到我足以用流暢的文字詳細表述它們。我非常沮喪,仿佛正在絕望的海洋中苦苦掙扎,拼命想抓住任一根靈感浮木。但後來我意識到一切似乎都很可笑。幾天前,我還在加利福尼亞收拾行李準備長途旅行。短短幾個小時後,藉助航空的魔力和交通的便捷,我跨越半個地球,在一家韓國咖啡館裡繼續為無從下筆而焦慮。
  • 什麼讓谷歌以停止核心服務威脅澳大利亞政府?
    文|李軍如果谷歌暫停一個發達國家所有的搜尋引擎服務,將會發生什麼?澳大利亞就面臨著這種可能。谷歌1月22日威脅說,如果澳大利亞政府堅持要求自己的搜尋引擎因為抓取媒體網頁內容而需要向新聞內容付費,Google將暫停搜尋引擎澳大利亞範圍內的服務。到底發生了什麼讓谷歌不惜以停止核心服務為代價來威脅澳大利亞政府?背後實際上是網際網路巨頭和新聞業長久以來的衝突激化。事情還需要從半年前說起。
  • 蘋果為什麼不做搜尋引擎?
    蘋果公司自家不做搜尋引擎,反而要給iOS系統上的默認搜尋引擎谷歌每年支付大約30億美金。
  • 荒謬、意義或虛妄
    虛妄是一種事實判斷,荒謬則傾向於價值判斷。
  • 澳大利亞為什麼總和中國過不去?
    )訪華,在北大發表了一個High Level的全中文演講,隔三差五蹦出幾個「康有為」、「狂人日記」、「五四運動」等詞,對一些老梗也如數家珍,開場先來一句「北京大學是中國最有名的大學」,然後停頓兩秒後又來一句:「別告訴清華大學[1]。」
  • 《搜尋引擎百度已死》| 我們為何而憤怒?
    (來自百度聲明截圖)聲明開頭第一句「百家號內容全站佔比小於10%」,更是招致了網友群嘲,就連方可成本人也站出來指責百度不該將「首頁佔比」偷換概念成「全網佔比」,何況就全網範圍而言,10%的佔比也已經是一個驚人的比例了。
  • 我們的思想正被搜尋引擎操縱
    「結果是驚人的,」我們在舊金山共進早餐時他告訴我,「為什麼沒有人討論這個問題?」    這是一個有趣的問題,特別是在你每天多次使用谷歌服務的情況下,就像我這樣。一個答案可能是谷歌高管擅長建設政治支持網絡。另一個答案是谷歌緊握它自己收集的這些數據,然後利用這些數據創造針對性的搜索和廣告服務,為用戶定製。
  • 假如蘋果構建了一個搜尋引擎
    ,那麼我們來暢想一下,假如蘋果也構建了一款搜尋引擎,會怎麼樣?當然,這只是猜測,但這不可能成為現實嗎?我們知道,過去蘋果曾考慮過搜尋引擎。Google的王者地位不可動搖,為什麼要白白浪費數十億美元呢?雖然Google的搜尋引擎佔據了主導地位,但他們並沒有壟斷整個業務。
  • 用Golang寫一個搜尋引擎(0xFF)
    先放上一首歌今天這一篇的序號是0xFF,算是外篇吧,和Golang沒什麼關係,和代碼也沒什麼關係,今天說說搜尋引擎的排序吧,我會以電商的搜索排序為例來說,因為基本上除了大搜索以外(PageRank技術),其他的搜索排序都和電商的搜尋引擎差不太多,無非就是屬性的選擇。
  • 好荒謬!蘋果為什麼不讓我們找第三方維修店
    聽起來是不是好荒謬?可是,為什麼到了蘋果,蘋果就可以這樣做,這不荒謬嗎?  從 2014 年開始,世界上盈利最大的科技公司蘋果就在毫無預警的情況下永久禁用部分 iPhone,原因是用戶自己在手機維修店裡維修破碎的屏幕的時候更換了 Home 鍵。如果用戶是去蘋果服務中心維修同樣故障的話,手機則可以繼續正常使用。
  • 臉書「痛打」澳大利亞!
    2月18日,澳洲的新聞媒體,甚至一些澳洲的政府部門或機構在一覺醒來後,發現他們的臉書(FACEBOOK)頁面內容全被清空。各大媒體也在紛紛報導自己被臉書禁言的遭遇。Seven West Media昨日宣布,已與谷歌達成長期合作夥伴關係,為谷歌新產品新聞展示提供新聞內容,該產品於2月初在澳大利亞推出。這也讓Seven West Media 成為了首個與谷歌籤訂協議的澳洲新聞媒體集團。另還有媒體報導稱,谷歌放棄了關閉其在澳大利亞本土搜尋引擎的威脅。除了Seven West Media以外,還將與澳大利亞一些最大的新聞機構達成商業協議。
  • 搜尋引擎百度已死?為什麼百度要給百家號引流
    騰訊和阿里,一個做社交一個做電商,如今在各個戰線都爆發了激烈的競爭。2015年之後,隨著今日頭條的迅猛發展,做搜尋引擎的百度也慌了。1月22日,一篇名為《搜尋引擎百度已死》的文章刷爆了朋友圈。文章指責作為搜尋引擎的百度將搜索結果一半以上指向百度自家產品,尤其是百家號。這導致了作為搜尋引擎的百度營銷成分越來越多,而搜索結果的內容質量卻大幅下降。
  • 搜尋引擎谷歌為什麼沒死?
    Google 誕生於 1996 年 1 月,當時作為加州史丹福大學理學博士生的兩位少年,Larry Page (拉裡·佩奇)和 Sergey Brin(謝爾蓋·布林)在研究一項關於搜索的項目,最後,兩人共同開發了一個對網站之間的關係做精確分析的搜尋引擎,兩人將其命名為 「BackRub」,後來更改為 Google。
  • 澳大利亞每天通勤時間又上漲,雪梨墨爾本均超過一個小時!
    比如你忙活了一天,然後又要花費一個多小時上下班,回到家大部分人都已疲憊不堪,只想躺在床上休息、睡覺,根本不想再去活動。長此以往,健康狀況每況愈下。「如果我們的政客們對交通擁堵問題的思考方式發生轉變,那麼鐵路和公共運輸方面的投資將會更多。」
  • 為什麼索尼全畫幅微單是一個致命的錯誤
    日前索尼全畫幅微單正處在一個很大的熱潮中,看到這些人衝進這股熱潮就像看著他們一個接一個奔向懸崖一樣。許多索粉可以興高採烈地宣布全畫幅微單打敗了單反,然而這個勝利判定顯然為時過早。我有資格來說一下,因為我是一名索尼全畫幅微單的擁有者,我也被吸引到了懸崖邊。這很大程度上是一個錯誤,為什麼我會那麼蠢?
  • 巴布亞紐幾內亞為什麼要脫離澳大利亞獨立?
    巴布亞紐幾內亞獨立作者:陳相成   編輯:Thomas澳大利亞是世界上唯一一個佔有整塊大陸的國家,它的國土構成除了澳大利亞大陸,還包括南邊方向的塔斯馬尼亞島。▲巴布亞紐幾內亞與澳大利亞幾項主要經濟數據的對比,完全落於下風發展能力有限,巴布亞紐幾內亞當初為什麼要毅然決然地選擇擺脫澳大利亞這顆「參天大樹」?