谷歌親兒子BERT的王者榮耀,僅用一年雄霸谷歌搜索頭牌!

2020-12-23 騰訊網

新智元報導

來源:searchengineland

編輯:白峰

【新智元導讀】谷歌在近期召開的Search On2020大會上,宣布BERT已經佔領了谷歌搜索的高地,幾乎每一個英語查詢背後都有BERT的影子,而BERT竟然只是谷歌「蜂鳥」系統的冰山一角。

2018年BERT橫空出世,帶著碾壓級的成績刷榜各種NLP任務。

2019年,biobert,roberta,albert等各種BERT變體開始層出不窮,給傳統的NLP任務帶來了革命性的進展。

而谷歌作為BERT的本家,更是將它的優勢發揮的淋漓盡致。

加入谷歌搜索剛一年,BERT「佔領」幾乎所有英語查詢

2019年10月,BERT首次亮相谷歌搜索時,這一比例僅為10%。

2019年12月,谷歌將 BERT 的使用擴展到70多種語言。

在最近的2020 Search On虛擬搜索大會上,谷歌表示,BERT幾乎成了每一個英語查詢的後端引擎。

BERT不會影響網站的排名,BERT 的目的是更好地理解網頁上的內容來提高搜索結果的相關性。

下面是谷歌展示的集成BERT之後的一個demo,當查詢「在沒有路緣的山上停車」時,過去這樣的查詢會讓谷歌的系統感到困惑。

谷歌表示,之前的算法過於重視「curb」這個詞,而忽略了「no」這個詞,沒有抓住這個詞對於問題的重要性,所以搜尋引擎會返回在有路緣的小山上停車的結果。

工程師們已經將「特定搜索」的準確率提高了7% ,同時也在改善「更廣泛搜索」的結果和答案。

BERT替代RankBrain,晉升谷歌搜索算法「蜂鳥」頭牌

BERT只是谷歌搜索算法的冰山一角,這個世界最強大的搜索工具,真可謂是一個Search Brain。

谷歌把這個Search Brain稱為「蜂鳥」,是一個搜索算法貨櫃,就像一輛汽車有一個整體的引擎一樣。各個算法就好比,發動機本身的機油濾清器、燃油泵、散熱器等。

蜂鳥還包含了其他部分,比如用於搜尋引擎優化的,Panda、 Penguin 、 Payday ,打擊垃圾郵件的Pigeon,以及大名鼎鼎的網頁排名算法PageRank。

而在BERT加入蜂鳥這個大家庭之前,最重磅的成員要屬RankBrain了。

2015年,RankBrain部署到了蜂鳥中,短短幾個月時間,RankBrain 就迅速成長為搜索查詢結果的第三重要的信號。

RankBrain 利用人工智慧將大量的語言嵌入到計算機可以理解的向量中,如果 RankBrain 看到一個它不熟悉的單詞或短語,機器就可以猜測哪些單詞或短語可能具有類似的含義,並對結果進行相應的過濾,使其更有效地處理從未見過的搜索查詢,類似於我們今天熟知的詞向量。

參與了 RankBrain 項目的谷歌高級研究科學家 Greg Corrado 表示,RankBrain 是谷歌搜索算法系統中「數百個」信號之一,這些算法最終決定了谷歌搜索頁面上出現什麼結果。

現在有了BERT的加持,「蜂鳥」能夠更好地理解查詢意圖和內容相關性,成為了谷歌搜索理解語言的最重要信號。如果你拼錯了什麼,谷歌的拼寫系統可以幫助你修改為正確的單詞。

據谷歌統計,在每十個日常搜索中,就有一個拼寫錯誤,應用了BERT之後,這種手誤就可以更好地糾正,比如下面這個dinner誤輸入為dibber,BERT能更好地理解搜索意圖,直接返回了地圖上的位置。

BERT查詢結果更「盡人意」,也需要更多TPU

2019年,谷歌將 BERT 模型應用於搜索。

BERT的突破來自谷歌transformer相關的研究成果,transformer可以更好地處理句子中所有單詞的相關性,而不是按順序逐個來。

因此,BERT 模型可以查看單詞前後的詞語來考慮單詞的整個上下文,這對於理解搜索查詢背後的意圖特別有用。

需要更多TPU

但是,將BERT應用於搜索,不僅僅需要軟體,也需要新的硬體,比如TPU。BERT 建立的一些模型非常龐大,突破了傳統硬體的極限,所以要想應用,還得加上谷歌的雲端TPU們。

將問題拆解

BERT將用戶查詢的問題拆解後轉換為向量,通過將 BERT 模型找到更有用的信息。

特別是對於更長的、更具對話性的查詢,或者搜索介詞如「for」和「to」對於查詢的意義非常重要的情況,基於BERT的查詢能夠更全面地理解查詢問題中各個單詞的上下文,搜索的方式可以更加口語化,而不必刻意打「官腔」。

BERT的核心組件transformer真是百變金剛,除了在各種NLP任務中刷榜,也應用到了計算機視覺當中,並且基於transformer的模型大有取代CNN的趨勢。

CV和NLP融合的多模態人工智慧,也將登上AI的舞臺。

參考連結:

https://searchengineland.com/google-bert-used-on-almost-every-english-query-342193

相關焦點

  • 谷歌搜索的靈魂:BERT模型的崛起與榮耀
    據谷歌統計,在每十次搜索中,就會出現一個拼寫錯誤,如下圖用戶想搜索dinner,卻誤輸成dibber,但BERT可以繞過這個錯誤,直接識別出用戶意圖,提供餐館位置。兩個月後,BERT開始承擔70多種語言的搜索任務。一年後,BERT在谷歌搜索中使用比例近乎100%,憑藉出色的理解能力,替代上一代查詢工具RankBrain,成為搜索大腦的王牌。
  • 谷歌搜索的靈魂!BERT模型的崛起與榮耀
    刷榜各NLP任務、超70種語言搜索,起底搜索帝國谷歌的「引擎工程師」BERT!作者 | 子佩編輯 | Panken如果你在谷歌上搜索「如何在沒有馬路的山上停車」,谷歌會告訴你什麼?兩個月後,BERT開始承擔70多種語言的搜索任務。一年後,BERT在谷歌搜索中使用比例近乎100%,憑藉出色的理解能力,替代上一代查詢工具RankBrain,成為搜索大腦的王牌。
  • 谷歌搜索推出新虛擬名片功能 每個谷歌帳戶僅允許創建一張
    據外媒MSPoweruser消息,谷歌印度日前宣布了一項新功能,稱為「虛擬名片」。人們可以在虛擬名片上突出顯示他們現有的在線狀態,還可以讓別人知道其他的有關自己的信息。創建虛擬名片後,當有人搜索相關姓名時,該姓名主人的信息將顯示在搜索結果頁面的頂部。
  • 谷歌申辯反壟斷指控:沒強迫別人用谷歌搜索,沒有壟斷
    谷歌表示,司法部訴訟針對的所有行為都是合法的,並構成「善意的競爭活動」。人們使用谷歌搜索是自己選的,而不是被迫的,也不是因為他們不易在網際網路上找到其他信息搜索方式」。同樣在周一,美國地區法官Amit Mehta批准了允許開始搜集證據的命令並把庭審日期定在2023年9月12日。
  • 谷歌回應反壟斷指控:沒強迫別人用谷歌搜索
    財經網科技12月22日訊,據網易科技消息,谷歌周一在法庭文件中否認了政府說該公司在網際網路搜索方面違反了反壟斷法的指控。  谷歌表示,司法部訴訟針對的所有行為都是合法的,並構成「善意的競爭活動」。人們使用谷歌搜索是自己選的,而不是被迫的,也不是因為他們不易在網際網路上找到其他信息搜索方式」。
  • 谷歌搜索揭示人性最黑暗的秘密
    事實上,在所有以「我兩歲大的孩子……」開頭的谷歌搜索當中,後續的詞語最常見的就是「天資聰穎」。然而,對於這一問題,問男孩和問女孩的數量並不相等。父母問「我的兒子天資聰穎嗎?」的概率達到問「我的女兒天資聰穎嗎?」的2.5倍。父母在使用其它智力相關的短語來搜索的時候也表現出類似的偏愛。是父母們注意到了女孩和男孩之間的差別嗎?
  • 太贊了 谷歌新增六度空間搜索-谷歌,六度空間,搜索,Google ——快...
    近日谷歌推出的一個新搜索算法——六度空間搜索,讓人與人之間建立關係提供了便捷。只要在搜索框中輸入兩個人名,便可計算出兩人的關係數多少,可以通過誰便可相識,使得人與人之間的聯繫可以就這麼簡單。來自CSDN的編譯。
  • 為什麼你的谷歌瀏覽器不能直接搜索
    可能很多人不知道,瀏覽器可以搜索是依託於搜尋引擎的。2010年,谷歌退出中國大陸市場後,Google搜索也不能直接使用了,所以國內大陸市場是沒有辦法直接使用谷歌搜索的。 也就是說如果我們沒有設置過瀏覽器,它的默認搜索方式是谷歌搜尋引擎,這就是不能正常使用的原因。
  • 谷歌ICP牌照通過最後一年年檢
    9月7日下午消息,今日下午華爾街日報中文網突然在官方微博上發布消息稱,谷歌已拿到為期一年的中國網際網路牌照。不過在隨後的相關報導中,我們了解到谷歌此次獲得通過的是屬於每年一次的正常年檢。
  • 機器學習與語義搜索 谷歌的終極武器是什麼?
    個人數字助理和語音搜索個人數字助理,包括谷歌Now和Siri等,需要更高水準的語義理解。目前出現了一些新的障礙,包括將口頭語句翻譯成輸入文本,找到合適的搜索方式,並且以一種可理解的方式進行回復。儘管在本質上,搜索結果的獲取依然還是依靠谷歌的標準搜索算法,但人工智慧算法不斷改進,這些技術已經進步到了我們今天所能看到的水平。
  • 谷歌搜索建議網頁圖表信息使用圖片少用HTML
    近日,谷歌搜索負責人在線下站長交流群中跟站長分享搜索優化方向,建議網站圖表信息多使用圖片顯示,儘量少用HTML5顯示,方便谷歌搜尋引擎抓取圖表相關信息。了解到,在這次群聊解答中,一個站長問谷歌搜索負責人約翰·穆勒,在網頁上顯示帶有數據的圖表的最佳優化方法是什麼,在Google搜索看來,用圖表形式發布圖表還是用HTML5重新創建圖表對網頁排名好一點。
  • 【谷歌公布2020年度熱搜榜:拜登成谷歌今年搜索次數最多的人】全球...
    2020-12-11 07:34:39來源:FX168 【谷歌公布2020年度熱搜榜:拜登成谷歌今年搜索次數最多的人】全球最大搜尋引擎谷歌9日公布了2020年度熱搜榜,美國當選總統拜登成為本年度谷歌搜索次數最多的人。
  • 谷歌語音搜索:不完美但是很驚豔
    騰訊科技訊(玉臨)北京時間5月23日消息,據國外媒體報導,在上周的谷歌I/O大會上,谷歌對外展示了最新的「對話式搜索(conversational search)」,而目前用戶在Chrome上已經可以使用該功能了,這對於我們早已習以為常的搜索來說是一次巨大的飛躍。
  • 谷歌推出AI研發搜尋引擎
    來源:科技日報9月5日,谷歌發布了一個幫助研究者查找在線數據的免費搜尋引擎:數據集搜索(Dataset Search)。谷歌表示,該引擎面向科學家、數據記者、數據極客等人群。據搜狐科技報導,數據集搜索與谷歌的其他專用搜尋引擎一樣可以免費使用,它基於擁有者對文件和資料庫的分類方式來查找文件和數據集。該引擎讀取文件內容的方式與搜尋引擎搜索網頁的方式不同。有專家表示,該引擎填補了這一領域的空白,可以極大地促進開放數據運動的發展,這一運動旨在實現數據的開放利用和重複利用。
  • 谷歌搜索最多的20個奇葩問題,心疼搜尋引擎1秒鐘!
    搜索頻率:49,500次/月谷歌:你想多了。放個屁就能燃燒67大卡?那世界上就不會有人拼命減肥了。搜索頻率:18,100次/月谷歌:幹你鳥事。矮就不能有膝蓋了嗎……奇葩問題16:蟲蟲有眼睛嗎?880名好奇寶寶詢問「恐龍究竟住在哪」以及480名……用語言無法形容的人士擔心「如何藏屍」!!!面對這份奇葩清單,吃瓜群眾的反應各不相同:有人表示Google超好用:「Google簡直就是神一樣的存在!我每天腦子裡都會思考這些亂七八糟的問題。在網絡和Google出現以前,我已經糾結了好些年。」
  • 人人都說謊:谷歌搜索揭示人類最黑暗的秘密
    例如,我能夠利用谷歌搜索找到另一個群體受到內隱偏見的證據,那個群體就是女孩。你可能會問,誰會對女孩心存偏見呢?她們的父母。小孩子的父母往往會因為覺得自己的孩子可能天資聰穎而感到很興奮,這並不令人意外。事實上,在所有以「我兩歲大的孩子……」開頭的谷歌搜索當中,後續的詞語最常見的就是「天資聰穎」。然而,對於這一問題,問男孩和問女孩的數量並不相等。父母問「我的兒子天資聰穎嗎?」
  • Android 11親兒子谷歌Pixel 5曝光:驍龍765G賣5000元
    今天外媒曝光了Android 11親兒子谷歌Pixel 5的詳細信息。正如傳聞所言,谷歌Pixel 5和上一代Pixel 4相比最大的變化之一是處理器「降配」。谷歌Pixel 4使用高通驍龍855旗艦處理器,而谷歌Pixel 5使用高通驍龍765G處理器,這是谷歌Pixel數字系列第一次使用高通驍龍中端晶片。不過谷歌Pixel 5終於用上了8GB內存,同時提供128GB存儲,出廠預裝Android 11系統。
  • 谷歌推系列新功能 Chrome用戶可語音搜索
    谷歌稱,公司正利用語音識別、計算機視覺以及電腦翻譯等創新技術試圖打破谷歌搜索結果之間的各種藩籬。同時,谷歌在會議上透露,在過去的兩年間,谷歌移動搜索流量增長了5倍,而且目前仍享受著高增速。在該會議上,谷歌除了公布一組有關移動搜索的新功能之外,還著重強調了對前不久發布的新功能進一步創新。下面是谷歌昨日在媒體會議上演示的新搜索功能以及對較早發布搜索功能進行創新升級的清單。
  • 歐盟認定谷歌壟斷歐洲手機不再內置谷歌搜索
    近年來,歐洲出現了自主發展AI、網際網路產業,排斥美國數字科技企業的風潮,谷歌、Facebook等都多次成為「受害者」,谷歌更是多次被處以天價罰金。近期,歐盟再次認定谷歌的安卓系統存在壟斷,規定從今往後,不能預設谷歌為手機默認搜尋引擎。
  • 谷歌計劃終止GOOG-411語音搜索服務
    騰訊科技訊(溫迪)北京時間10月9日消息,據國外媒體報導,谷歌日前宣布計劃於今年11月12日終止1-800-GOOG-411語音搜索服務。GOOG-411於2007年正式推出,是谷歌在語音搜索服務的一次嘗試。