谷歌親兒子BERT的王者榮耀,僅用一年雄霸谷歌搜索頭牌!

2020-11-28 新智元

【新智元導讀】谷歌在近期召開的Search On2020大會上,宣布BERT已經佔領了谷歌搜索的高地,幾乎每一個英語查詢背後都有BERT的影子,而BERT竟然只是谷歌「蜂鳥」系統的冰山一角。

2018年BERT橫空出世,帶著碾壓級的成績刷榜各種NLP任務。

2019年,biobert,roberta,albert等各種BERT變體開始層出不窮,給傳統的NLP任務帶來了革命性的進展。

而谷歌作為BERT的本家,更是將它的優勢發揮的淋漓盡致。

加入谷歌搜索剛一年,BERT「佔領」幾乎所有英語查詢

2019年10月,BERT首次亮相谷歌搜索時,這一比例僅為10%。

2019年12月,谷歌將 BERT 的使用擴展到70多種語言。

在最近的2020 Search On虛擬搜索大會上,谷歌表示,BERT幾乎成了每一個英語查詢的後端引擎。

BERT不會影響網站的排名,BERT 的目的是更好地理解網頁上的內容來提高搜索結果的相關性。

下面是谷歌展示的集成BERT之後的一個demo,當查詢「在沒有路緣的山上停車」時,過去這樣的查詢會讓谷歌的系統感到困惑。

谷歌表示,之前的算法過於重視「curb」這個詞,而忽略了「no」這個詞,沒有抓住這個詞對於問題的重要性,所以搜尋引擎會返回在有路緣的小山上停車的結果。

工程師們已經將「特定搜索」的準確率提高了7% ,同時也在改善「更廣泛搜索」的結果和答案。

BERT替代RankBrain,晉升谷歌搜索算法「蜂鳥」頭牌

BERT只是谷歌搜索算法的冰山一角,這個世界最強大的搜索工具,真可謂是一個Search Brain。

谷歌把這個Search Brain稱為「蜂鳥」,是一個搜索算法貨櫃,就像一輛汽車有一個整體的引擎一樣。各個算法就好比,發動機本身的機油濾清器、燃油泵、散熱器等。

蜂鳥還包含了其他部分,比如用於搜尋引擎優化的,Panda、 Penguin 、 Payday ,打擊垃圾郵件的Pigeon,以及大名鼎鼎的網頁排名算法PageRank。

而在BERT加入蜂鳥這個大家庭之前,最重磅的成員要屬RankBrain了。

2015年,RankBrain部署到了蜂鳥中,短短幾個月時間,RankBrain 就迅速成長為搜索查詢結果的第三重要的信號。

RankBrain 利用人工智慧將大量的語言嵌入到計算機可以理解的向量中,如果 RankBrain 看到一個它不熟悉的單詞或短語,機器就可以猜測哪些單詞或短語可能具有類似的含義,並對結果進行相應的過濾,使其更有效地處理從未見過的搜索查詢,類似於我們今天熟知的詞向量。

參與了 RankBrain 項目的谷歌高級研究科學家 Greg Corrado 表示,RankBrain 是谷歌搜索算法系統中「數百個」信號之一,這些算法最終決定了谷歌搜索頁面上出現什麼結果。

現在有了BERT的加持,「蜂鳥」能夠更好地理解查詢意圖和內容相關性,成為了谷歌搜索理解語言的最重要信號。如果你拼錯了什麼,谷歌的拼寫系統可以幫助你修改為正確的單詞。

據谷歌統計,在每十個日常搜索中,就有一個拼寫錯誤,應用了BERT之後,這種手誤就可以更好地糾正,比如下面這個dinner誤輸入為dibber,BERT能更好地理解搜索意圖,直接返回了地圖上的位置。

BERT查詢結果更「盡人意」,也需要更多TPU

2019年,谷歌將 BERT 模型應用於搜索。

BERT的突破來自谷歌transformer相關的研究成果,transformer可以更好地處理句子中所有單詞的相關性,而不是按順序逐個來。

因此,BERT 模型可以查看單詞前後的詞語來考慮單詞的整個上下文,這對於理解搜索查詢背後的意圖特別有用。

需要更多TPU

但是,將BERT應用於搜索,不僅僅需要軟體,也需要新的硬體,比如TPU。BERT 建立的一些模型非常龐大,突破了傳統硬體的極限,所以要想應用,還得加上谷歌的雲端TPU們。

將問題拆解

BERT將用戶查詢的問題拆解後轉換為向量,通過將 BERT 模型找到更有用的信息。

特別是對於更長的、更具對話性的查詢,或者搜索介詞如「for」和「to」對於查詢的意義非常重要的情況,基於BERT的查詢能夠更全面地理解查詢問題中各個單詞的上下文,搜索的方式可以更加口語化,而不必刻意打「官腔」。

BERT的核心組件transformer真是百變金剛,除了在各種NLP任務中刷榜,也應用到了計算機視覺當中,並且基於transformer的模型大有取代CNN的趨勢。

CV和NLP融合的多模態人工智慧,也將登上AI的舞臺。

參考連結:

https://searchengineland.com/google-bert-used-on-almost-every-english-query-342193

相關焦點

  • 谷歌搜索:幾乎所有的英文搜索都用上BERT了
    機器之心報導機器之心編輯部在前段時間舉辦的「Search On」活動中,谷歌宣布,BERT 現在幾乎為谷歌搜尋引擎上的每一個基於英文的查詢提供支持。而在去年,這一比例僅為 10%。
  • 2020年蘋果商店、谷歌Play合計收入破1000億美元 《王者榮耀》依舊...
    2020年蘋果商店、谷歌Play合計收入破1000億美元 《王者榮耀》依舊無敵 時間:2021-01-05 13:56:14 來源:3DM整理
  • 谷歌最強NLP模型BERT,為何炫酷又強大?騰訊程式設計師給你從頭講起
    一、背景介紹搜索場景下用戶搜索的 query 和召回文章標題(title)的相關性對提升用戶的搜索體驗有很大幫助。相反去掉大部分高層的 head 後模型下降的並沒有那麼劇烈(圖中橙色部分),說明了底層的 head 提取到了很多對於本任務有用的輸入特徵,這部分特徵通過殘差連接可以直接傳導到最後一層用做分類。
  • "綠委"用谷歌地圖搜"朱日和",結果…
    "綠委"用谷歌地圖搜"朱日和",結果… 2020-11-29 21:30 來源:澎湃新聞·澎湃號·媒體
  • 文獻搜索哪家強——谷歌?PubMed?
    摘要背景:關於文獻檢索,一直心裡都有一種感覺,那就是谷歌學術和谷歌的檢索能力要遠強於其他的一些常用搜尋引擎,包括大家常用的PubMed等。但是一直僅限於在自己的總體感覺,似乎不太能睡服用PubMed的朋友們。目的:通過幾個典型案例來驗證哪種學術搜尋引擎更強大。
  • 谷歌推出相似圖片搜索工具
    首頁 > 傳媒 > 關鍵詞 > 谷歌最新資訊 > 正文 谷歌推出相似圖片搜索工具
  • 谷歌ICP牌照通過最後一年年檢
    9月7日下午消息,今日下午華爾街日報中文網突然在官方微博上發布消息稱,谷歌已拿到為期一年的中國網際網路牌照。不過在隨後的相關報導中,我們了解到谷歌此次獲得通過的是屬於每年一次的正常年檢。
  • 這一年人們都在搜索什麼?谷歌搜索熱榜,「新冠病毒」高居榜首
    CDA數據分析師 出品編譯:Mika【導讀】谷歌發布2020年的搜索熱榜!來看看今年大家都在關心什麼吧。當感到疑惑、不確定時,人們就會去尋找答案。如今遇到這種情況,只需將問題輸入搜尋引擎即可。那麼在即將過去的2020年中,人們都在搜索些什麼呢?谷歌最近發布了2020年度搜索熱榜,在搜索排名中就反映了:在這個不尋常的一年中,人們都在關注哪些問題。1.「為什麼」是人們最常用的搜索詞「為什麼」是最常用的搜索開頭詞,人們用無數個「為什麼」試圖了解這個世界。
  • 科技來電:谷歌或支付35億美元只為拿下三星默認搜尋引擎入口
    <579期>智電網訊:為拿下三星默認搜尋引擎,谷歌或支付35億美元,但回報也是相當大的,畢竟三星依舊是全球第一大手機設備製造商;諾基亞8全面配置規格一覽,外觀普通的一款旗艦手機;1天賺1.8億元!騰訊員工平均年薪出爐,近40萬年薪,更多詳情盡在本期科技來電!
  • 在谷歌搜索「Idiot」會出現川普的圖片,谷歌總裁作出回應
    摘要:一般在搜尋引擎進行搜索,只要輸入關鍵詞,就會出現相關聯的圖片、信息等。但美國的谷歌只要輸入「Idiot(白痴)」就會出現川普的圖片,為此,美國的國會要求谷歌CEO好好解釋一下。|搜索「白痴」出現川普?
  • 華為搜尋引擎面世:用不了谷歌,試試「花瓣搜索」?
    機器之心報導參與:澤南、杜偉、小舟為了解決沒有「谷歌全家桶」的問題,華為今年接連推出了 HMS Core、地圖服務、應用商店 AppGallery,現在連屬於自己的搜尋引擎「花瓣搜索」也面世了。自 2019 年 5 月以來,在美國政府的「禁令」之下,谷歌宣布停止與華為合作,尤其是不再提供谷歌移動服務(GMS)。這就迫使海外市場用戶在購買華為手機時不得不考慮不能使用谷歌移動服務所造成的影響,也為華為手機的海外銷售造成一定影響。
  • 遊戲這一年:2020年最賺錢手遊!和平精英王者榮耀拿下前二,原神1天...
    2020年最賺錢的遊戲終於不是《王者榮耀》了!其中《PUBG》、《王者榮耀》的收入可謂是一騎絕塵,第二名《王者榮耀》的收入直接比第三名《寶可夢GO》多了一倍!而且總排名中沒有計算上安卓第三方商店的,恐怕實際收入更可怕!
  • 谷歌新版搜尋引擎Caffeine初測:搜索更準確
    北京時間8月13日消息,據國外媒體報導,谷歌日前對其最新款搜索平臺Caffeine進行了測試,得到的反饋頗佳。據測試者稱,谷歌新款搜尋引擎搜索的結果更加準確,得到的結果也更多。有測試用戶表示,使用谷歌新款搜尋引擎Caffeine進行指定搜索,可以得到7130個搜索結果,而使用谷歌現有搜尋引擎進行指定搜索,得到的搜索引果為803個。該用戶認為,儘管搜索結果前三頁並不相同,但其相關性更強。也有用戶指出,新款搜尋引擎可以更好的搜索社交網站。該用戶表示,谷歌新款搜尋引擎可以搜索到更多微型博客Twitter的頁面,可以讓用戶更加方面的找到公司和人群。
  • 谷歌搜索也掀起《寄生蟲》熱潮,奉俊昊翻譯、炸醬麵等成為熱門搜索詞
    (google)搜索中掀起一股熱潮,全世界有關《寄生蟲》和奉俊昊導演的搜索量暴增。據谷歌2月14日報導,當地時間本月9日奧斯卡獲獎後的5天裡,電影《寄生蟲》成為全球搜索最多的電影。比獲得奧斯卡最佳影片、最佳導演等的電影《小丑》多出129%。
  • 谷歌推出數據集搜尋引擎,可支持中文搜索
    谷歌數據集搜索地址:https://toolbox.google.com/datasetsearch圖丨谷歌數據集搜索(圖源:DT 君)此前,谷歌在今年 7 月推出的數據集標記架構,能夠提取用戶搜索結果中的數據,讓用戶更直觀的看到經過可視化處理的結果
  • 科技早起鳥:華為Mate40系列發布時間曝光,谷歌發布Pixel 5
    2.谷歌發布Andorid 11親兒子Pixel 4A 5G/5:4750元買驍龍765G! 3.華為Mate40系列發布時間曝光:最早一批10月底! 這可能是微軟現在用有關Edge的橫幅來嘮叨Windows 10的用戶,希望用戶開始將其作為默認瀏覽器的原因。
  • 谷歌搜索開始增加化學學科的AR 3D模型支持
    (映維網 2020年08月13日)谷歌在2019年的I/O大會推出了AR動物模型,用戶可以通過谷歌搜索獲取所述對象,並直接在家裡可視化出來,無需任何額外的軟體。在接下來的一年時間裡,谷歌為這個AR內容庫中增加了更多的3D模型,包括人體解剖結構,侏羅紀恐龍,和行星及其他天體等等。現在,谷歌已經將觸角伸向化學領域。
  • 谷歌搜索「idiot」事件並不意外——細數你不知道的谷歌那些事兒
    近日,用谷歌搜索「idiot」一詞後顯示大量川普圖片的這一事件引起熱烈關注。面對議員的質詢,谷歌用搜尋引擎的原理來解釋這個現象。直到現在,如果你用谷歌搜索「idiot」,在呈現的結果裡依然還是可以看到不少川普信息,這說明,谷歌在搜索規則方面很公正。
  • 谷歌搜索「idiot」事件並不意外 細數你不知道的谷歌那些事兒
    在使用搜尋引擎的時候,你有沒有碰到過搜索出來的結果裡出現了奇怪的東西的情況?前段時間,這個情況發生在了美國總統川普身上。12月11日,谷歌在聽證會上遇到了一個非常尷尬的問題。會議上,有議員公開向谷歌提出質疑,為什麼在谷歌圖片搜索「idiot」後會顯示大量的川普圖片?
  • 用谷歌圖片搜索自製深度學習數據集 | 教程
    用谷歌圖片搜索自製深度學習數據集 | 教程 銅靈 編譯整理 就怕前腳剛立志搞個新研究,後腳就發現沒有合適的數據集可用。AI工程師從入門到放棄,可能就是這麼一會的功夫。 別找了,現在深度學習數據集也能自制了。