谷歌親兒子BERT的王者榮耀,僅用一年雄霸谷歌搜索頭牌!

2021-01-09 新智元

【新智元導讀】谷歌在近期召開的Search On2020大會上,宣布BERT已經佔領了谷歌搜索的高地,幾乎每一個英語查詢背後都有BERT的影子,而BERT竟然只是谷歌「蜂鳥」系統的冰山一角。

2018年BERT橫空出世,帶著碾壓級的成績刷榜各種NLP任務。

2019年,biobert,roberta,albert等各種BERT變體開始層出不窮,給傳統的NLP任務帶來了革命性的進展。

而谷歌作為BERT的本家,更是將它的優勢發揮的淋漓盡致。

加入谷歌搜索剛一年,BERT「佔領」幾乎所有英語查詢

2019年10月,BERT首次亮相谷歌搜索時,這一比例僅為10%。

2019年12月,谷歌將 BERT 的使用擴展到70多種語言。

在最近的2020 Search On虛擬搜索大會上,谷歌表示,BERT幾乎成了每一個英語查詢的後端引擎。

BERT不會影響網站的排名,BERT 的目的是更好地理解網頁上的內容來提高搜索結果的相關性。

下面是谷歌展示的集成BERT之後的一個demo,當查詢「在沒有路緣的山上停車」時,過去這樣的查詢會讓谷歌的系統感到困惑。

谷歌表示,之前的算法過於重視「curb」這個詞,而忽略了「no」這個詞,沒有抓住這個詞對於問題的重要性,所以搜尋引擎會返回在有路緣的小山上停車的結果。

工程師們已經將「特定搜索」的準確率提高了7% ,同時也在改善「更廣泛搜索」的結果和答案。

BERT替代RankBrain,晉升谷歌搜索算法「蜂鳥」頭牌

BERT只是谷歌搜索算法的冰山一角,這個世界最強大的搜索工具,真可謂是一個Search Brain。

谷歌把這個Search Brain稱為「蜂鳥」,是一個搜索算法貨櫃,就像一輛汽車有一個整體的引擎一樣。各個算法就好比,發動機本身的機油濾清器、燃油泵、散熱器等。

蜂鳥還包含了其他部分,比如用於搜尋引擎優化的,Panda、 Penguin 、 Payday ,打擊垃圾郵件的Pigeon,以及大名鼎鼎的網頁排名算法PageRank。

而在BERT加入蜂鳥這個大家庭之前,最重磅的成員要屬RankBrain了。

2015年,RankBrain部署到了蜂鳥中,短短幾個月時間,RankBrain 就迅速成長為搜索查詢結果的第三重要的信號。

RankBrain 利用人工智慧將大量的語言嵌入到計算機可以理解的向量中,如果 RankBrain 看到一個它不熟悉的單詞或短語,機器就可以猜測哪些單詞或短語可能具有類似的含義,並對結果進行相應的過濾,使其更有效地處理從未見過的搜索查詢,類似於我們今天熟知的詞向量。

參與了 RankBrain 項目的谷歌高級研究科學家 Greg Corrado 表示,RankBrain 是谷歌搜索算法系統中「數百個」信號之一,這些算法最終決定了谷歌搜索頁面上出現什麼結果。

現在有了BERT的加持,「蜂鳥」能夠更好地理解查詢意圖和內容相關性,成為了谷歌搜索理解語言的最重要信號。如果你拼錯了什麼,谷歌的拼寫系統可以幫助你修改為正確的單詞。

據谷歌統計,在每十個日常搜索中,就有一個拼寫錯誤,應用了BERT之後,這種手誤就可以更好地糾正,比如下面這個dinner誤輸入為dibber,BERT能更好地理解搜索意圖,直接返回了地圖上的位置。

BERT查詢結果更「盡人意」,也需要更多TPU

2019年,谷歌將 BERT 模型應用於搜索。

BERT的突破來自谷歌transformer相關的研究成果,transformer可以更好地處理句子中所有單詞的相關性,而不是按順序逐個來。

因此,BERT 模型可以查看單詞前後的詞語來考慮單詞的整個上下文,這對於理解搜索查詢背後的意圖特別有用。

需要更多TPU

但是,將BERT應用於搜索,不僅僅需要軟體,也需要新的硬體,比如TPU。BERT 建立的一些模型非常龐大,突破了傳統硬體的極限,所以要想應用,還得加上谷歌的雲端TPU們。

將問題拆解

BERT將用戶查詢的問題拆解後轉換為向量,通過將 BERT 模型找到更有用的信息。

特別是對於更長的、更具對話性的查詢,或者搜索介詞如「for」和「to」對於查詢的意義非常重要的情況,基於BERT的查詢能夠更全面地理解查詢問題中各個單詞的上下文,搜索的方式可以更加口語化,而不必刻意打「官腔」。

BERT的核心組件transformer真是百變金剛,除了在各種NLP任務中刷榜,也應用到了計算機視覺當中,並且基於transformer的模型大有取代CNN的趨勢。

CV和NLP融合的多模態人工智慧,也將登上AI的舞臺。

參考連結:

https://searchengineland.com/google-bert-used-on-almost-every-english-query-342193

相關焦點

  • 谷歌搜索:幾乎所有的英文搜索都用上BERT了
    機器之心報導機器之心編輯部在前段時間舉辦的「Search On」活動中,谷歌宣布,BERT 現在幾乎為谷歌搜尋引擎上的每一個基於英文的查詢提供支持。而在去年,這一比例僅為 10%。
  • 谷歌搜索的靈魂:BERT模型的崛起與榮耀
    據谷歌統計,在每十次搜索中,就會出現一個拼寫錯誤,如下圖用戶想搜索dinner,卻誤輸成dibber,但BERT可以繞過這個錯誤,直接識別出用戶意圖,提供餐館位置。兩個月後,BERT開始承擔70多種語言的搜索任務。一年後,BERT在谷歌搜索中使用比例近乎100%,憑藉出色的理解能力,替代上一代查詢工具RankBrain,成為搜索大腦的王牌。
  • 谷歌搜索的靈魂!BERT模型的崛起與榮耀
    刷榜各NLP任務、超70種語言搜索,起底搜索帝國谷歌的「引擎工程師」BERT!作者 | 子佩編輯 | Panken如果你在谷歌上搜索「如何在沒有馬路的山上停車」,谷歌會告訴你什麼?兩個月後,BERT開始承擔70多種語言的搜索任務。一年後,BERT在谷歌搜索中使用比例近乎100%,憑藉出色的理解能力,替代上一代查詢工具RankBrain,成為搜索大腦的王牌。
  • 谷歌Project Treble計劃詳解:每臺手機都是Nexus親兒子
    但真正有機會享用最新系統資源的卻僅限於新品,或是少數熱賣機型。絕大多數手機在上市一年後就會終止系統維護,而且終其一生也會始終停留在某個Android版本上。比如,某手機剛上市時預裝Android6.0.1,斷續的系統更新永遠是建立在這個版本上的修修補補,想升級到Android7.x?掏錢買新機吧。
  • 谷歌親兒子處理器首曝,網友:搞笑呢?
    谷歌親兒子處理器首曝,網友:搞笑呢?Pixel 4a原型機獲取預覽版相機應用的代碼時無意間發現了谷歌Pixel 5系列(包括Pixel 5和Pixel 5 XL)搭載的處理器,處理器並非大家意料中的高通驍龍865+X55基帶,而是另一款中端處理器——765/765G。
  • 和谷歌「親兒子」更配哦
    和谷歌「親兒子」更配哦》文章已經歸檔,不再展示相關內容,編輯建議你查看最新於此相關的內容:Twitter search升級搜索功能將給谷歌帶來壓力在學習SEO的過程中讓我更多的理解了社會媒體的含義,其實也不能說自己落伍,自己玩網絡博客,交友網站很多,但是當時就是不知道那個就是稱為社會媒體,也是因為在上次的廈門SMX搜尋引擎營銷大會上聽Gillian強調社會媒體對
  • 性能媲美BERT,但參數量僅為1/300,這是谷歌最新的NLP模型
    BERT 級別的性能,但參數量僅為 BERT 的 1/300。去年,谷歌發布了一種被稱為 PRADO 的神經架構,該架構當時在許多文本分類問題上都實現了 SOTA 性能,並且參數量少於 200K。大多數模型對每個 token 使用固定數目的參數,而 PRADO 模型使用的網絡結構只需要很少的參數即可學習與任務最相關或最有用的 token。
  • 俾斯麥淚流滿面《艦娘》面世後的谷歌搜索差異
    早前,日本NHK電視臺的德語講師Marei Mentlein在推特上宣傳關於鐵血宰相俾斯麥的故事,想通過谷歌找一張俾斯麥的照片時,卻發現顯示的內容全是人氣頁遊《艦隊收藏》中的俾斯麥。有網友表示,俾斯麥是在2014年3月14日更新到《艦隊收藏》遊戲中的,當時 在谷歌上搜索俾斯麥,出現的還是歷史人物。但時隔一年後再搜索,就已經物是人非了。
  • Android 11親兒子谷歌Pixel 5曝光:驍龍765G賣5000元
    今天外媒曝光了Android 11親兒子谷歌Pixel 5的詳細信息。正如傳聞所言,谷歌Pixel 5和上一代Pixel 4相比最大的變化之一是處理器「降配」。谷歌Pixel 4使用高通驍龍855旗艦處理器,而谷歌Pixel 5使用高通驍龍765G處理器,這是谷歌Pixel數字系列第一次使用高通驍龍中端晶片。不過谷歌Pixel 5終於用上了8GB內存,同時提供128GB存儲,出廠預裝Android 11系統。
  • 谷歌推惡意軟體示警功能 搜索即可檢測
    【IT168 應用】谷歌今天推出一項安全功能,如果用戶PC感染惡意軟體,那麼當用戶進行搜索時,谷歌會在搜索結果頁面頂端發出示警。    用戶通過Google.com搜索任意關鍵詞,如果谷歌檢測到用戶PC感染惡意軟體,就會在搜索結果頁面頂端顯示一個黃色區域,並提示「您的電腦似乎遭到感染」。谷歌還提供了如何清除惡意軟體的指導說明。
  • 谷歌搜索建議網頁圖表信息使用圖片少用HTML
    近日,谷歌搜索負責人在線下站長交流群中跟站長分享搜索優化方向,建議網站圖表信息多使用圖片顯示,儘量少用HTML5顯示,方便谷歌搜尋引擎抓取圖表相關信息。了解到,在這次群聊解答中,一個站長問谷歌搜索負責人約翰·穆勒,在網頁上顯示帶有數據的圖表的最佳優化方法是什麼,在Google搜索看來,用圖表形式發布圖表還是用HTML5重新創建圖表對網頁排名好一點。
  • 在谷歌搜索「蠢貨」出現的是川普?谷歌CEO稱非人工幹預
    【文/觀察者網 陳睿】在谷歌搜索「蠢貨」為何出現川普?美國國會議員11日在聽證會上連番追問谷歌CEO桑德爾皮查伊(Sundar Pichai)。如何幫助年長議員們理解谷歌算法?又如何使他們相信搜索結果是自然產生而非人工幹預?皮查伊費盡口舌。
  • 如何到達谷歌搜索的頂部 [互動指南]-megalithant
    如何通過 ads 達到谷歌頂部 如果你已經在目標關鍵字的搜索結果頂部看到廣告,那麼出現在谷歌頂部的唯一方法就是付費廣告。 怎麼做?只需註冊 Google ads 並建立搜索廣告系列就可以實現。這個就是谷歌的廣告質量得分。用谷歌的話來說就是:「較高的質量得分通常可以降低成本並提高廣告排名。」
  • 2020年蘋果商店、谷歌Play合計收入破1000億美元 《王者榮耀》依舊...
    2020年蘋果商店、谷歌Play合計收入破1000億美元 《王者榮耀》依舊無敵 時間:2021-01-05 13:56:14 來源:3DM整理
  • 谷歌AI團隊新發布的BERT模型,BERT的創新點在哪裡?
    谷歌AI團隊新發布的BERT模型,BERT的創新點在哪裡? 而谷歌提出的BERT就是在OpenAI的GPT的基礎上對預訓練的目標進行了修改,並用更大的模型以及更多的數據去進行預訓練,從而得到了目前為止最好的效果。
  • 谷歌搜索自然流量增長乏力,出海企業應如何應對?
    但情況正發生變化,點擊流數據企業Jumpshot 6月在全球收集了超過1億臺設備的數據,發現有超過一半的谷歌搜索並沒有帶來點擊。更重要的是,有大量且越來越多的搜索給谷歌擁有的資源帶來了點擊,帶動了其流量的增長。 具體來說,Jumpshot表示,在6月份,50.33%的谷歌搜索沒有產生任何點擊。 45.25%帶來自然點擊,4.42%帶來廣告點擊。
  • 2020年穀歌最新搜索統計報告!做谷歌推廣必看!
    谷歌是一個很好的搜尋引擎,所以作為一個外貿人,如果你不知道怎麼用谷歌,那顯然是過時了。Google2020年十大搜索統計,大家來看看!1.Google是訪問量最大的網站。外貿大咖:谷歌用不好的外貿人,是真的會被直接淘汰。不出所料,谷歌是訪問量最大的網站。谷歌月訪問量達到880億。
  • 谷歌搜索網頁版正測試黑暗模式
    IT之家 12 月 14 日消息 據報導,谷歌正在為其桌面網頁搜索網站測試黑暗模式,此前谷歌已在其移動應用中引入黑暗模式的用戶界面。谷歌已經在其 Gmail 和搜索應用中加入了遲來的對黑暗模式的支持,看起來桌面網頁的黑暗模式也可能在路上了。
  • 谷歌搜索蠢貨出現川普照片
    Pichai給出了這個問題的一個長而籠統的答案,解釋了谷歌搜索是如何工作的。他說:「任何時間輸入一個關鍵詞,谷歌將從我們的索引抓取和存儲多達數十億網頁的信息內容,然後我們會根據200多個接入點,如相關性、新鮮、流行以及如何使用的法律人,將匹配關鍵字和網站,然後把高級web內容的搜索結果。在此算法的基礎上,我們可以根據問題提供最優的搜索結果。
  • 谷歌正在為桌面搜索測試「暗黑模式」
    鞭牛士BiaNews消息:據新浪科技消息,據報導,谷歌正在為其桌面網頁搜索網站(google.com)測試「暗黑模式」。此前,谷歌已在其移動應用中引入暗黑模式的用戶界面。 報導稱,谷歌正在測試桌面搜索的原生暗黑主題。之前的白色背景變成了深灰色色調,谷歌Logo變成白色的,而不是五顏六色的。