【新智元導讀】谷歌在近期召開的Search On2020大會上,宣布BERT已經佔領了谷歌搜索的高地,幾乎每一個英語查詢背後都有BERT的影子,而BERT竟然只是谷歌「蜂鳥」系統的冰山一角。
2018年BERT橫空出世,帶著碾壓級的成績刷榜各種NLP任務。
2019年,biobert,roberta,albert等各種BERT變體開始層出不窮,給傳統的NLP任務帶來了革命性的進展。
而谷歌作為BERT的本家,更是將它的優勢發揮的淋漓盡致。
加入谷歌搜索剛一年,BERT「佔領」幾乎所有英語查詢
2019年10月,BERT首次亮相谷歌搜索時,這一比例僅為10%。
2019年12月,谷歌將 BERT 的使用擴展到70多種語言。
在最近的2020 Search On虛擬搜索大會上,谷歌表示,BERT幾乎成了每一個英語查詢的後端引擎。
BERT不會影響網站的排名,BERT 的目的是更好地理解網頁上的內容來提高搜索結果的相關性。
下面是谷歌展示的集成BERT之後的一個demo,當查詢「在沒有路緣的山上停車」時,過去這樣的查詢會讓谷歌的系統感到困惑。
谷歌表示,之前的算法過於重視「curb」這個詞,而忽略了「no」這個詞,沒有抓住這個詞對於問題的重要性,所以搜尋引擎會返回在有路緣的小山上停車的結果。
工程師們已經將「特定搜索」的準確率提高了7% ,同時也在改善「更廣泛搜索」的結果和答案。
BERT替代RankBrain,晉升谷歌搜索算法「蜂鳥」頭牌
BERT只是谷歌搜索算法的冰山一角,這個世界最強大的搜索工具,真可謂是一個Search Brain。
谷歌把這個Search Brain稱為「蜂鳥」,是一個搜索算法貨櫃,就像一輛汽車有一個整體的引擎一樣。各個算法就好比,發動機本身的機油濾清器、燃油泵、散熱器等。
蜂鳥還包含了其他部分,比如用於搜尋引擎優化的,Panda、 Penguin 、 Payday ,打擊垃圾郵件的Pigeon,以及大名鼎鼎的網頁排名算法PageRank。
而在BERT加入蜂鳥這個大家庭之前,最重磅的成員要屬RankBrain了。
2015年,RankBrain部署到了蜂鳥中,短短幾個月時間,RankBrain 就迅速成長為搜索查詢結果的第三重要的信號。
RankBrain 利用人工智慧將大量的語言嵌入到計算機可以理解的向量中,如果 RankBrain 看到一個它不熟悉的單詞或短語,機器就可以猜測哪些單詞或短語可能具有類似的含義,並對結果進行相應的過濾,使其更有效地處理從未見過的搜索查詢,類似於我們今天熟知的詞向量。
參與了 RankBrain 項目的谷歌高級研究科學家 Greg Corrado 表示,RankBrain 是谷歌搜索算法系統中「數百個」信號之一,這些算法最終決定了谷歌搜索頁面上出現什麼結果。
現在有了BERT的加持,「蜂鳥」能夠更好地理解查詢意圖和內容相關性,成為了谷歌搜索理解語言的最重要信號。如果你拼錯了什麼,谷歌的拼寫系統可以幫助你修改為正確的單詞。
據谷歌統計,在每十個日常搜索中,就有一個拼寫錯誤,應用了BERT之後,這種手誤就可以更好地糾正,比如下面這個dinner誤輸入為dibber,BERT能更好地理解搜索意圖,直接返回了地圖上的位置。
BERT查詢結果更「盡人意」,也需要更多TPU
2019年,谷歌將 BERT 模型應用於搜索。
BERT的突破來自谷歌transformer相關的研究成果,transformer可以更好地處理句子中所有單詞的相關性,而不是按順序逐個來。
因此,BERT 模型可以查看單詞前後的詞語來考慮單詞的整個上下文,這對於理解搜索查詢背後的意圖特別有用。
需要更多TPU
但是,將BERT應用於搜索,不僅僅需要軟體,也需要新的硬體,比如TPU。BERT 建立的一些模型非常龐大,突破了傳統硬體的極限,所以要想應用,還得加上谷歌的雲端TPU們。
將問題拆解
BERT將用戶查詢的問題拆解後轉換為向量,通過將 BERT 模型找到更有用的信息。
特別是對於更長的、更具對話性的查詢,或者搜索介詞如「for」和「to」對於查詢的意義非常重要的情況,基於BERT的查詢能夠更全面地理解查詢問題中各個單詞的上下文,搜索的方式可以更加口語化,而不必刻意打「官腔」。
BERT的核心組件transformer真是百變金剛,除了在各種NLP任務中刷榜,也應用到了計算機視覺當中,並且基於transformer的模型大有取代CNN的趨勢。
CV和NLP融合的多模態人工智慧,也將登上AI的舞臺。
參考連結:
https://searchengineland.com/google-bert-used-on-almost-every-english-query-342193