谷歌Talk to books引爆搜索方式革命

2020-12-14 創業家

新智元專欄

作者:鄧侃

【新智元導讀】 昨天, 新智元介紹了谷歌的全新搜索工具「 Talk to Books 」 , 基於自然語言文本理解, 用戶能夠憑語義而非關鍵詞來實現搜索功能。谷歌搜索的「AI化」令人眼前一亮, 谷歌是否即將從當今的搜尋引擎,革命性地進化到了回答引擎? 本文作者,大數醫達創始人、CMU 博士鄧侃對谷歌的這個新搜索工具的技術原理進行了解讀。

今天讀到一則新聞,「 谷歌發大招:搜索全面AI化,不用關鍵詞就能輕鬆撩書 」。

這篇新聞的內容,來源於谷歌的官方博客前天(2018/04/13)發的一篇博文 [2],題目是 「Introducing Semantic Experiences with Talk to Books and Semantris」,內容是介紹兩個新產品。作者是谷歌未來學家 Ray Kurzweil 和一位產品經理。

介紹產品 Talk to Books 時,作者放了一張產品截圖。

當用戶提問 「 What is fun about computer programming? 」 Talk to Books 自動回答,

「... has been beneficial on many levels. First, computer programming provides a palette with a virtually unlimited potential for creative expression; the thrill of bringing a useful porgram to life rivals the thrill of hearning a new composition being performed for the fist time. Second, a knowledge of computer ...」

from Arduino for Musicians: A complete Guide to Arduino and Teensy Microcontrollers by Brent Edstrom.

這個例子很震撼,幾個原因:

1. 從搜索到回答:

谷歌當今的搜索結果,只是給出文章的連結。而 Talk to Books 的搜索結果,雖然是書的摘要,但是摘要摘得如此精當,幾乎是問題的回答。這篇博文是不是在暗示, 谷歌即將從當今的搜尋引擎,革命性地進化到了回答引擎

2. 語義理解:

長期擔任過谷歌搜索業務主管,Amit Singhal,在其任內,曾經親自領銜主持谷歌知識圖譜的實現。在介紹知識圖譜的價值時,Amit Singhal 說, 谷歌將不再搜索關鍵詞表面上的字符串 「string」,而將直接搜索關鍵詞的內涵語義 「thing」。

在 Talk to Books 的這個例子中,提問中包含 「fun」,而答案中與之呼應的詞,包括 「beneficial」、「palette」、「thrill」 等等。注意,是呼應,是相關詞,但不是同義詞近義詞。

如何迅速找到同義詞、近義詞、相關詞?不難猜測,一定與 詞向量 有關。如果僅僅用詞向量,取代文字表述的詞彙,那麼基於詞向量的搜尋引擎,最多是模糊匹配的搜尋引擎,但是並非是截圖暗示的那種回答引擎。

3. 文章張量樹:

Talk to Books 先把提問的整個語句,用論文 [3] 的算法,翻譯成一個定長的數值張量,然後用論文 [4] 的算法,在各種書籍的各個章節段落語句中,尋找答案。

論文 [4] 的具體做法是,先把每一篇文章中的每一個詞彙,翻譯成詞彙張量。然後從每一個語句的一連串詞彙張量中,提煉出語句張量。再然後把每一個段落的一連串語句張量中,提煉出段落張量。最後從段落張量中,提煉出整個文章的文章張量。

這樣 , 每篇文章,就構成一個樹狀的張量集合。 根節點是整個文章的中心思想的文章張量,上層中間節點是段落張量,下層中間節點是語句張量,每個葉子節點是詞彙張量。

4. 問答匹配:

輸入一個提問語句,Talk to Books 先把提問語句,翻譯成一個定長的數值張量,然後在眾多文章的張量森林中,尋找最貼切的詞彙張量,也就是某棵樹的葉子節點。如果不行,就尋找最貼切的語句張量,也就是某棵樹的下層中間節點。如果不行,就尋找最貼切的段落張量,也就是某棵樹的上層中間節點。如果還不行,就尋找最貼切的文章張量,也就是某棵樹的根節點。

難題在於,當文章數量很多,一棵樹一棵樹地逐個找一遍,計算量太大。所以需要一個辦法,快速地從提問匹配到回答。

谷歌博文引薦了論文 [4],它用分類器,把提問匹配到數量固定的回答。分類器的辦法,似乎不太可行,原因有二:

a. 當回答的數量非常龐大時,分類器勢必非常複雜。 分類器越複雜,越需要的訓練數據就越多。收集海量的訓練數據,幾乎是無法辦到的事情。

b. 無論是書籍還是網文,數量每天都在快速增多。 分類類目數量增多,分類器的結構就必須隨之改變,就必須重新訓練分類器。

分類器似乎不可行,倒排索引是否可行呢?原理上似乎可行,但是佔用的存儲空間會非常龐大,因為倒排索引的 term,已經不再是每篇文章中出現的所有詞彙了,而是,詞彙張量 + 語句張量 + 段落張量 + 文章張量,組合爆炸的節奏。

除了索引以外,另外一個匹配提問和回答的辦法,是用尋址函數,類似於 Amazon Dynamo 那樣的 Hash 尋址函數 [5]。但是論文 [4] 中沒有提及。

5. 答案生成:

答案的生成,有兩種方式,一個是摘要,如前所述。另外一個是把諸多段落語句,通過推理,串連在一起,更智能地生成答案。

譬如提問是 「孕婦是否能吃海鮮」,推理的辦法是,先找到孕婦子宮中,羊水最重要的營養成分是什麼。然後查找破壞羊水的營養成分,會有哪些物質。再然後檢查海鮮中,是否富含這些破壞物質。

推理的辦法,往往需要把跨段落,甚至跨文章的諸多語句,按邏輯順序,串連在一起,組合成答案。看樣子這次 Talk to Books,並沒有涉及推理的難題。

總之,Talk to Books 的截圖很震撼,但是兩篇論文,似乎並沒有滿足我們所有的好奇心。

# 參考文獻:

1. 谷歌發大招:搜索全面AI化,不用關鍵詞就能輕鬆「撩書」

2. Introducing Semantic Experiences with Talk to Books and Semantris

3. Universal Sentence Encoder

4. Efficient Natural Language Response for Smart Reply

5. Dynamo: amazon's highly available key-value store

本文來自新智元,創業家系授權發布,略經編輯修改,版權歸作者所有,內容僅代表作者獨立觀點。

相關焦點

  • 人人都可參與的AI技術體驗:谷歌發布全新搜尋引擎Talk to Books
    作為搜尋引擎起家的科技巨頭,谷歌曾推出過很多有意思的搜索工具。昨天,這家公司的研究機構發布了一款基於人工智慧的搜尋引擎,該實驗項目可以讓普通人也能感受最新語義理解和自然語言處理技術的強大能力:它們是目前人工智慧技術發展的重要方向。
  • 谷歌發布AI搜尋引擎「Talk to Books」,不用關鍵詞也能「撩書」
    作為搜尋引擎起家的科技巨頭,谷歌曾推出過很多有意思的搜索工具。昨天,這家公司的研究機構發布了一款基於人工智慧的搜尋引擎,該實驗項目可以讓普通人也能感受最新語義理解和自然語言處理技術的強大能力:它們是目前人工智慧技術發展的重要方向。
  • How to talk about e-books in Chinese?
    Today the topic is about e-books.As more and more people prefer to read book on eletronic devices, how to talk about e-books in Chinese?
  • 谷歌發布全新檢索引擎:搜書從未如此方便-谷歌,發布,檢索引擎,搜書...
    昨日,谷歌分享了 Semantic Experiences,在博客中展示了兩大關於自然語言理解的互動工具。Talk to Books 是一個可以從書中的句子層面搜索書籍的全新檢索模式;另一個互動內容則是 Semantris,一個由機器學習驅動的單詞聯想遊戲。
  • 找到APP 引爆陌生交友社交革命
    找到APP 引爆陌生交友社交革命 2018年07月16日 16:05作者:鴻雁編輯:鴻雁 而今,一款基於大數據打造的新型社交軟體——「找到」APP再次引爆社交網絡,掀起了新一輪的社交革命。  裂變熟人脈 延展朋友圈  「找到」APP充分利用人脈裂變原理,通過用戶的一度人脈確立基本人脈圈。用戶通過「找到」APP可以輕鬆查找到同學、同事、同鄉等一度人脈。而通過一度人脈,用戶可以結交好友的人脈圈,進而實現人脈二度裂變。
  • 谷歌搜索即將啟用HTTP/2 方式抓取網頁內容
    國外谷歌站長透露,Google搜索即將從今年11月份開始小範圍啟用HTTP/2 方式抓取網站內容,爬行web頁面時效率更高,不影響網站搜索排名。了解到,HTTP/ 是基於 SPDY,專注於性能一種網絡傳輸協議,相比HTTP/1新增,二進位分幀,多路復用等功能特性,正式使用 HTTP/2 方式抓取之後,最大特點就是支持一個目標在用戶和網站間只用一個連接,Google 可以用更少的資源來更快的抓取內容,相比 HTTP/1谷歌蜘蛛抓取網站效率更高。
  • 谷歌搜索無法訪問怎麼辦 谷歌搜索無法訪問解決辦法
    谷歌搜索無法訪問怎麼辦 谷歌搜索無法訪問解決辦法時間:2017-06-07 15:23   來源:系統天堂   責任編輯:玲玲 川北在線核心提示:原標題: 谷歌搜索無法訪問怎麼辦?目前國內對谷歌搜索進行了限制,所以會出現谷歌搜索無法訪問的情況,那麼有沒有辦法繼續用谷歌搜索呢? 谷歌搜索打不開如何處理?
  • 谷歌搜索的靈魂!BERT模型的崛起與榮耀
    刷榜各NLP任務、超70種語言搜索,起底搜索帝國谷歌的「引擎工程師」BERT!作者 | 子佩編輯 | Panken如果你在谷歌上搜索「如何在沒有馬路的山上停車」,谷歌會告訴你什麼?據谷歌統計,在每十次搜索中,就會出現一個拼寫錯誤,如下圖用戶想搜索dinner,卻誤輸成dibber,但BERT可以繞過這個錯誤,直接識別出用戶意圖,提供餐館位置。
  • 谷歌搜索的靈魂:BERT模型的崛起與榮耀
    兩年不止步,BERT的進階史要在網頁搜索屆呼風喚雨,谷歌的真本事當然不止BERT一個,用於搜尋引擎優化的Panda、Penguin、Payday,打擊垃圾郵件的Pigeon以及名聲在外的網頁排名算法Pagerank……每一塊小模組都各司其職,組成了谷歌搜索的「最強大腦」。
  • 谷歌發布「與書對話」檢索引擎,從字裡行間邂逅心儀書籍
    Talk to Books 是一個可以從書中的句子層面搜索書籍的全新檢索模式;另一個互動內容則是 Semantris,一個由機器學習驅動的單詞聯想遊戲。地址:https://research.google.com/semanticexperiences/雷鋒網了解到,谷歌還發布了「通用語句編碼器」(Universal Sentence Encoder),更加詳細地呈現了上述示例所使用的模型;當然,谷歌還為開源社區提供了一個預訓練的 TensorFlow 模型,開發者可以測試自己的句子及短語編碼。
  • 谷歌推出AI研發搜尋引擎
    來源:科技日報9月5日,谷歌發布了一個幫助研究者查找在線數據的免費搜尋引擎:數據集搜索(Dataset Search)。谷歌表示,該引擎面向科學家、數據記者、數據極客等人群。據搜狐科技報導,數據集搜索與谷歌的其他專用搜尋引擎一樣可以免費使用,它基於擁有者對文件和資料庫的分類方式來查找文件和數據集。該引擎讀取文件內容的方式與搜尋引擎搜索網頁的方式不同。有專家表示,該引擎填補了這一領域的空白,可以極大地促進開放數據運動的發展,這一運動旨在實現數據的開放利用和重複利用。
  • 谷歌學術搜索的風雨十年
    Alex Verstak(註:Acharya 在網頁檢索團隊的同事) 和我決定休假半年,並試圖利用這段時間讓學術文章的搜索變得更加方便快捷。當時的想法並不是創建谷歌學術,而是想提高谷歌在用戶利用網頁搜索學術文章時的排名。不過,隨之而來的問題是如何判定搜索用戶的意圖:他們需要學術性的結果或者只是個門外漢? 我們據此建立了一個內部原型,谷歌學術變成了一種非常有用和重要的服務。
  • 搜索也能如此有趣,谷歌搜索AR功能體驗
    而現在,我們只需一部手機和一個谷歌搜索也能簡單體驗一下AR的有趣。早在去年的I/O開發者大會上,谷歌就宣布將AR融入到谷歌搜索中,利用這一功能,我們在用谷歌搜索諸如「狗、貓、老虎」等動物時頁面會出現「以3D模式查看」的選項,當我們點擊進去,就可以隨意拖動來觀看動物的3D模型,也可以伸縮放大來看清細節,甚至還有與之匹配的聲音出現。
  • Facebook圖譜搜索:搜索口語化 填補谷歌空白
    告別關鍵詞,搜索方式口語化「圖譜搜索」,這個新名字聽起來頗具科技範兒,似乎是為網際網路專業技術人士定製的服務,實際上它更注重普通人的用戶體驗,允許人們用自然語言進行查詢,而不再只是單個的關鍵詞。其他公司也曾試水社交搜索,但規模都不如臉譜。填補谷歌搜索的空白早在圖譜搜索未正式露面前,外界就已將其和全球最大搜尋引擎谷歌(Google)進行全方位比較。如果說谷歌已經在海量信息的搜索挖掘上做到了最好,臉譜則試圖在更加人性化的社交搜索領域另闢蹊徑。
  • 谷歌搜索歧視川普?全面拆解Google搜索算法及優化
    自川普總統指責谷歌操縱搜索結果以來,谷歌一直否認其搜索系統存在任何政治偏見。在此過程中,將用戶的查詢請求與索引中的信息進行比較,並確定出現在搜索結果頂部的頁面,這些過程都在幾分之一秒內完成。 20年前,谷歌剛剛成立時,其中一個搜索排名指標是PageRank,以谷歌聯合創始人拉裡·佩奇的名字命名。PageRank根據有多少用戶連結到某頁面,判斷該頁面的與搜索內容相關性。
  • 谷歌搜索推出搜索結果發音功能
    據外媒報導,Google搜索最近推出了一項可以在搜索結果中直接發音的搜索功能,它可以讓用戶在機器學習的幫助下檢查自己不熟悉的單詞的發音情況,算是一種AI搜索與翻譯深度結合,對用戶體驗而言又上升了一個臺階。
  • 谷歌搜索:幾乎所有的英文搜索都用上BERT了
    2019 年 9 月,谷歌宣布將 BERT 用到搜尋引擎中,但僅有 10% 的英文搜索結果得到改善;2019 年 12 月,谷歌將 BERT 在搜尋引擎中的使用擴展到 70 多種語言。如今,這家搜索巨頭終於宣布:幾乎所有英文搜索都能用上 BERT 了。BERT 對於搜尋引擎意味著什麼?
  • 谷歌的「噩夢」 Facebook進軍社交搜索
    這些解釋很有趣,但是最能說明問題的部分是在接受記者採訪時,扎克伯格談到的搜索戰略。雖然他沒有透漏很多具體的細節,它顯然是擊中了谷歌的軟肋:隱含的信息就是,Facebook正在進軍社交搜索領域,而且行動迅速——Facebook已經做好了充分的準備,意圖挑戰Google這位搜索巨頭的「江湖地位」。
  • 搜狗推英文搜索和學術搜索功能 欲替代谷歌
    搜狗推英文搜索和學術搜索功能 欲替代谷歌 來源:www.18183.com作者:皮卡時間:2016-05-19 很多人在進行英文及學術等專業性搜索時,都更傾向於使用谷歌搜索。但由於各種各樣的原因,谷歌搜索在國內使用並不是特別方便。
  • 為什麼你的谷歌瀏覽器不能直接搜索
    當然這也不是我今天要談的話題,最近有不少人來問我,為什麼他下載的谷歌瀏覽器在搜索的時候,沒有辦法正常使用,需要打開百度或者其他網站才可以使用。可能很多人不知道,瀏覽器可以搜索是依託於搜尋引擎的。2010年,谷歌退出中國大陸市場後,Google搜索也不能直接使用了,所以國內大陸市場是沒有辦法直接使用谷歌搜索的。