人人都可參與的AI技術體驗:谷歌發布全新搜尋引擎Talk to Books

2020-12-11 機器之心Pro

作為搜尋引擎起家的科技巨頭,谷歌曾推出過很多有意思的搜索工具。昨天,這家公司的研究機構發布了一款基於人工智慧的搜尋引擎,該實驗項目可以讓普通人也能感受最新語義理解和自然語言處理技術的強大能力:它們是目前人工智慧技術發展的重要方向。值得一提的是,《奇點臨近》一書的作者,谷歌研究院工程總監雷·庫茲韋爾也參與了這一工作

項目連結:https://research.google.com/semanticexperiences/預訓練模型下載地址:https://tfhub.dev/google/universal-sentence-encoder/1

這一項目目前包含交互式 AI 語言工具,它展示的主要人工智慧技術是「詞向量」。詞向量是一種自然語言處理形式,向量的一些幾何性質能夠很好的反映詞的句法或者句義。例如,兩個詞向量的差值對應詞的關係,詞向量的距離則對應詞的相關或者相似性。對於選定的一組詞,將其向量投影到空間中,詞義相近的詞向量在向量空間中表現出了有趣的聚類現象。例如國家名詞聚成一類,大學名稱則形成另一個聚類。

自然語言理解在過去幾年發展迅速,部分要歸功於詞向量的發展,詞向量使算法能夠根據實際語言的使用實例了解詞與詞之間的關係。這些向量模型基於概念和語言的對等性、相似性或關聯性將語義相似的詞組映射到鄰近點。去年,谷歌使用語言的層次向量模型對 Gmail 的 Smart Reply 進行了改進。最近,谷歌一直在探索這些方法的其他應用。

今天,谷歌向公眾分享了 Semantic Experiences 網站,該網站上有兩個示例,展示了這些新的方法如何驅動之前不可能的應用。Talk to Books 是一種探索書籍的全新方式,它從句子層面入手,而不是作者或主題層面。Semantris 是一個由機器學習提供支持的單詞聯想遊戲,你可以在其中鍵入與給定提示相關聯的詞彙。此外,谷歌還發布了論文《Universal Sentence Encoder》,詳細地介紹了這些示例所使用的模型。最後,谷歌為社區提供了一個預訓練語義 TensorFlow 模塊,社區可以使用自己的句子或詞組編碼進行實驗。

建模方法

谷歌提出的方法通過為較大的語言塊(如完整句子和小段落)創建向量,擴展了在向量空間中表徵語言的想法。語言是由概念的層次結構組成的,因此谷歌使用模塊的層次結構來創建向量,每個模塊都要考慮與不同時間尺度上的序列所對應的特徵。關聯、同義、反義、部分關係、整體關係以及許多其他類型的關係都可以用向量空間語言模型來表示,只要我們以正確的方式進行訓練,並且提出正確的「問題」。谷歌在論文《Efficient Natural Language Response for Smart Reply》中介紹了這種方法。

Talk to Books

通過 Talk to Books,谷歌提供了一種全新的圖書搜索方式。你陳述一件事或提出一個問題,這個工具就會在書中找出能回答你的句子,這種方法不依賴關鍵詞匹配。從某種意義上來說,你在和書「交談」,得到的回答可以幫助你確定自己是否有興趣閱讀它們。

Talk to Books

該模型在十億聊天句對上訓練而成,學習識別哪些可能是好的回覆。一旦你問問題(或者作出陳述),工具就在搜索十萬本書中的所有句子,根據句子層面的語義找到與輸入語句對應的內容;沒有限制輸入和輸出結果之間關係的預置規則。

這是一種獨特的能力,可以幫助你找到關鍵詞搜索未必找得到的有趣書籍,但是仍有改進空間。例如,上述實驗在句子層面有作用(而不是像 Gmail 的 Smart Reply 那樣是在段落層面),那麼「完美」匹配的句子可能仍屬「斷章取義」。你可能會發現找到的書或文章並非自己想要的,或者選中某篇文章的理由並不明顯。你還可能注意到著名的書籍未必排序靠前;該實驗僅觀察了單個句子的匹配程度。不過,它有一個好處,就是這個工具可以幫助人們發現意想不到的作者和書籍,以及 surface book。

Semantris

谷歌還發布了 Semantris,一個由該技術支持的單詞聯想遊戲。你輸入一個單詞或詞組,遊戲屏幕上會排列出所有單詞,排序根據這些單詞與輸入內容的對應程度。使用該語義模型,近義詞、反義詞和鄰近概念都不在話下。

試用地址:https://research.google.com/semantris

Arcade 版本(見下圖)的時間壓力使得你輸入單個單詞作為提示。而 Blocks 版本沒有時間壓力,你可以盡情嘗試輸入詞組和句子。

Semantris Arcade

本文分享的示例僅僅是使用這些新工具的幾個可能方式。其他潛在應用還包括分類、語義相似度、語義聚類、白名單應用(從多個方案中選擇正確的回覆)和語義搜索(比如 Talk to Books)。期待社區提出更多想法和更多有創意的應用案例。

相關論文:Universal Sentence Encoder

論文連結:https://arxiv.org/abs/1803.11175

摘要:我們展示了將句子編碼成嵌入向量的模型,可用於面向其他 NLP 任務的遷移學習。該模型高效,且在多項遷移任務中性能良好。該編碼模型的兩個變體允許準確率和計算資源之間的權衡。對於這兩種變體,我們調查並作了關於模型複雜度、計算資源消耗、遷移任務可用性和任務性能之間關係的報告。我們將該模型與通過預置詞嵌入使用單詞級別遷移學習的基線模型和未使用遷移學習的基線模型進行了對比,發現使用句子嵌入的遷移學習性能優於單詞級別的遷移學習。句子嵌入的遷移學習在具備少量監督訓練數據的遷移任務中也能實現非常好的性能。我們在檢測模型偏差的詞嵌入關聯測試(WEAT)中獲得了很好的結果。

相關焦點

  • 谷歌發布全新檢索引擎:搜書從未如此方便-谷歌,發布,檢索引擎,搜書...
    昨日,谷歌分享了 Semantic Experiences,在博客中展示了兩大關於自然語言理解的互動工具。Talk to Books 是一個可以從書中的句子層面搜索書籍的全新檢索模式;另一個互動內容則是 Semantris,一個由機器學習驅動的單詞聯想遊戲。
  • 谷歌Talk to books引爆搜索方式革命
    新智元專欄 作者:鄧侃【新智元導讀】 昨天, 新智元介紹了谷歌的全新搜索工具「 Talk to Books 」 , 基於自然語言文本理解, 用戶能夠憑語義而非關鍵詞來實現搜索功能。谷歌搜索的「AI化」令人眼前一亮, 谷歌是否即將從當今的搜尋引擎,革命性地進化到了回答引擎? 本文作者,大數醫達創始人、CMU 博士鄧侃對谷歌的這個新搜索工具的技術原理進行了解讀。今天讀到一則新聞,「 谷歌發大招:搜索全面AI化,不用關鍵詞就能輕鬆撩書 」。
  • 谷歌發布AI搜尋引擎「Talk to Books」,不用關鍵詞也能「撩書」
    作為搜尋引擎起家的科技巨頭,谷歌曾推出過很多有意思的搜索工具。昨天,這家公司的研究機構發布了一款基於人工智慧的搜尋引擎,該實驗項目可以讓普通人也能感受最新語義理解和自然語言處理技術的強大能力:它們是目前人工智慧技術發展的重要方向。
  • 谷歌推出AI研發搜尋引擎
    來源:科技日報9月5日,谷歌發布了一個幫助研究者查找在線數據的免費搜尋引擎:數據集搜索(Dataset Search)。谷歌表示,該引擎面向科學家、數據記者、數據極客等人群。據搜狐科技報導,數據集搜索與谷歌的其他專用搜尋引擎一樣可以免費使用,它基於擁有者對文件和資料庫的分類方式來查找文件和數據集。該引擎讀取文件內容的方式與搜尋引擎搜索網頁的方式不同。有專家表示,該引擎填補了這一領域的空白,可以極大地促進開放數據運動的發展,這一運動旨在實現數據的開放利用和重複利用。
  • 谷歌發布「與書對話」檢索引擎,從字裡行間邂逅心儀書籍
    Talk to Books 是一個可以從書中的句子層面搜索書籍的全新檢索模式;另一個互動內容則是 Semantris,一個由機器學習驅動的單詞聯想遊戲。以往我們在檢索書籍時,通常會從書名、作者、主題等表面標籤入手。而谷歌發布的「Talk to Books」可以為用戶提供一種檢索書籍的全新方法。
  • 緊跟中國搜尋引擎的腳步,谷歌也要做信息流了
    回顧谷歌、百度等搜索巨頭的使命不難發現,它們從來沒有強調搜索本身,谷歌創始人在1998年就定下了「組織全球信息,使人人皆可訪問和使用」的企業使命。百度成立之初的初心則是讓人們平等地獲取信息。簡而言之,谷歌、百度的核心價值都是在連接人與信息,加速信息流通,降低信息組織和獲取門檻。
  • 常用搜尋引擎大全
    從創立之初,百度便將「讓人們最便捷地獲取信息,找到所求」作為自己的使命,成立以來,公司秉承「以用戶為導向」的理念,不斷堅持技術創新,致力於為用戶提供「簡單,可依賴」的網際網路搜索產品及服務,其中包括:以網絡搜索為主的功能性搜索,以貼吧為主的社區搜索,針對各區域、行業所需的垂直搜索,Mp3搜索,以及門戶頻道、IM等,全面覆蓋了中文網絡世界所有的搜索需求,根據第三方權威數據,百度在中國的搜索份額超過80%
  • 夸克發布3.2版,以AI技術探索下一代智能搜索應用
    一款搜索產品的響應速度能快到什麼程度?夸克的答案是毫秒必爭。4月26日,智能搜索應用夸克發布3.2版,在AI技術賦能移動搜索的理念下,向著極速、精準、智能的產品體驗跨進一步。圍繞用戶的搜索需求,夸克聚焦在AI技術帶來的變革機會,在移動搜索創新之路上,探索下一代搜索產品的發展方向,讓搜索回歸好產品,讓用戶享受極致體驗。AI賦能下,提升極速、精準、智能的搜索體驗採用AI技術的智能化應用是近年來網際網路產品創新的風口,為用戶開拓了全新的交互模式和體驗。
  • 中國搜尋引擎的實用性
    在中國網際網路的初期,谷歌,微軟,雅虎,3721,百度,等等,展開了爭奪戰,結果谷歌因違反中國政策退出中國,也有說本質是已經輸給百度搜索了,只是找了一個藉口,微軟的必應因不符合中國用戶習慣最後也默默無聞了,3721依靠捆綁曾經領先過,面對金錢誘惑,最終賣身雅虎,雅虎則被阿里收購,並最終失敗,市場也只剩百度唯一的寡頭了,憑藉技術優勢與用戶習慣,以及不斷地創新,百度搜索在電腦時代的中國最終被用戶所喜愛
  • 中國搜尋引擎往事
    2004年8月,搜狐公司推出搜狗搜索。2006年3月,騰訊發布SOSO(搜搜)。2006年4月,谷歌中國正式成立。2006年12月,網易推出有道搜索測試版。2009年5月,微軟公司推出Bing(必應)搜索。2010年3月,谷歌搜索退出中國大陸市場。
  • 谷歌金山詞霸1.8正式推出 整合谷歌翻譯引擎
    摘要:       9月28日消息,金山今日發布了全新的谷歌金山詞霸1.8版本,其中整合進谷歌翻譯引擎實現劃詞翻譯,但在盈利模式上並未進行明顯的探索。
  • 番薯網正式發布全球首款中文圖書搜尋引擎
    記者在現場了解到,這一平臺將提供中文圖書搜尋引擎、電子商務平臺、全媒體發布系統的綜合性雲服務。「相較IT行業的專業,電子閱讀是網民並不陌生的領域。番薯網在這一領域推出雲服務,能夠讓用戶通過親身體驗更加深刻地了解雲服務,並切實感受到『雲閱讀』平臺的魅力。」番薯網CEO趙舸女士表示。
  • 欲替代谷歌?蘋果正加快開發搜索技術
    近日有消息稱,蘋果已經在暗中加大力度開發用於iPhone的搜索技術。此前,谷歌每年向蘋果支付數十億美元以確保其搜尋引擎成為iPhone默認的搜索工具,但這筆交易正受到監管部門審查。 蘋果加快開發搜索技術 上海財聯社29日報導,據英國《金融時報》消息,可能部分iPhone用戶已經注意到,當用他們使用最新的iOS14系統時,如果在搜索窗口輸入查詢字詞的時候,蘋果現在不再會顯示谷歌的搜索結果,而是會顯示其自己的搜索結果。同時蘋果還會顯示其自動聯想建議,表明其已擁有從用戶常用搜索關鍵詞中學習的能力。
  • Facebook圖譜搜索:搜索口語化 填補谷歌空白
    告別關鍵詞,搜索方式口語化「圖譜搜索」,這個新名字聽起來頗具科技範兒,似乎是為網際網路專業技術人士定製的服務,實際上它更注重普通人的用戶體驗,允許人們用自然語言進行查詢,而不再只是單個的關鍵詞。扎克伯格在發布會上舉例說,比如輸入口語化的提問:「我在舊金山的好友都有誰?」,圖譜搜索很快就給出他在這座城市的好友名單,而且按照關係的親疏遠近排列,他的妹妹就排在最前面。圖譜搜索被定義為「與用戶密切相關的搜索」,它能回答非常具體的問題,但主要圍繞人、地點、圖片和興趣愛好四個方面,這也是社交網站上與用戶相關的四個主要維度。
  • 改進輸入法引擎 谷歌拼音2.2正式版發布
    在拼音輸入法領域,搜狗和QQ拼音以及老牌的紫光,永遠都有說不完的話題,對於後來的谷歌拼音來說,從誕生到現在雖然市場佔有率並沒有迅速的增長,不過谷歌拼音輸入法憑藉其堅實的後盾也在不斷的完善和改進中,逐步建立其良好的口碑。谷歌拼音2.0可謂是革命性的改進,全新的輸入法設置嚮導,默認輸入界面也進行了調整,增強了立體感,看起來更加美觀。
  • 谷歌發布全新Android P:界面小改,AI技術更強大
    2018年5月9日凌晨1點,谷歌I/O開發者大會如期在美國加州山景城的海濱露天劇場(Shoreline Amphitheater)舉行,谷歌不僅對AI技術進行了更深層次的提升,同時也對Android系統進行了更新,谷歌副總裁Dave Burke對Android的更新進行了開場演講,「在Android過去的10中,已經成為了一個開放的系統
  • 2019年中國搜尋引擎行業市場現狀及發展趨勢
    中國搜尋引擎行業:百度依然是一家獨大中國搜尋引擎公司主要包括百度、360搜索(好搜)、神馬搜索、搜狗搜索等,還在國內有運營的國外搜尋引擎公司則主要有:谷歌(香港)、Bing(微軟),其它還有一些市場份額很少,基本可以忽略。
  • 華為搜尋引擎面世:用不了谷歌,試試「花瓣搜索」?
    機器之心機器之心報導參與:澤南、杜偉、小舟為了解決沒有「谷歌全家桶」的問題,華為今年接連推出了 HMS Core、地圖服務、應用商店 AppGallery,現在連屬於自己的搜尋引擎「花瓣搜索」也面世了。
  • 谷歌被罰近100億美元罰款 搜尋引擎市場依然缺少競爭
    ,谷歌仍主導著歐洲的搜尋引擎市場。歐洲搜尋引擎市場依然缺少競爭,部分原因是而谷歌的辦法包括向想要出現在Android手機選擇菜單上的競爭對手收取費用,這一舉措招致了競爭對手的抗議。他們質問道:為什麼要付錢給谷歌來幫助它糾正反競爭行為?隨著美國司法部10月份宣布對谷歌提起反壟斷訴訟,政府代理律師正在仔細審查歐洲的調查結果。
  • 華為搜尋引擎面世:用不了谷歌,試試「花瓣搜索」?
    機器之心報導參與:澤南、杜偉、小舟為了解決沒有「谷歌全家桶」的問題,華為今年接連推出了 HMS Core、地圖服務、應用商店 AppGallery,現在連屬於自己的搜尋引擎「花瓣搜索」也面世了。2 月份,華為推出了全新的 AppGallery 應用商店。3 月份,華為推出了兩款搜索應用,即「Search」和「AppSearch」,並在德國進行測試上線。4 月份,華為在 AppGallery 上線了 HERE WeGo 地圖和導航解決方案,這是華為取代谷歌地圖的一次嘗試。但谷歌最為核心的服務搜尋引擎怎麼辦?