前沿|通用句子語義編碼器,谷歌在語義文本相似性上的探索

2020-12-25 機器之心Pro

近年來,基於神經網絡的自然語言理解研究取得了快速發展(尤其是學習語義文本表示),這些深度方法給人們帶來了全新的應用,且還可以幫助提高各種小數據集自然語言任務的性能。本文討論了兩篇關於谷歌語義表示最新進展的論文,以及兩種可在 TensorFlow Hub 上下載的新模型。

語義文本相似度

在「Learning Semantic Textual Similarity from Conversations」這篇論文中,我們引入一種新的方式來學習語義文本相似的句子表示。直觀的說,如果句子的回答分布相似,則它們在語義上是相似的。例如,「你多大了?」以及「你的年齡是多少?」都是關於年齡的問題,可以通過類似的回答,例如「我 20 歲」來回答。相比之下,雖然「你好嗎?」和「你多大了?」包含的單詞幾乎相同,但它們的含義卻大相逕庭,所以對應的回答也相去甚遠。

論文地址:https://arxiv.org/abs/1804.07754

如果句子可以通過相同的答案來回答,那麼句子在語義上是相似的。否則,它們在語義上是不同的。

這項工作中,我們希望通過給回答分類的方式學習語義相似性:給定一個對話輸入,我們希望從一批隨機選擇的回覆中分類得到正確的答案。但是,任務的最終目標是學習一個可以返回表示各種自然語言關係(包括相似性和相關性)的編碼模型。我們提出了另一預測任務(此處是指 SNLI 蘊含數據集),並通過共享的編碼層同時推進兩項任務。利用這種方式,我們在 STSBenchmark 和 CQA task B 等相似度度量標準上取得了更好的表現,究其原因,是簡單等價關係與邏輯蘊含之間存在巨大不同,後者為學習複雜語義表示提供了更多可供使用的信息。

對於給定的輸入,分類可以認為是一種對所有可能候選答案的排序問題。

通用句子編碼器

「Universal Sentence Encoder」這篇論文介紹了一種模型,它通過增加更多任務來擴展上述的多任務訓練,並與一個類似 skip-thought 的模型聯合訓練,從而在給定文本片段下預測句子上下文。然而,我們不使用原 skip-thought 模型中的編碼器 - 解碼器架構,而是使用一種只有編碼器的模型,並通過共享編碼器來推進預測任務。利用這種方式,模型訓練時間大大減少,同時還能保證各類遷移學習任務(包括情感和語義相似度分類)的性能。這種模型的目的是為儘可能多的應用(釋義檢測、相關性、聚類和自定義文本分類)提供一種通用的編碼器。

論文地址:https://arxiv.org/abs/1803.11175

成對語義相似性比較,結果為 TensorFlow Hub 通用句子編碼器模型的輸出。

正如文中所說,通用句子編碼器模型的一個變體使用了深度平均網絡(DAN)編碼器,而另一個變體使用了更加複雜的自注意力網絡架構 Transformer。

「Universal Sentence Encoder」一文中提到的多任務訓練。各類任務及結構通過共享的編碼層/參數(灰色框)進行連接。

隨著其體系結構的複雜化,Transformer 模型在各種情感和相似度分類任務上的表現都優於簡單的 DAN 模型,且在處理短句子時只稍慢一些。然而,隨著句子長度的增加,使用 Transformer 的計算時間明顯增加,但是 DAN 模型的計算耗時卻幾乎保持不變。

新模型

除了上述的通用句子編碼器模型之外,我們還在 TensorFlow Hub 上共享了兩個新模型:大型通用句型編碼器通和精簡版通用句型編碼器。

大型:https://www.tensorflow.org/hub/modules/google/universal-sentence-encoder-large/1精簡:https://www.tensorflow.org/hub/modules/google/universal-sentence-encoder-lite/1

這些都是預訓練好的 Tensorflow 模型,給定長度不定的文本輸入,返回一個語義編碼。這些編碼可用於語義相似性度量、相關性度量、分類或自然語言文本的聚類。

大型通用句型編碼器模型是用我們介紹的第二篇文章中提到的 Transformer 編碼器訓練的。它針對需要高精度語義表示的場景,犧牲了速度和體積來獲得最佳的性能。

精簡版模型使用 Sentence Piece 詞彙庫而非單詞進行訓練,這使得模型大小顯著減小。它針對內存和 CPU 等資源有限的場景(如小型設備或瀏覽器)。

我們很高興與大家分享這項研究以及這些模型。這只是一個開始,並且仍然還有很多問題亟待解決,如將技術擴展到更多語言上(上述模型目前僅支持英語)。我們也希望進一步地開發這種技術,使其能夠理解段落甚至整個文檔。在實現這些目標的過程中,很有可能會產生出真正的「通用」編碼器。

相關焦點

  • 客服機器人中的深度語義技術與應用探索(附視頻+PPT)| 雷鋒網公開課
    這其中的關鍵便涉及到自然語言處理中的」深度語義技術「。針對這個問題,本期雷鋒網(公眾號:雷鋒網)硬創公開課邀請到小i機器人創新中心的研究院陳培華為大家具體講解,在客服機器人領域的深度語義技術和應用探索。嘉賓介紹:
  • 句法分析和語義理解專場(視頻+實錄+PPT)AIS預講會全程乾貨分享
    這幾年依存句法分析發展很快,2016年的時候,谷歌提出來一個模型提高了3個點,2017年Stanford又提出了一個模型,比谷歌又高了4個點。依存句法分析還有什麼挑戰可以做呢?我個人理解,第一方面是怎麼樣處理稍微不規範的網絡文本。
  • 谷歌通過深度度量學習,提出新的語義實例分割方法
    雷鋒網了解到,谷歌研究院近日與UCLA合作,提出了一種新的語義實例分割方法:首先計算兩個像素屬於同一對象的可能性,然後將相似的像素分組在一起。其中,相似性度量是基於深度,完全卷積的嵌入模型,而分組方法是基於選擇所有與一組「種籽點」足夠相似的點,這個選擇模型是一個深度的、完全卷積的評分模型。
  • 百度發布語義理解框架ERNIE 2.0 中英文任務超BERT和XLNet
    今年3月份時,百度曾對外提出了NLP預訓練語言模型 ERNIE,ERNIE通過建模海量數據中的詞、實體及實體關係,學習真實世界的語義知識。較之BERT學習原始語言信號,ERNIE直接對先驗語義知識單元進行建模,增強了模型語義表示能力。
  • 谷歌發布MobileNetV2:可做語義分割下一代移動端計算機視覺架構
    深度學習在手機等移動端設備上的應用是機器學習未來的重要發展方向。2017 年 4 月,谷歌發布了 MobileNet——一個面向有限計算資源環境的輕量級神經網絡。近日,谷歌將這一技術的第二代產品開源,開發者稱,新一代 MobileNet 的模型更小,速度更快,同時還可以實現更高的準確度。
  • 百度ERNIE獲五項世界冠軍,實力霸榜全球最大語義評測比賽
    這兩天,全球規模最大的語義評測比賽 SemEval 2020 結果出爐,百度基於飛槳平臺自研的語義理解框架 ERNIE 一舉斬獲5項世界冠軍,囊括視覺媒體的關鍵文本片段挖掘、多語攻擊性語言檢測和混合語種的情感分析。
  • 地圖中的語義理解 | 雷鋒網公開課
    因此可以看到語義理解技術至少有兩個關鍵的因素,第一是自然語言處理技術,利用統計自然語言處理算法提取文本中的實體詞以及依存關係;第二是要有全面而豐富的知識庫,配合自然語言處理技術,才能得到用戶的準確意圖。結合到上面的例子,如果知識庫中「天安門」是作為一個地名,那麼「怎麼去天安門」,就可以被以很高的準確率劃分為用戶出行意圖。
  • 機器翻譯:谷歌翻譯是如何對幾乎所有語言進行翻譯的?
    通過為輸入和輸出語言創建詞彙表,人們可以將該技術應用於任何語言中的任何句子,從而將語料庫中所有已翻譯的句子徹底轉換為適用於機器翻譯任務的格式。現在來一起感受一下編碼器-解碼器算法背後的魔力。在最基本的層次上,模型的編碼器部分選擇輸入語言中的某個句子,並從該句中創建一個語義向量(thought vector)。
  • 華為諾亞方舟實驗室:高效語義分割算法(1903.04688)
    語義分割知識蒸餾框架圖整個網絡框架涉及到兩個獨立網絡,教師網絡(輸出更大解析度的特徵)和學生網絡(輸出較小解析度的特徵)。遷移的知識分為兩個內容,一部分旨在將知識從教師網絡遷移到更具信息性的緊湊空間(通過自動編碼器實現),另一部分旨在捕捉教師網絡的大感受野依賴性,這是學生模型難以學習的。具體分析如下。
  • 谷歌揭秘自家翻譯系統:如何利用AI技術提高翻譯質量
    混合模型和數據挖掘器在這系列技術突破中,谷歌首先提到了混合模型和數據挖掘器。混合模型指的是由Transformer編碼器和遞歸神經網絡(RNN)解碼器構成的模型。在機器翻譯中,編碼器通常將單詞和短語編碼為內部表徵,解碼器將其生成為所需要的語言文本。
  • 谷歌翻譯是如何藉助多項新興AI技術提高翻譯質量的
    網易科技訊6月6日消息,據國外媒體報導,谷歌表示,它已在提高沒有大量書面文本語料的語言的翻譯質量上取得了進展。在一篇即將正式發表的博客文章中,該公司詳細介紹了助力提升谷歌翻譯(Google Translate)所支持的108種語言翻譯質量的新創新技術(特別是缺乏語料數據的約魯巴語和馬拉雅拉姆語)。
  • 金字塔注意力網絡:一種利用底層像素與高級特徵的語義分割網絡
    要解決這個問題,我們需要一個有效的解碼模塊,即全局注意力上採樣(GAU),它可以抽取高級特徵的全局上下文信息,並在不增加過多計算成本的同時引導加權底層特徵的信息。總結來說,我們的論文有三大貢獻。首先,我們提出了特徵金字塔注意力模塊可在 FCN 基礎像素預測模型嵌入不同尺度的上下文特徵。之後,我們開發了一個高效解碼模塊 GAU 以幫助語義分割。
  • 短文本相似度在金融智能客服中的應用 - 專注金融科技與創新 未央網
    interaction-based模型為了解決上述問題,提前將編碼的過程加入了短文本內部之間的關聯參數矩陣,更好地把握了語義焦點,能對上下文重要性進行更好的建模,例如:ARC-II[7]、MatchPyramid[8]、MVLSTM [9]等。
  • SLAM的動態地圖和語義問題
    提出在目標基礎上的攝像頭姿態跟蹤估計,還有動態目標 bundle adjustment (BA)方法,依此融合語義觀測模型和稀疏的特徵匹配結合以獲取3-D目標的姿態,速度和結構信息。上圖是一個例子,上半部分是攝像頭和目標的運動軌跡,下半部分從左到右依此是雙目匹配,一個被截斷車的跟蹤,BA恢復的稀疏特徵點,和姿態估計。
  • 如何利用AI語義分析,做產品需求分析(1)
    不過,對產品經理來說, AI 能否應用在產品需求分析上呢?為打造一款產品做出更好的幫助嗎?筆者將為我們帶來一系列的分析。AI人工智慧技術是否可以幫助我們更好的分析用戶對產品的需求呢?有什麼好的使用方法和案例嗎?
  • 深思考楊志明:多模態語義理解能推動人工智慧大規模落地|2019 WISE...
    第二個就是人工智慧落地技術上的難題,我們現實中接觸的所謂的大數據,大量都是非結構化的,剛剛我說了語音也是非結構化的,視頻也是非結構化的,文本也是非結構化的,我們看到的海量網頁,都是非結構化的信息,圖像也是。比如我們手機上拍了很多的照片,這個照片本身的含義是什麼?它描述的是一個什麼物體?等等,這些信息沒有人給我們整理出來,當然這也是一個難點。
  • 迪士尼研發深度語義面部模型,讓表情更豐富
    近期,迪士尼和麻省理工學院的研究人員合作研發了一種基於深度神經網絡的語義面部模型,用於快速製造多個具有細節特徵的人物頭像,該論文《深度語義面部模型(Semantic Deep Face Models)》發表至3D視覺國際會議。