前沿|通用句子語義編碼器,谷歌在語義文本相似性上的探索

2021-01-05 機器之心Pro

近年來,基於神經網絡的自然語言理解研究取得了快速發展(尤其是學習語義文本表示),這些深度方法給人們帶來了全新的應用,且還可以幫助提高各種小數據集自然語言任務的性能。本文討論了兩篇關於谷歌語義表示最新進展的論文,以及兩種可在 TensorFlow Hub 上下載的新模型。

語義文本相似度

在「Learning Semantic Textual Similarity from Conversations」這篇論文中,我們引入一種新的方式來學習語義文本相似的句子表示。直觀的說,如果句子的回答分布相似,則它們在語義上是相似的。例如,「你多大了?」以及「你的年齡是多少?」都是關於年齡的問題,可以通過類似的回答,例如「我 20 歲」來回答。相比之下,雖然「你好嗎?」和「你多大了?」包含的單詞幾乎相同,但它們的含義卻大相逕庭,所以對應的回答也相去甚遠。

論文地址:https://arxiv.org/abs/1804.07754

如果句子可以通過相同的答案來回答,那麼句子在語義上是相似的。否則,它們在語義上是不同的。

這項工作中,我們希望通過給回答分類的方式學習語義相似性:給定一個對話輸入,我們希望從一批隨機選擇的回覆中分類得到正確的答案。但是,任務的最終目標是學習一個可以返回表示各種自然語言關係(包括相似性和相關性)的編碼模型。我們提出了另一預測任務(此處是指 SNLI 蘊含數據集),並通過共享的編碼層同時推進兩項任務。利用這種方式,我們在 STSBenchmark 和 CQA task B 等相似度度量標準上取得了更好的表現,究其原因,是簡單等價關係與邏輯蘊含之間存在巨大不同,後者為學習複雜語義表示提供了更多可供使用的信息。

對於給定的輸入,分類可以認為是一種對所有可能候選答案的排序問題。

通用句子編碼器

「Universal Sentence Encoder」這篇論文介紹了一種模型,它通過增加更多任務來擴展上述的多任務訓練,並與一個類似 skip-thought 的模型聯合訓練,從而在給定文本片段下預測句子上下文。然而,我們不使用原 skip-thought 模型中的編碼器 - 解碼器架構,而是使用一種只有編碼器的模型,並通過共享編碼器來推進預測任務。利用這種方式,模型訓練時間大大減少,同時還能保證各類遷移學習任務(包括情感和語義相似度分類)的性能。這種模型的目的是為儘可能多的應用(釋義檢測、相關性、聚類和自定義文本分類)提供一種通用的編碼器。

論文地址:https://arxiv.org/abs/1803.11175

成對語義相似性比較,結果為 TensorFlow Hub 通用句子編碼器模型的輸出。

正如文中所說,通用句子編碼器模型的一個變體使用了深度平均網絡(DAN)編碼器,而另一個變體使用了更加複雜的自注意力網絡架構 Transformer。

「Universal Sentence Encoder」一文中提到的多任務訓練。各類任務及結構通過共享的編碼層/參數(灰色框)進行連接。

隨著其體系結構的複雜化,Transformer 模型在各種情感和相似度分類任務上的表現都優於簡單的 DAN 模型,且在處理短句子時只稍慢一些。然而,隨著句子長度的增加,使用 Transformer 的計算時間明顯增加,但是 DAN 模型的計算耗時卻幾乎保持不變。

新模型

除了上述的通用句子編碼器模型之外,我們還在 TensorFlow Hub 上共享了兩個新模型:大型通用句型編碼器通和精簡版通用句型編碼器。

大型:https://www.tensorflow.org/hub/modules/google/universal-sentence-encoder-large/1精簡:https://www.tensorflow.org/hub/modules/google/universal-sentence-encoder-lite/1

這些都是預訓練好的 Tensorflow 模型,給定長度不定的文本輸入,返回一個語義編碼。這些編碼可用於語義相似性度量、相關性度量、分類或自然語言文本的聚類。

大型通用句型編碼器模型是用我們介紹的第二篇文章中提到的 Transformer 編碼器訓練的。它針對需要高精度語義表示的場景,犧牲了速度和體積來獲得最佳的性能。

精簡版模型使用 Sentence Piece 詞彙庫而非單詞進行訓練,這使得模型大小顯著減小。它針對內存和 CPU 等資源有限的場景(如小型設備或瀏覽器)。

我們很高興與大家分享這項研究以及這些模型。這只是一個開始,並且仍然還有很多問題亟待解決,如將技術擴展到更多語言上(上述模型目前僅支持英語)。我們也希望進一步地開發這種技術,使其能夠理解段落甚至整個文檔。在實現這些目標的過程中,很有可能會產生出真正的「通用」編碼器。

相關焦點

  • FAISS+SBERT實現的十億級語義相似性搜索
    這些模型是transformer網絡(BERT、RoBERTa等),它們專門針對語義文本相似性的任務進行了微調,因為BERT在這些任務中執行得不是很好。下面給出了不同模型在STS基準測試中的性能。 在這些模型中,語義文本相似度被視為一個回歸任務。這意味著,每當我們需要計算兩個句子之間的相似度得分時,我們需要將它們一起傳遞到模型中,然後模型輸出它們之間的數值分數。雖然這對於基準測試很有效,但是對於實際的用例來說,它的伸縮性很差,原因如下。
  • 資源| 自然語言語義代碼搜索之路
    構建代碼總結器本身是一個非常激動人心的項目,然而,我們還可以利用這個模型的編碼器作為代碼的通用特徵提取器。從這個模型中提取出編碼器後,我們可以對它進行調優,從而建立代碼到自然語言的向量空間的映射。我們可以客觀地使用 BLEU 得分來評估這個模型。
  • 李偉:輿情事件等級評估及基於語義理解實現文本精細化分類
    7月17日,由人民網輿情數據中心/人民在線主辦的第二屆「人民雲社會評價科技大會」在線上順利舉行,主題為「重大風險評估體系建設」。與會的數據建模、計算機技術應用、輿情領域專家學者就如何有效地利用新技術完善重大風險評估體系建設進行了分享和探討。人民網輿情數據中心主任數據分析師李偉分享的主題是:輿情事件等級評估及基於語義理解實現文本精細化分類。
  • AAAI 2020|通過解糾纏模型探測語義和語法的大腦表徵機制
    如圖2所示,該模型屬於雙通道的變分自編碼器,利用兩個隱含變量分別表示語義特徵變量和語法特徵變量。具體使用詞向量平均編碼器來抽取句子中的語義特徵,利用長短時記憶網絡(LSTM)來抽取句子中的語法特徵,接著通過令語義變量學習區分兩個句子是否含義相同,令語法變量學習區分兩個句子是否語法相同的目標函數,使語義變量積累語義信息,語法變量積累語法信息。
  • 通過語義的擴增來生成複述
    儘管如此,對於人工評估仍有很大的改進空間:即使是本文最好的模型,也僅有 28%的 CHI A 數據集字幕的複述能夠被人們接受,在 Wikipedia 上的句子中也失敗了。這些記過表明語義對於複述的潛力是無限的,同時強調了更大的評估需求。
  • 客服機器人中的深度語義技術與應用探索(附視頻+PPT)| 雷鋒網公開課
    這其中的關鍵便涉及到自然語言處理中的」深度語義技術「。針對這個問題,本期雷鋒網(公眾號:雷鋒網)硬創公開課邀請到小i機器人創新中心的研究院陳培華為大家具體講解,在客服機器人領域的深度語義技術和應用探索。
  • 學術派 | 愛奇藝深度語義表示學習的探索與實踐
    Transformer[3], 圖卷積網絡[4]等)進行深度融合,學習同時具有較好泛化性和語義表達性的實體embedding, 為下遊各業務模型提供豐富的語義特徵,並在一定程度上解決冷啟動問題, 進而成為提升搜索和推薦系統性能的利器。愛奇藝設計和探索出了這套適用於愛奇藝多種業務場景的深度語義表示學習框架,並在推薦的多個業務線以及搜索中成功上線。
  • 阿里文娛搜索在深度語義相關性計算的探索
    語義特徵:主要指文本層面的語義匹配。以往利用DSSM雙塔模型,近期利用離線或在線Bert語義模型完成離線或者在線的語義計算。比如說將Query和視頻映射到一個中間的模態,然後在中間的模式做語義匹配,之後做相似性。這種端到端的解決方案,它對於短小視頻的理解肯定是不錯的方案,但是針對長視頻而言,它很難做到真正準確的理解。因為長視頻包含的內容信息是更加多維和更加寬泛的,同時噪音也多。更重要一點,工業界似乎已經對整個系統的可解釋性和可控性要求比較高。所以說很少採用單一的端到端的解決方案。
  • 使用知識抽取生成跨語言的單語句子向量
    眾所周知,對單詞和句子的語義進行編碼是理所當然的,這是最新的NLP系統所具有的能力。SentenceBERT提供了一些示例示例,說明了如何在諸如聚類和語義文本相似性之類的任務中充分利用基於Transformer的體系結構。但是,該模型僅限於處理來自單一語言的文本序列,在某些情況下,這可能是阻止我們將這種模型部署到生產中的核心因素。
  • 思必馳在中文文本相似度計算任務上的探索與進展
    文本相似度計算旨在識別兩段文本在語義上是否相似,是自然語言處理領域的一個重要研究方向,其在智能問答、信息檢索等領域都發揮重要作用,具有很高的商業價值。  近期,思必馳知識服務團隊在中文文本相似度計算方向投入研究,並取得階段性成果:  1)在第十四屆全國知識圖譜與語義計算大會(CCKS: China Conference on Knowledge Graph and Semantic Computing)[1]上發表相關論文一篇《Neural Fusion Model for Chinese Semantic Matching
  • 人工智慧中的語義分析技術及其應用
    一段文本通常由詞、句子和段落來構成,根據理解對象的語言單位不同,語義分析又可進一步分解為詞彙級語義分析、句子級語義分析以及篇章級語義分析。一般來說,詞彙級語義分析關注的是如何獲取或區別單詞的語義,句子級語義分析則試圖分析整個句子所表達的語義,而篇章語義分析旨在研究自然語言文本的內在結構並理解文本單元(可以是句子從句或段落)間的語義關係。
  • 深度學習在商戶掛牌語義理解的實踐
    因此,POI名稱的自動生成就顯得格外重要,而機器對商戶掛牌的語義理解又是其中關鍵的一環。本文主要介紹相關技術方案在高德的實踐和業務效果。一、背景現實世界中,商戶的掛牌各式各樣,千奇百怪,如何讓機器正確的理解牌匾語義是一個難點。商戶掛牌的文本種類有很多,如下圖所示,我們可以看到一個商戶牌匾的構成。
  • 入門| 一文了解什麼是語義分割及常用的語義分割方法有哪些
    但為了將單獨的像素映射給標籤,我們需要將標準 CNN 編碼器擴展為編碼器-解碼器架構。在這個架構中,編碼器使用卷積層和池化層將特徵圖尺寸縮小,使其成為更低維的表徵。解碼器接收到這一表徵,用通過轉置卷積執行上採樣而「恢復」空間維度,這樣每一個轉置卷積都能擴展特徵圖尺寸。在某些情況下,編碼器的中間步驟可用於調優解碼器。最終,解碼器生成一個表示原始圖像標籤的數組。
  • Deeplab語義分割的發展
    一般的語義分隔架構可以廣泛地認為是編碼器網絡,然後是解碼器網絡:編碼器通常是預訓練的分類網絡,如VGG / RESNET等,隨後由解碼器網絡進行解碼。解碼器的任務是在語義上將編碼器學習到的區分特徵(較低解析度)投影到像素空間(較高解析度)上,以獲得密集的分類。最早用於語義分割的深度卷積神經網絡(DCNN)之一是完全卷積網絡(FCN)。FCN網絡管道是經典CNN的擴展。
  • 百度語義理解技術與平臺文心ERNIE:AI時代的文本智能化利器
    9月15日,百度世界2020召開,作為"AI新型基礎設施"百度大腦6.0的重要組成部分,百度語義理解技術與平臺文心(ERNIE)在大會上的發布吸引了大量NLP開發者的目光,尤其基於多流機制的預訓練語言生成技術ERNIE-GEN、知識增強跨模態語義理解技術ERNIE-ViL等,均達到了世界領先水平。
  • 谷歌將關閉語義語境搜索應用
    中國IDC圈12月20日報導:據美國科技博客網站TheNextWeb報導,谷歌計劃在美國當地時間周二關閉語義語境搜索應用Apture,同時將這款應用的技術整合到旗下其他產品。谷歌在今年11月份以2000萬美元的價格收購了Apture.放棄這款應用將給雲安全公司CloudFlare帶來一些不便。
  • 鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社...
    然而,對於 output 對語義分析模型性能的影響,大家的關注度卻並不是很高。近日,在雷鋒網 AI 研習社公開課上,新加坡科學設計大學在讀博士鄒炎炎就用通俗易懂的語言為大家介紹了 semantic parsing 的概念、背景以及自己在該領域的論文成果,並介紹了關於 output embedding 對於 semantic parsing 的影響。
  • 雲問科技入選「2020人工智慧語義識別創新排行」
    8月3日,eNet研究院,德本諮詢和《網際網路周刊》共同評選並發布了「2020人工智慧語義識別創新排行」榜單,雲問科技憑藉自主創新打造的雲問智慧機器人問答系統成功入選,體現出自身智能問答和解決方案服務能力受行業機構廣泛認可。其中,與雲問一同入選的還包括百度、阿里、騰訊、小米等廠商,對應各家重點的智能產品服務。
  • 百度CTO王海峰詳解知識圖譜與語義理解
    在演講中,他用生動的實例展示了百度在知識圖譜和語義理解領域的技術探索及應用,並探討了其未來的發展方向。 以下是演講實錄: 非常高興能有機會參加知識圖譜和語義計算大會。
  • 語義的網絡:以「意識的物質性」一文為例
    接著,提取文本特徵並生成文本的量化輸出。作者對詞、句子和篇章編碼,建立了一個文檔-術語矩陣(document-to-term matrix, Dt),矩陣中的行是指帳單中的書目,而列則是這些書中語詞的計數。同時,採用TF-IDF(Term Frequency, Inverse Document Frequency)為在整個語料庫中很少出現但在某個文檔中頻繁出現的單詞賦予最大的權重。