百度提出冷聚變方法:使用語言模型訓練Seq2Seq模型

2021-01-15 機器之心Pro

近日,百度研究院發表論文提出冷聚變(Cold Fusion)方法,即在 Seq2Seq 模型訓練過程中加入語言模型,實現更快地收斂、更好的泛化,以及僅需少量標註數據即可實現向新域的完全遷移。機器之心對這篇論文進行了介紹。

論文地址:https://arxiv.org/abs/1708.06426

摘要:帶有注意力機制的序列到序列(Seq2Seq)模型在多項生成自然語言句子的任務中表現優秀,如機器翻譯、圖像字幕生成和語音識別。在以語言模型的形式利用非標註數據後,其性能進一步提高。在本研究中,我們提供了一種冷聚變(Cold Fusion)方法,並展示該方法在語音識別中的有效性。我們展示了使用冷聚變方法的 Seq2Seq 模型能夠更好地利用語言信息,並且能夠實現(1)更快收斂、更好的泛化;(2)使用少於 10% 的標註數據進行訓練時能幾乎完成向新的域的完全遷移。

表 1. 深度聚變(Deep Fusion)和冷聚變的預測示例。

圖 1. 基線模型(橙色)和我們提出的模型(紫色)在開發集上的交叉熵損失和迭代數之間的函數關係。使用語言模型的訓練可以一定程度上加速收斂。

表 3. 論文中討論的不同模型的語音識別結果。

表 4. 解碼器維度對該模型的性能影響。冷聚變模型的性能隨著解碼器變小而緩慢下降,這證明冷聚變模型的有效任務能力比無聚變的模型大得多。

表 5. 微調後的聲學模型在目標訓練數據的子集上的結果。最後一行代表在所有目標域數據上進行訓練的注意力模型。

結論

在該研究中,我們展示了一種新型 Seq2Seq 通用模型架構,其解碼器和預訓練的語言模型一起訓練。我們研究並確認,架構變化對該模型充分利用語言模型中的信息至關重要,這也幫助模型實現更好地泛化;通過利用 RNN 語言模型,冷聚變模型產生的詞錯率比深度聚變模型低 18%。此外,我們證明冷聚變模型能夠更輕鬆地遷移至新的域,僅需要 10% 的標註數據,即幾乎可完全遷移至新的域。

相關焦點

  • 推斷速度達seq2seq模型的100倍,谷歌開源文本生成新方法LaserTagger
    來源:機器之心作者:Eric Malmi等機器之心編譯參與:魔王、杜偉使用 seq2seq 模型解決文本生成任務伴隨著一些重大缺陷,谷歌研究人員提出新型文本生成方法 LaserTagger,旨在解決這些缺陷,提高文本生成的速度和效率。
  • 基於seq2seq模型的中文糾錯任務
    深度學習近來在自然語言處理領域獲得了 廣泛運用,seq2seq 模型在諸多自然語言處理任務,如詞性標註、語義依存分析、 機器翻譯等,均取得了顯著的成績。本文首先對中文糾錯任務進行詳細的梳理, 包括錯誤的來源、目前的處理方法、相關的公開競賽、數據源等;第二,由於缺 少大規模公開的數據集,本文涉及顯示人工構造大規模糾錯數據集的算法;第三, 本文將深度學子中的 seq2seq 模型引入,處理中文糾錯任務,在基本的模型基礎 上引入 attention 機制(包括諸多變種)以及多任務學習的理念,嘗試多種組合, 並最終在構造數據集上 GLEU 評分達到了 0.75
  • 直觀理解並使用Tensorflow實現Seq2Seq模型的注意機制
    採用帶注意機制的序列序列結構進行英印地語神經機器翻譯Seq2seq模型構成了機器翻譯、圖像和視頻字幕、文本摘要、聊天機器人以及任何你可能想到的包括從一個數據序列到另一個數據序列轉換的任務的基礎。如果您曾使用過谷歌Translate,或與Siri、Alexa或谷歌Assistant進行過互動,那麼你就是序列對序列(seq2seq)神經結構的受益者。
  • 求解微分方程,用seq2seq就夠了,性能遠超 Mathematica、Matlab
    這篇論文提出了一種新的基於seq2seq的方法來求解符號數學問題,例如函數積分、一階常微分方程、二階常微分方程等複雜問題。其結果表明,這種模型的性能要遠超現在常用的能進行符號運算的工具,例如Mathematica、Matlab、Maple等。
  • 用飛槳做自然語言處理:神經網絡語言模型應用實例
    近來,NLP 領域因為超大預訓練模型,很多研究需要耗費大量計算資源(比如百度新發布持續學習語義理解框架 ERNIE 2.0,該模型在共計 16 個中英文任務上超越了 BERT 和 XLNet,取得了 SOTA 效果),這樣的項目基本上就是在燒錢,小家小戶玩不起,於是就傻傻地等著大佬們發出論文,放出代碼,刷新榜單。
  • PTMs|2020最新NLP預訓練模型綜述
    UniLM拓展mask prediction任務到三種語言模型任務中,單向預測、雙向預測、「seq2seq預測。」「XLM」[20]: 將MLM應用到翻譯語言模型中,即「雙語料句子對「構成一個句子,然後使用MLM。
  • 用飛槳做自然語言處理:神經網絡語言模型應用實例 - 量子位
    這裡會使用的百度的開源深度學習平臺飛槳(PaddlePaddle),關於這點,有如下幾個原因。比如說詞向量,最早算是語言模型的副產品;同時經典的序列到序列(seq2seq) 模型,其中解碼器還可以被稱為,Conditional Language Model(條件語言模型);而現在大火的預訓練模型,主要任務也都是語言模型。在實際 NLP 應用中,我認為能總結成以下三條:第一,給句子打分,排序。
  • scRNA-seq數據差異基因表達分析的有效方法有哪些?
    scRNA-seq數據差異基因表達分析的有效方法有哪些?正是由於這些特性才推動了scRNA-seq數據分析鑑別差異基因表達方法的發展,以下舉幾個專門針對scRNA-seq數據提出的新方法新模型的例子:1、使用兩部分聯合模型來檢測差異表達基因,以適應多模態表達值和「drop-out events」;一部分模型對應於正常觀察到的基因
  • QB期刊 |RNA-seq數據計算方法大匯總
    十年前,第二代RNA測序技術(RNA-seq)的誕生及其迅速發展使得研究者可以在對RNA序列沒有任何先驗信息的情況下高通量地對全轉錄組進行測序 [2]。現如今第二代RNA測序技術已經成為了研究基因和RNA表達最常用的手段之一,它的廣泛應用極大地促進了生物和醫學領域的各類研究,包括對基因表達與調控,RNA可變剪切以及蛋白質翻譯等多項生物過程的了解 [3]。
  • 比基線模型快100倍,Google開源文本生成「加速器」LaserTagger
    結果顯示,使用大量訓練樣本情況下,LaserTagger與基於BERT的seq2seq基線成績相當,並且在訓練樣本數量有限時明顯優於基線。下面顯示了WikiSplit數據集上的結果,其中的任務是將一個長句子改寫為兩個連貫的短句子。
  • 序列模型的實現細節
    本文總結了一些用 Tensorflow 實現序列模型的一些做法,並分析了效率和精度上的權衡。本文假設讀者已經有深度學習在自然語言處理應用上的基本知識,並用 Tensorflow 實現過一些序列模型。為了避免翻譯帶來的歧義,部分術語會直接使用英文表述(使用中文的話會在括號裡加上英文術語),所以中英混雜的文風難以避免。為了討論方便,以下先做一些術語的規定。
  • 你試過建立一個神經網絡模型來解決簡單的數學問題嗎
    並不是說不能通過建立一個近乎完美的端到端神經網絡模型來直接回答數學問題,而是說,這樣完全沒有必要。相反,我們可以使用人工智慧來理解數學問題或給定問題的數學部分,然後通過機器的運算單元來解決它。這將是解決數學問題最簡單、最可靠的方法,甚至在神經網絡模型中嵌入一個運算單元也可能有效。
  • ...微軟&哈工大最新提出 CodeBERT 模型,支持自然-編程雙語處理
    一、背景BERT作為一種雙向Transformer的編碼器,其對預訓練方法的創新深受業界和學術界的喜愛,雖然其他大規模的預訓練模型例如ELMo、GPT等已經能夠在各種NLP任務中提升SOTA。 但是上述提到的模型基本上都是面向自然語言處理,例如掩蔽語言建模、從未標記文本學習上下文表示。
  • 谷歌開放GNMT教程:如何使用TensorFlow構建自己的神經機器翻譯系統
    GitHub 連結:https://github.com/tensorflow/nmt機器翻譯,即跨語言間的自動翻譯,是機器學習社區最活躍的研究領域。在機器翻譯的眾多方法中,序列到序列(sequence-to-sequence,seq2seq)模型 [1, 2] 近期獲得巨大成功。
  • 1.6萬億參數的語言模型:谷歌大腦提出Switch Transformer,預訓練...
    此外,他們提出的訓練技術還提高了訓練的穩定性,首次表明大型稀疏模型也可以用低精度(bfloat16)進行訓練。這一改進還可以擴展至多語言設置中,在所有的 101 種語言中都測到了新模型相對於 mT5-Base 版本的性能提升。最後,研究者在 Colossal Clean Crawled Corpus 上進行預訓練,將語言模型的參數量提升至上萬億,且相比 T5-XXL 模型實現了 4 倍加速。
  • 綜述科普|染色質調控區域的研究:對CHIP-seq和ATAC-seq發展的深入思考
    本文在簡要介紹表觀基因組生物學背景知識的基礎上,討論了表觀基因組測序技術,特別是ChIP-seq和ATAC-seq技術的發展及其在科學研究中的應用現狀。最後,我們提出了未來應用和挑戰的見解。這種方法使用了一種名為PAT的酶,它是Tn5轉座酶的N端與蛋白A的融合。用抗體孵育的細胞分布在孔中(每孔200~2000個細胞),然後加入不同的PAT進行第一輪試驗。所有細胞被匯集並重新分配到不同的孔(每孔20~25個細胞),最後用不同的PCR引物進行第二輪擴增(圖2C)。
  • Facebook這個神經網絡用自然語言表示數學式,秒解微分方程!
    這種方法也被用於機器翻譯:其中一種語言的單詞序列必須翻譯成另一種語言的單詞序列。而他們的方法本質上是將數學視為一種自然語言。下一步就是訓練過程,這需要大量的數據來學習。Lample 和 Charton 通過從二元運算符庫(如加法、乘法等)、一元運算符庫(如cos、sin和exp)以及一組變量、整數和常數(如π和e)中隨機組合數學表達式來創建新的資料庫。
  • ...學院張強鋒課題組利用深度學習人工智慧算法分析單細胞ATAC-seq...
    生命學院張強鋒課題組利用深度學習人工智慧算法分析單細胞ATAC-seq數據清華新聞網10月12日電 10月8日,清華大學生命學院的張強鋒課題組在《自然·通訊》(Nature Communications)上發表題為「SCALE方法基於隱特徵提取進行單細胞ATAC-seq數據分析」(SCALE method for
  • 科研人員建立MAnorm2計算模型
    該模型能夠對多樣本ChIP/ATAC-seq數據按照特定標籤分組,進行統計建模和組間定量比較,可靠地在樣本組層面鑑定組間顯著差異的ChIP/ATAC-seq信號。染色質免疫共沉澱測序(ChIP-seq)實驗被廣泛用於刻畫轉錄因子結合和組蛋白修飾的全基因組分布。比較來自不同細胞類型的ChIP-seq樣本是刻畫細胞分化及病變過程中動態轉錄和表觀調控的關鍵基礎。
  • AI新方法解決高數問題,性能超越Matlab
    論文連結:https://arxiv.org/pdf/1912.01412.pdfFacebook 研究者首先提出一種可用於 seq2seq 模型的數學表達式和問題表示,並討論了問題空間的大小和結構。然後展示了如何為積分和一階、二階微分方程的監督式訓練生成數據集。