比基線模型快100倍,Google開源文本生成「加速器」LaserTagger

2020-11-28 雷鋒網

雷鋒網訊,2014年,Google提出了Sequence-to-Sequence模型,旨在將句子文本映射到fixed-length向量,其中輸入和輸出的長度可能會有所不同。Seq2Seq通常應用於NLP領域的文本生成任務,例如摘要生成、語法糾錯、句子合併等。儘管最新的研究突得端到端的方法在文本生成上比之前更有優勢,但其本身存在的不可解釋性,一方面使得該模型需要大量的訓練數據才能達到可接受的性能水平,另一方面通常只能逐字生成文字,本質上是很慢的。

近日,Google研究團隊開源了一款文本編輯模型LaserTagger,可推理出一系列編輯操作,以將源文本轉換為目標文本。研究人員斷言,LaserTagger處理文本生成一般不易出錯,且更易於訓練和執行。

在此之前,Google已經發布了Meena,一個具有26億個參數的神經網絡,可處理多輪對話。1月初,Google在論文中還提出了Reformer模型,可處理所有小說。

GitHub連結:https://github.com/google-research/lasertagger

LaserTagger設計和功能

對於許多文本生成任務,輸入和輸出之間存在高度重疊,LaserTagger正是利用了一點。例如,在檢測和糾正語法錯誤或多個合併句子時,大多數輸入文本可以保持不變,只需修改一小部分單詞。然後,LaserTagger會生成一系列編輯操作,而非實際單詞。

目前支持的四種編輯操作:

Keep(將單詞複製到輸出中)Delete(刪除單詞)Keep-AddX(添加短語X到標記的單詞前) Delete-AddX(刪除標記的單詞)下圖對LaserTagger在句子合併中的應用進行了說明。

圖註:LaserTagger預測的編輯操作中,刪除「Turing」,添加「 and he 」。請注意,輸入和輸出文本存在的高度重疊。

所有添加的短語均來自受限制的詞彙表。該詞彙表是一個優化過程的結果,該優化過程具有兩個目標:(1)最小化詞彙表的大小和(2)最大化訓練樣本的數量,其中添加到目標文本的唯一必要單詞僅來自詞彙表。短語詞彙量受限制會使輸出決策的空間變小,並防止模型添加任意詞,從而減輕了「幻覺」(雷鋒網註:hallucination,模型在所生成的文本中,輸入信息中並不存在)的問題。

輸入和輸出文本的高重疊性的一個推論是,所需的修改往往是局部的並且彼此獨立。這意味著編輯操作可以高精度地並行推理,與順序執行推理的自回歸seq2seq模型相比,可顯著提高端到端的速度。

結果

研究人員評估了LaserTagger在四個任務中的表現,分別是:句子合併,拆分和改述,抽象總結和語法糾正。結果顯示,使用大量訓練樣本情況下,LaserTagger與基於BERT的seq2seq基線成績相當,並且在訓練樣本數量有限時明顯優於基線。下面顯示了WikiSplit數據集上的結果,其中的任務是將一個長句子改寫為兩個連貫的短句子。

圖註:在100萬個樣本的完整數據集上訓練模型時,LaserTagger和基於BERT的seq2seq基線成績相當,但在10,000個或更少樣本的子樣本上進行訓練時,LaserTagger明顯優於基線模型(SARI得分越高越好)。

LaserTagger主要優點

與傳統的seq2seq方法相比,LaserTagger具有以下優點:

控制:通過控制輸出短語詞彙(也可以手動編輯或整理),LaserTagger比seq2seq基線更不易產生「幻覺」問題。推理速度:LaserTagger計算推理的速度比seq2seq基線快100倍,能夠滿足實際情況下的實時問題。數據效率:即使僅使用幾百或幾千個訓練樣本進行訓練,LaserTagger也會產生合理的輸出。實驗中,seq2seq基線需要成千上萬個樣本才能獲得相同的性能。Google團隊最後寫道:「 LaserTagger的優勢在大規模應用時變得更加明顯,例如,通過縮短響應時間並減少重複性,改進了某些服務中語音應答的格式。高推理速度使該模型可以插入現有技術堆棧中,而不會在用戶端增加任何明顯的延遲,而改進的數據效率可以收集多種語言的訓練數據,從而使來自不同語言背景的用戶受益。 」

相關焦點

  • 推斷速度達seq2seq模型的100倍,谷歌開源文本生成新方法LaserTagger
    來源:機器之心作者:Eric Malmi等機器之心編譯參與:魔王、杜偉使用 seq2seq 模型解決文本生成任務伴隨著一些重大缺陷,谷歌研究人員提出新型文本生成方法 LaserTagger,旨在解決這些缺陷,提高文本生成的速度和效率。
  • "妙筆"生花:一個易用、高效的文本生成開源庫
    文本生成作為近年來自然語言處理中的熱門領域,受到了學界和工業界的廣泛關注。隨著研究的不斷深入,文本生成領域下的子任務和相應的模型越來越豐富,一些優秀的開源框架也紛紛湧現。
  • 谷歌全面開源 MLIR 及生態聯盟,全球 95% 的加速器硬體都在使用
    雷鋒網 AI 開發者按:近日谷歌宣布,向非盈利性 LLVM 基金會提供今年 4 月開源的 Multi-Level Intermediate Representation(MLIR)架構,一個與 TensorFlow 緊密結合的表示格式和編譯器實用工具庫,該架構介於模型表示和低級編譯器/執行器(二者皆可生成硬體特定代碼)之間。
  • NeuralNLP-NeuralClassifier:騰訊開源深度學習文本分類工具
    NeuralNLP是騰訊廣告(Tencent Marketing Solution,TMS)(https://e.qq.com/)數據算法團隊搭建的一個基於PyTorch的深度學習NLP公共實驗平臺,主要涵蓋文本分類、序列標註、語義匹配、BERT微調和文本生成等,目前已經廣泛應用於騰訊廣告業務文本相關的需求場景中,如廣告定向、相關性計算、LookAlike、動態創意、點擊率/轉化率預估等
  • PyTorch:Bi-LSTM的文本生成
    —歐內斯特·海明威本博客的目的是解釋如何通過實現基於LSTMs的強大體系結構來構建文本生成的端到端模型。博客分為以下幾個部分:介紹文本預處理序列生成模型體系結構訓練階段文本生成完整代碼請訪問:https://github.com/FernandoLpz
  • 文本秒生成圖像,震驚業界,詳解OpenAI兩大AI模型
    編譯 | 子佩編輯 | Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派
  • 文本秒生成圖像,震驚業界!詳解OpenAI兩大AI模型
    智東西(公眾號:zhidxcom)編譯 |子佩編輯 |Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派「涇渭分明
  • 文本秒生成圖像,震驚業界——詳解OpenAI兩大AI模型
    編譯|智東西  子佩編輯|Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派「涇渭分明」的界限,實現多模態
  • PyTorch實現用於文本生成的循環神經網絡
    自然語言處理(NLP)有很多有趣的應用,文本生成就是其中一個有趣的應用。當一個機器學習模型工作在諸如循環神經網絡、LSTM-RNN、GRU等序列模型上時,它們可以生成輸入文本的下一個序列。PyTorch提供了一組功能強大的工具和庫,這些工具和庫為這些基於NLP的任務增添了動力。它不僅需要較少的預處理量,而且加快了訓練過程。
  • 輸入示例,自動生成代碼:TensorFlow官方工具TF-Coder已開源
    最近,谷歌 TensorFlow 開源了一個幫助開發者寫 TensorFlow 代碼的程序合成工具 TF-Coder。項目地址:https://github.com/google-research/tensorflow-coderGoogle Colab 試用地址:https://colab.research.google.com/github/google-research/tensorflow-coder/blob/master/TF-Coder_Colab.ipynb
  • 文本也有攻防戰:清華大學開源對抗樣本必讀論文列表
    在自然語言處理領域,對抗樣本的攻擊與防禦近來受到很多研究者的關注,我們希望構建更穩健的 NLP 模型。在本文中,我們簡要討論了攻防的概念,並介紹了清華大學近日開源的 NLP 對抗樣本攻防必讀論文列表。自然語言處理方面的研究在近幾年取得了驚人的進步,深度神經網絡模型已經取代了許多傳統的方法。但是,當前提出的許多自然語言處理模型並不能夠反映文本的多樣特徵。
  • AutoML構建加速器優化首嘗試,谷歌發布EfficientNet-EdgeTPU
    谷歌 Edge TPU 是一個通過 Coral Dev Boardand 和 USB 加速器提供給開發人員的低能耗硬體加速器。通過這種模型自定義,Edge TPU 能夠提供實時的圖像分類性能,同時實現只有在數據中心運行尺寸更大、計算量更重的模型上才能看到的準確率。
  • OpenAI 發布兩個 GPT-3 模型,圖像匹配文本 CLIP 和 文本生成圖像...
    因此,OpenAI 和其它地方的研究者試圖將圖像與文本結合起來,讓 AI 更好地理解人類日常事物的概念。CLIP 和 DALL·E 試圖從兩個不同的方向解決這一問題。CLIP,「另類」的圖像識別目前,大多數模型學習從策劃好的數據集的帶標籤的示例中識別圖像,而 CLIP 則是學習從網際網路獲取的圖像及其描述中識別圖像——即通過一段描述而不是「香蕉」、「蘋果」這樣的單詞標籤來認識圖像。
  • 使用PyTorch建立你的第一個文本分類模型
    這些框架提供了一種簡單的方法來實現複雜的模型體系結構和算法,而只需要很少的概念知識和代碼技能。簡而言之,它們是數據科學社區的一座金礦!在本文中,我們將使用PyTorch,它以其快速的計算能力而聞名。因此,在本文中,我們將介紹解決文本分類問題的關鍵點。然後我們將在PyTorch中實現第一個文本分類器!目錄為什麼使用PyTorch進行文本分類?
  • 文本嵌入的經典模型與最新進展
    它們在定長的密集向量中編碼單詞和句子,以大幅度提高文本數據的處理性能。對通用嵌入的追求是一大趨勢:在大型語料庫上預訓練好的嵌入,可以插入各種下遊任務模型(情感分析、分類、翻譯等),通過融合一些在更大的數據集中學習得到的常用詞句表示,自動提高它們的性能。這是一種遷移學習。
  • ...不用跨界也能從文本生成圖像,OpenAI新模型打破自然語言與視覺...
    DALL·E:從文本生成圖像DALL·E 是 GPT-3 的 120 億參數版本,經文本 - 圖像對數據集訓練後,可基於文本描述生成圖像。DALL·E 這個名稱來源於皮克斯動畫經典作品《機器人總動員(WALL·E)》。有意思的是,它還可以將動物和物體擬人化,將一些無關的概念以一種合理的方式組合起來。
  • 十個生成模型(GANs)的最佳案例和原理 | 代碼+論文
    更多信息博客:http://googleresearch.blogspot.ch/2015/06/inceptionism-going-deeper-into-neural.html代碼:https://github.com/google/deepdream2、能模仿人的智能體
  • 腦機接口利器,從腦波到文本,只需要一個機器翻譯模型
    他們將腦波到文本的轉換視為機器翻譯的過程,腦波為輸入序列,文本為輸出序列。通過讓受試者朗讀文本,收集相應腦區的電波,構成訓練數據集,然後去訓練一個端到端的機器翻譯模型。通過這種方式,他們獲得了一個模型,這個模型能夠將受試者的腦波「準確」、「實時」地轉換為句子文本,而錯誤率僅為3%。
  • 谷歌開源JPEG編碼器Guetzli,壓縮35%也能生成高質量圖片
    雷鋒網消息,谷歌近日開源了用於數字圖像和網絡圖形的JPEG編碼器 Guetzli( [guɛtsli], 在瑞士德語中被翻譯為餅乾)。與現有的方法相比,它能將高質量圖片的大小縮小35%。這就使網站管理員可以使用更少的數據更快地加載網頁,此外,它能兼容現有的瀏覽器、圖像處理應用和JPEG標準。
  • 谷歌地球企業版開源!
    本周,谷歌將其原始碼在 GitHub 以 Apache2 協議開源。文件已在陸續上傳中。公司機構們將能夠基於各自需求,對 GEE 進行自由修改。GitHub 地址: https://github.com/google/earthenterprise當然,谷歌正在大力推廣自家的公共雲計算基礎設施,企業客戶可以在谷歌雲上免費部署 GEE。