谷歌NLP新方法:無需翻譯,質量優於無監督翻譯模型

2021-01-19 新智元

新智元報導

來源:techxplore

編輯:元子

【新智元導讀】無需翻譯的無監督複述的新方法:允許從輸入句子生成多樣化、但語義上接近的句子。模型基於矢量量化自動編碼器(VQ-VAE),可以在單純語言環境中解釋句子。它還具有獨特的功能,即與量化瓶頸並行的殘餘連接,可以更好地控制解碼器熵並簡化優化過程。

近年來,研究人員一直在嘗試開發自動複述的方法,複述就是對相同語義的不同表達,例如一句話,可以有一千種說法。這需要從文本中自動抽象語義內容。

由於缺乏可用的復映對標記數據集,目前更多的是使用依賴於機器翻譯(MT)技術的方法,已經被證明非常受歡迎。

理論上來看,翻譯技術可能是自動複述的有效解決方案,因為翻譯技術是從語言實現中抽象出語義內容。例如,將相同的句子分配給不同的翻譯者,最終翻譯出來的內容通常是有差別的,這樣就得到一個豐富的解釋集,在複述任務中可能會非常有用。

儘管許多研究人員已經開發出基於翻譯的自動複述方法,但顯然人類並不需要翻譯才能解釋句子。

基於這一觀察結果,Google Research的兩位研究人員最近提出了一種新的複述技術,可以不依賴機器翻譯的方法。

在預先發表在arXiv上的論文中,他們將這種單語方法與其他翻譯技巧進行了比較(例如監督翻譯和無監督翻譯方法),該論文被引用了47次。

進行這項研究的兩位研究人員Aurko Roy和David Grangier在他們的論文中寫道:「這項工作建議只從未標記的單語語料庫中學習複述模型…為此,我們提出了矢量量化變分自動編碼器的殘差變量。」

Aurko Roy

David Grangier

研究人員介紹的模型基於矢量量化自動編碼器(VQ-VAE),可以在單純語言環境中解釋句子。同時,它還具有獨特的特徵(即與量化瓶頸並行的殘餘連接),這使得能夠更好地控制解碼器熵、並簡化優化過程。他們的模型只需要在一種語言中使用未標記的數據:即用語言來解釋句子。

研究人員在論文中解釋道:「與連續自動編碼器相比,我們的方法允許從輸入句子生成多樣化、但語義上接近的句子。」

在研究中,Roy和Grangier將他們的模型表現與其他基於MT的方法在複述識別、生成和訓練增強方面的表現進行了比較。

他們特別將這種方法,與在平行雙語數據上訓練的監督翻譯方法、以及在兩種不同語言的非平行文本上訓練的無監督翻譯方法進行了比較。

研究人員發現,他們的單語方法在所有任務中均優於無監督翻譯技術。另一方面,他們的模型和監督翻譯方法之間的比較產生了混合的結果:單語方法在識別和增強任務中表現更好,而監督翻譯方法在複述生成方面表現更好。

研究人員總結道:「總的來說,我們發現在進行複述識別和數據增強方面,單語模型可以勝過雙語模式。單語模型的生成質量要高於基於無監督翻譯的模型,但並不高於基於有監督翻譯的模型。」

Roy和Grangier的研究結果表明,雖然使用雙語並行數據(即文本及在其他語言中的可能翻譯)在產生複述能夠得到更卓越的表現。然而,在雙語數據不易獲得的情況下,谷歌研究院提出的單語模型可能是一種有用的資源或替代解決方案。

參考連結:

https://techxplore.com/news/2019-06-approach-unsupervised-paraphrasing.html

相關焦點

  • 谷歌揭秘自家翻譯系統:如何利用AI技術提高翻譯質量 | 網際網路數據...
    混合模型和數據挖掘器在這系列技術突破中,谷歌首先提到了混合模型和數據挖掘器。混合模型指的是由Transformer編碼器和遞歸神經網絡(RNN)解碼器構成的模型。在機器翻譯中,編碼器通常將單詞和短語編碼為內部表徵,解碼器將其生成為所需要的語言文本。谷歌的研究人員在2017年稱首次提出,翻譯質量的提高主要依靠編碼器。
  • 支持108種語言的谷歌翻譯如何用AI讓翻譯質量越來越好?
    谷歌表示,其翻譯質量的突破並不是由單一技術推動,而是針對資源較少的語言、高質量源語言、總體質量、延遲和整體推理速度的技術組合。在2019年5月至2020年5月之間,通過人工評估和BLEU(一種基於系統翻譯與人工參考翻譯之間相似性的指標)進行衡量,谷歌翻譯在所有語言中平均提高了5分或更多,在50種最低水平的翻譯中平均提高了7分或更多。此
  • 谷歌翻譯是如何藉助多項新興AI技術提高翻譯質量的
    在一篇即將正式發表的博客文章中,該公司詳細介紹了助力提升谷歌翻譯(Google Translate)所支持的108種語言翻譯質量的新創新技術(特別是缺乏語料數據的約魯巴語和馬拉雅拉姆語)。谷歌翻譯服務平均每天翻譯1500億個單詞。自谷歌翻譯首次亮相以來的13年裡,神經機器翻譯、基於重寫的範式和設備端處理等技術的出現和改進,助力該平臺的翻譯準確性取得不小的飛躍。
  • 谷歌同志是位好「翻譯」!
    既然GNMT是通過應用基於實例的的機器翻譯方法來改進翻譯質量,那麼系統就需要會從數百萬個乃至更多的示例中學習,從這些來源中推斷出最相關的翻譯,然後將結果重新排列並組成基於符合人類語言的語法翻譯。這也就意味著,當GNMT進行學習時,需要目標語言有大量文本數據。
  • 復旦邱錫鵬教授:2020最新NLP預訓練模型綜述
    新智元報導編輯:SF【新智元導讀】本文該綜述系統地介紹了nlp中的預訓練模型,深入盤點了目前主流的預訓練模型,提出了一種預訓練模型的分類體系。nlp領域的發展比cv領域相對緩慢的原因是什麼呢?相比於cv領域,「nlp領域的劣勢在於有監督數據集大小非常小」(除了機器翻譯),導致深度學習模型容易過擬合,不能很好地泛化。但是相反,nlp領域的優勢在於,存在大量的無監督數據集,如果能夠充分利用這類數據進行訓練,那麼勢必能夠提升模型的能力以及在下遊任務中的表現。
  • 谷歌喊你定製自己的機器翻譯引擎
    今年早些時候谷歌Cloud AutoML驚豔問世,任何人皆可利用它的強大機器學習模型,定製符合特定領域需求的解決方案,而無需機器學習或編程專業知識
  • 谷歌翻譯核心技術 Seq2Seq
    如果我們把它表示成一個相量的話,把它減掉 0.1,那是不是近義詞,以前是沒有辦法的,說把腹瀉換一個字母,再減1是什麼意思?本來就是沒意思。所以以前的詞彙是離散的不可微分的,我們現在找了一個詞向量,這個詞向量是個數字向量,是可以微分的。第三件事情「可編輯」,我把好幾個詞的詞向量怎麼編輯在一起,像剪接基因一樣,能夠搞出一個文章摘要、中心思想、關鍵詞,所以詞向量還是可編輯的。
  • AI翻譯能否取代人工翻譯?谷歌翻譯作為領頭羊,已經給出了答案
    AI翻譯一直是人工智慧領域關注較多和技術討論較多的方向,而在全球範圍內,谷歌的智能翻譯一直佔據的重要的地位,這有賴於谷歌對於翻譯的另類理解和技術提升,今天我們就來看看谷歌為了翻譯都做了什麼。
  • Facebook自然語言處理新突破:新模型能力趕超人類&超難NLP新基準
    Facebook 通過使用半監督和自監督學習技術,利用未標記的數據來提高純監督系統的性能。在第四屆機器翻譯大會(WMT19)比賽中,Facebook 採用了一種新型的半監督訓練方法,並在多種語言翻譯任務中獲得了第一名。Facebook 還引入了一種新的自我監督的預訓練方法——RoBERTa。它在一些語言理解任務上超過了所有現有的 NLU 系統。
  • AAAI 2020|計算所&微信AI:改進訓練目標,提升非自回歸模型翻譯質量...
    論文:https://arxiv.org/pdf/1911.09320.pdf代碼:https://github.com/ictnlp/BoN-NAT研究背景:非自回歸模型目前主流的神經機器翻譯模型為自回歸模型,每一步的譯文單詞的生成都依賴於之前的翻譯結果,因此模型只能逐詞生成譯文
  • PTMs|2020最新NLP預訓練模型綜述
    「nlp領域的發展比cv領域相對緩慢的原因是什麼呢」?相比於cv領域,「nlp領域的劣勢在於有監督數據集大小非常小」(除了機器翻譯),導致深度學習模型容易過擬合,不能很好地泛化。但是相反,nlp領域的優勢在於,存在大量的無監督數據集,如果能夠充分利用這類數據進行訓練,那麼勢必能夠提升模型的能力以及在下遊任務中的表現。nlp中的預訓練模型就是這樣一類能夠在大規模語料上進行無監督訓練,學習得到通用的語言表徵,有助於解決下遊任務的nlp模型。「那麼什麼是好的語言表徵呢」?
  • 人工智慧翻譯大比拼 有道翻譯戰勝谷歌奪得冠軍
    在其中的人工智慧翻譯大賽中,谷歌翻譯、有道翻譯官、搜狗翻譯三款翻譯軟體同臺競技,實測翻譯效果。最終,有道翻譯官憑藉著突出的對話翻譯和拍照翻譯功能,以及幾乎無短板的優勢,在比賽中拔得頭籌。 挑戰經典,看人工智慧翻譯如何「真情告白」第一局裡先「上場」的是谷歌翻譯,隨機翻譯一段對話。但可能是第一上場的緣故,谷歌翻譯表現並不理想。
  • 多項NLP任務新SOTA,Facebook提出預訓練模型BART
    BART 使用基於 Transformer 的標準神經機器翻譯架構,可泛化 BERT(具備雙向編碼器)、GPT(具備從左至右的解碼器)等近期出現的預訓練模型,儘管它非常簡潔。Facebook 研究人員評估了多種噪聲方法,最終通過隨機打亂原始句子的順序,再使用新型文本填充方法(即用單個 mask token 替換文本段)找出最優性能。
  • Hinton團隊新作:無需重構,無監督比肩有監督
    原創 關注前沿科技 量子位魚羊 發自 麥蒿寺量子位 報導 | 公眾號 QbitAI最新研究表明,無需重構,無監督表示學習也可以表現出色。多個數據增強的組合研究人員發現,即使模型可以在對比任務中幾乎完美地識別出正對,也無法通過單個變換來學習良好的表示。採用數據增強組合時,對比預測任務會變得更加困難,但表示質量會大大提高。並且,研究還指出,比起監督學習,對比學習需要更強大的數據增強。2.
  • 「苟富貴勿相忘」翻譯後,谷歌:沒錢的人總會被遺忘
    在一篇論文中作者指出,在構建翻譯的模型的時候,基本上有兩種不確定性,一種是任務本身固有的不確定性,另一種是數據收集過程中存在的不確定性。 所謂內在的不確定性,是指不確定性的一個來源是一句話會有幾種等價的翻譯。因為在翻譯的過程中或多或少是可以直譯的,即使字面上有很多表達相同意思的方法。
  • 機器翻譯:谷歌翻譯是如何對幾乎所有語言進行翻譯的?
    全文共13204字,預計學習時長34分鐘谷歌翻譯大家想必都不陌生,但你有沒有想過,它究竟是如何將幾乎所有的已知語言翻譯成我們所選擇的語言?本文將解開這個謎團,並且向各位展示如何用長短期記憶網絡(LSTM)構建語言翻譯程序。
  • 首次大規模神經機器翻譯架構分析結果出爐,LSTM 優於GRU
    選自arxiv作者:Denny Britz等機器之心編譯參與:微胖、蔣思源、吳攀這樣的實驗只有谷歌級別的公司才能處理的了。這篇文章對大型 NMT 模型訓練過程中的各個超參數對結果的影響進行了經驗分析,並得出了一些有意義的結論。
  • 讀了20次「苟富貴勿相忘」後,谷歌翻譯:沒錢的人總會被遺忘
    在一篇論文中作者指出,在構建翻譯的模型的時候,基本上有兩種不確定性,一種是任務本身固有的不確定性,另一種是數據收集過程中存在的不確定性。所謂內在的不確定性,是指不確定性的一個來源是一句話會有幾種等價的翻譯。因為在翻譯的過程中或多或少是可以直譯的,即使字面上有很多表達相同意思的方法。
  • 這個系統可以全自動翻譯日漫,再也不用啃生肉了
    該方法能夠翻譯對話氣泡中的文本,這類文本通常需要語境信息(如其他對話氣泡中的文本、說話者的性別等)才能夠翻譯; 其次,為了訓練模型,研究者提出了基於成對的原始日漫及其譯文自動構建語料庫的方法。
  • 重磅| 谷歌大腦養成記:從識別貓到突破性機器翻譯
    Pichai 解釋說,不僅僅是難民危機,公司也估計翻譯的地理政治重要性:他身後的屏幕上出現了一幅圖表,一個陡峭的曲線表明最近阿拉伯語和德語之間的翻譯需求翻了五番。谷歌翻譯團隊一直在穩定地為產品添加新的語言和功能,不過,過去四年的質量提升已經明顯放緩。直到今天,翻譯工具引進了人工智慧技術。首輪嘗鮮的語言包括英語、西班牙語、法語、葡萄牙語、德語、中文、日語、韓語和土耳其語。