AAAI 2020|計算所&微信AI:改進訓練目標,提升非自回歸模型翻譯質量...

2020-12-23 雷鋒網

本文為計算所邵晨澤向雷鋒網AI科技評論投稿，未經允許禁止轉載。

本文是對計算所馮洋組和騰訊微信AI團隊共同完成，被 AAAI2020 錄用的論文《Minimizing the Bag-of-Ngrams Difference for Non-Autoregressive Neural Machine Translation》進行解讀，相關工作已開源。

論文：https://arxiv.org/pdf/1911.09320.pdf代碼：https://github.com/ictnlp/BoN-NAT

研究背景：非自回歸模型

目前主流的神經機器翻譯模型為自回歸模型，每一步的譯文單詞的生成都依賴於之前的翻譯結果，因此模型只能逐詞生成譯文，翻譯速度較慢。Gu等人[1]提出的非自回歸神經機器翻譯模型(NAT)對目標詞的生成進行獨立的建模，因此能夠並行解碼出整句譯文，顯著地提升了模型的翻譯速度。

然而，非自回歸模型在翻譯質量上與自回歸模型有較大差距，主要表現為模型在長句上的翻譯效果較差，譯文中包含較多的重複詞和漏譯錯誤等，如圖一所示：

圖一：NAT譯文中的重複詞和漏譯錯誤。NAT:非自回歸模型，AR：自回歸模型

造成非自回歸模型翻譯效果較差的一個主要原因為其訓練時所用的交叉熵損失函數不準確。一方面，詞級別的交叉熵損失對每個位置的預測結果進行獨立評估，難以建模序列依賴關係；另一方面，交叉熵損失要求模型的預測結果與參考譯文嚴格對齊，否則就難以評估模型的翻譯質量。如圖二所示，

圖二：不對齊時，交叉熵損失無法給出準確的指導

當預測結果未與參考譯文對齊時，儘管兩者語義很相近，交叉熵損失還是會變得非常大，對模型給出錯誤的指導。

相關工作

針對上述的交叉熵損失函數不準確的問題，Gu等人[1]將其歸因為譯文的「多峰性」，即一個句子可能有多種正確的譯文，並提出引入隱變量來減小譯文的不確定性。隨後，離散隱變量[2,3]、變分自編碼器[4,5]、基於位置信息的隱變量[6,7]被引入到非自回歸模型中，均取得了明顯的效果提升。

隱變量的方法也有一定缺陷，即對隱變量的建模會降低非自回歸模型的翻譯速度，且隱變量難以完全消除譯文的不確定性，交叉熵損失不準確的問題仍然存在。

另一個思路為對非自回歸模型的訓練目標做改進，本文也是基於這個思路。Wang等人[8]直接在訓練目標中加入正則化項，以此來抑制模型的重複翻譯和漏譯錯誤。Shao等人[9]在模型中融入序列信息，改進強化學習算法來進行序列級訓練，用更準確的序列級指標來訓練模型。

上述方法的好處是能在不影響翻譯速度的前提下提升模型的翻譯質量。然而，[8]僅針對在譯文中觀察到的問題做優化，並未從根本上解決問題。由於序列級指標的離散性，[9]無法準確求得損失函數的梯度，需要使用強化學習算法來做梯度估計。另外，[9]所用的強化學習算法速度較慢，僅能用於模型的微調階段。

方法

針對交叉熵損失不準確的問題，本文為非自回歸模型提出了一種基於n元組袋（Bag-of-Ngrams, BoN）的訓練目標，希望能最小化模型與參考譯文間n元組袋的差異。該訓練目標在n元組的層面上評估預測結果，因此能夠建模序列依賴關係；直接對n元組袋做優化，對絕對位置不敏感，不受對齊約束的限制。如圖三所示，在預測結果未與參考譯文對齊時，該訓練目標也能準確地評估翻譯質量。

圖三：基於n元組袋的訓練目標

本文提出的BoN訓練目標對模型與參考譯文間的n元組袋差異做定量評估，從而鼓勵模型生成更接近參考譯文的翻譯結果，下面對其做具體描述，主要分為三個步驟：BoN的定義和計算、BoN距離的定義和計算和訓練方法。

BoN的定義和計算假設詞表大小為V，對於一個長度為T的句子Y=(y1,……,yn)，一般都將它的n元組袋定義為一個長度為V^n的向量，記為BoNY，它的每一維代表某一n元組g=(g1,……,gn)的出現次數，如下所示：

其中，1{}為指示函數，若條件成立則取值為1，否則為0。對神經機器翻譯模型來說，由於其建模了譯文在整個譯文空間上的概率分布，上面的定義並不直接適用。因此，我們考慮所有可能的譯文，將每個譯文的BoN按概率加權，用BoN的期望值來定義模型的BoN。假設模型參數為θ，從原文X到譯文Y的翻譯概率為P(Y|X, θ)，則模型的BoNθ定義如下：

(2)式中對模型BoN的定義方法非常自然，但它也存在一個很大的問題：搜索空間是指數大小的，難以對其進行計算。我們利用非自回歸模型獨立預測各位置翻譯概率的特性，對(2)式做如下變換：

注意到，(3)式中2到3行的變換利用到了非自回歸模型獨立建模概率的特性，因此(3)式的推導僅對非自回歸模型有效。通過(3)式的變換，我們就不再需要遍歷所有可能譯文，匯總所有位置上n元組g的概率就能求得g的期望出現次數BoNθ(g)。下圖以二元組g=(『get』,『up』)為例，展示了模型BoNθ的計算方法。

圖四：對2元組(『get』, 『up』) 的期望出現次數的計算

BoN距離的定義和計算在完成對參考譯文和模型的BoN定義後，我們可以選擇一種距離指標來衡量兩者BoN的差距，常用的距離指標有L1距離、L2距離、餘弦距離等。注意到，n元組袋的長度為V^n，儘管我們在上文中對其每一維BoNθ(g)的計算做了簡化，但若要進行V^n次的計算來求得整個BoN向量，所需的計算量和存儲空間也是非常巨大的。因此，我們希望選擇一種合適的距離指標，使我們不需要計算整個BoNθ向量，進一步簡化計算。從上文(1)、(2)式的定義看，模型的BoNθ向量是稠密的，每個位置均為非零值；句子的BoNY向量是稀疏的，僅有幾個位置為非零值。利用這個性質，我們可以對兩個向量間L1距離的計算做簡化。首先，假設譯文長度為T，則兩個BoN向量的L1模長均為T-n+1:

基於此，兩個BoN向量間的L1距離如下所示：

直觀上看，(6)式中的min部分代表了模型與參考譯文在n元組層面上的匹配數，匹配數越大，則兩者BoN向量間的L1距離越小。利用BoNY向量的稀疏性，min函數的大部分取值均為0，我們只需考慮BoNY非零的幾處位置，計算模型與參考譯文中n元組的匹配總數，從而計算出兩者n元組袋的距離BoN-L1。訓練方法上文中，我們給出了BoN的定義和快速計算BoN間L1距離的方法。在本節，我們將對用BoN距離訓練非自回歸模型的方法做具體介紹。首先，為了保證訓練過程的穩定性，我們將BoN距離歸一化後作為損失函數：

與基於強化學習的序列級訓練方法[9]類似，我們可以先用交叉熵損失預訓練非自回歸模型，再用BoN損失對模型進行微調，我們將這種方法命名為BoN-FT。

另外，由於本文提出的BoN損失在計算上非常快速且直接可導，我們也可以將BoN損失與交叉熵損失加權來聯合訓練非自回歸模型，這種方法被命名為BoN-Joint。

結合上面兩種方法，我們可以先對模型進行聯合訓練，再單獨用BoN損失微調模型，這種方法被命名為BoN-Joint+FT。

實驗

本文在WMT14 En-de、WMT16 En-Ro、IWSLT16 En-de三個數據集、五個翻譯方向上進行了實驗，結果如圖五所示。

圖五：三個數據集上的實驗，所提方法相對基線模型和強化學習方法均有明顯提升

對比BoN-FT與Reinforce-NAT[9]，可以看到本文提出的BoN損失在序列級訓練上效果更好、速度更快。BoN-Joint方法相對BoN-FT也有明顯提升，表明讓BoN損失全程參與訓練的必要性，這也是BoN損失相對強化學習方法的優勢：強化學習方法訓練速度過慢，一般只能用於微調模型。效果最好的為BoN-Joint+FT，該方法通過在最後階段的微調，相對BoN-Joint也有微小提升，在WMT14 En-de數據集上達到了約5個BLEU值的提升。

本文還對BoN損失和交叉熵損失與翻譯質量的相關性做了實驗驗證。我們在WMT14 En->De的開發集上進行實驗，將開發集的3000個句子隨機分為100組，每組30句。我們粗略地認為BLEU值能夠表示模型的翻譯質量，計算模型在各組上的BoN損失、交叉熵損失和翻譯結果的BLEU值，並分別求出BoN損失、交叉熵損失與BLEU值的相關係數，如表一所示。

表一：交叉熵損失和BoN損失與翻譯質量的相關係數

表一顯示，在n=2的情況下，BoN損失與翻譯質量的相關性最好，且顯著強於交叉熵損失。因此，BoN損失能更準確地評估模型的輸出結果，適用於非自回歸模型的訓練。我們也在不同句長情況下對相關性進行了分析，將開發集按句長分為兩組，每組包含1500個句子，並按上述方法計算BoN損失、交叉熵損失在長句組和短句組上的相關性，如表二所示。

表二：在不同句長下，交叉熵損失和BoN損失與翻譯質量的相關係數

表二顯示，交叉熵損失在句長增大時，與翻譯質量的相關性迅速下降，而BoN損失在長句下仍能保持較高的相關性。這種現象與我們的預期完全相符，在長句情況下，類似圖二的不對齊現象更加容易發生，因此交叉熵損失的準確性會進一步下降。BoN損失基於n元組袋來評估模型輸出，因此不受不對齊現象的影響。

結論

本文針對非自回歸模型中交叉熵損失不準確的問題，提出了基於n元組袋的BoN損失。實驗顯示，BoN損失與翻譯質量的相關性更強，用其對非自回歸模型進行訓練，能顯著提升模型的翻譯效果。在未來的工作中，一方面，我們希望能更進一步地對非自回歸模型的訓練方法進行探究；另一方面，我們希望能不局限於非自回歸模型，將本文所提的BoN損失應用到自然語言處理的更多任務中。

雷鋒網報導。

更多AAAI 2020解讀論文請參閱雷鋒網其他文章：https://www.leiphone.com/special/custom/meetingVideo.html?from=SY

AAAI 2020|計算所&微信AI:改進訓練目標,提升非自回歸模型翻譯質量...

相關焦點

支持108種語言的谷歌翻譯如何用AI讓翻譯質量越來越好?

谷歌翻譯是如何藉助多項新興AI技術提高翻譯質量的

微信AI再奪冠!斬獲WMT2020國際機器翻譯大賽中英方向第一名

WMT國際機器翻譯大賽結果流出,微信AI拔得頭籌

OpenAI追蹤AI模型效率:每16個月翻一番!超越摩爾定律

谷歌揭秘自家翻譯系統:如何利用AI技術提高翻譯質量 | 網際網路數據...

PTMs|2020最新NLP預訓練模型綜述

淺析基於隱變量的非自回歸神經機器翻譯方法

不以英語為中心,百種語言互譯,FB開源首個單一多語言MT模型

AIOpen 預訓練語言模型專刊徵稿

稱霸《王者榮耀》、電競虛擬人問世:萬字長文盤點騰訊AI Lab

谷歌大腦:混合專家層超大規模 AI,模型性能提升 1000 多倍

騰訊AI Lab 2020 年度回顧

Google Translate 的新改進

繼CVPR、AAAI大豐收後,百度又有11篇論文被ACL 2020錄用

谷歌同志是位好「翻譯」!

AAAI 2020|南京大學:利用多頭注意力機制生成多樣性翻譯

多項NLP任務新SOTA,Facebook提出預訓練模型BART

Facebook 100種語言互譯模型原始碼公開,機器翻譯再也不用英語當...

Facebook 100種語言互譯模型原始碼公開!機器翻譯再也不用英語當...