摘要:神經機器翻譯中的標準訓練策略存在曝光偏差問題。即使已有研究提出緩解曝光偏差方法,但是曝光偏差造成的實際影響仍然存在爭議。
本文,我們將曝光偏差與神經機器翻譯中另一個廣泛討論的問題,即跨域下產生幻覺翻譯聯繫起來。通過三個數據集多個測試域的實驗,我們證實曝光偏差是導致幻覺翻譯的原因之一。使用最小風險訓練模型,避免暴露偏差,即可減輕幻覺翻譯。我們的分析實驗解釋了為什麼曝光偏差在跨域的場景下會造成更嚴重的問題,並且證實了曝光偏差與束搜索矛盾問題(即增加搜索束寬性能惡化)之間的聯繫。
本文的實驗發現為減少暴露偏差的相關方法提供了一個新的佐證:即使它們不能提高域內測試集的性能,它們仍舊可以提高模型的跨域穩定性。
王朝君,愛丁堡大學,愛丁堡大學信息學院科研助理,導師為Alexandra Birch。主要研究方向神經機器翻譯,已在相關領域的國際頂級會議ACL發表論文。
一、幻覺翻譯和曝光偏差的概念
本次分享的內容主要是一篇分析文章,這篇文章主要聯繫了目前領域中的幾個理論問題和實際問題,比如:曝光偏差(Exposure Bias),幻覺翻譯(Hallucination),以及神經機器翻譯的跨域穩定性。此外還提出了一種新的可視化的方法,針對模型的曝光偏差。
首先,對幻覺翻譯做一個說明。幻覺翻譯指的是模型產生的翻譯和原文在內容層面是不相關的,但是沒有語法方面的錯誤。舉一個例子:給模型輸入一個德語句子,原意為:她發現了我們。但是模型會把它翻譯成:如果他們的症狀和你一樣。之前的研究和本次的工作都發現這樣的幻覺翻譯在模型的跨域翻譯情景下很常見。跨域穩定性的實際意義在於當用戶使用的目標領域未知或者在低資源情況下,沒有充足的目標領域並行語料。這篇文章從幻覺翻譯的角度探究模型的跨域穩定性。
當前的端到端神經機器翻譯模型中有一個大家普遍認知的理論缺陷,它就是曝光偏差。曝光偏差指的是模型訓練與預測過程之間的不匹配。在訓練時每一個詞輸入都來自真實樣本,但是在推斷時當前輸入用的卻是上一個詞的輸出,所以這樣的不匹配大家稱之為曝光偏差。像MRT最小風險訓練這樣序列級的訓練損失函數在理論上可以避免曝光偏差的產生,但是在學界對曝光偏差實際產生的影響仍然存在爭議。在這篇論文的工作中,假設曝光偏差可能導致跨域下的幻覺翻譯問題。所以文章探究兩點:第一,曝光偏差是否是導致幻覺翻譯的原因之一;第二,採用MRT損失函數訓練模型之後是否能減小幻覺翻譯的出現從而提升跨域穩定性。
二、MRT對跨域翻譯穩定性的影響
我們對上述問題進行了實驗驗證。實驗使用兩個語言對,德語到英語(OPUS)和德語到羅曼什語(Allegra/Convivenza),括號中是語料的來源。德語到英語的訓練集使用的是醫療領域語句,而測試集語句則是關於IT,法律,古蘭經以及電影或電視字幕。對於德語到羅曼什語,訓練集使用的是法律領域語句,測試集語句是博客相關的語料。我們採用Transformer作為模型架構。首先使用最大似然函數訓練模型,作為基線。然後使用MRT精調基線,作為對比模型。
可以看到經過一系列的超參數的搜索,在測試集上進行評估之後,最終的結果呈現在上圖中。藍色的代表基線模型,紅色代表MRT精調之後的對比模型。在兩個語言對上,在同域(In-domain)的測試集下,MRT對比基線在穩定性上沒有很大的提升,即翻譯質量沒有很明顯的提升。但是在跨域(Out-of-domain)的測試集中它有一個比較明顯的提升,比基線高出了07-0.8的穩定性。
進一步的對測試集中存在的幻覺翻譯比例進行了人工評測。人工評測環節要求評測員對翻譯的句子進行兩個分類打分,首先對於翻譯的流暢性從流暢、部分流暢、不流暢這三個程度進行打分。然後給評測員正確的翻譯結果,從內容的充足性上進行充足、部分充足、不充足三個程度進行打分。最終被分類為部分流暢或流暢以及不充足的翻譯句子歸為幻覺翻譯。從上面的表可以看到,在MRT精調之後跨域翻譯的幻覺比例從33%下降到了26%。到目前為止,通過實驗證實了MRT可以緩解跨域翻譯下的幻覺翻譯比例,從而提升跨域穩定性。但是還是不清楚這樣的提升是否來自於曝光偏差的減小。
為了更進一步分析這個問題,於是通過可視化,觀察隨著MRT的精調,模型對於偏差有著怎麼樣的變化趨勢。文章所提出的方法,具體來說就是模型對正確標記的翻譯和隨機抽樣的句子的每個token的概率進行打分,然後將結果可視化。這裡隨機抽樣的句子來自於和訓練語料領域一致的測試集,並且最終選取的句子長度必須和正確的翻譯一樣。因此,這個隨機抽樣的句子相當於一個人造的幻覺翻譯。
以上是經過不同updates的可視化結果,本次實驗是在德語到英語的跨域測試集上進行的。可以看到在MRT 0 updates時,其相當於基線模型,它在前幾個迭代時間還能夠對人造的幻覺進行區分,但隨著錯誤的翻譯歷史慢慢輸入,就能夠發現它不能區分或者說不能給予正確翻譯更高的分數。但是隨著MRT的訓練,理論上它的曝光偏差會慢慢減小。首先忽略從0到500 updates,因為這一部分整體的概率的提升是因為在基線模型中進行了標籤平滑,但是在MRT的訓練函數中去掉了標籤平滑,所以模型對翻譯的置信度有所提升。所以我們主要關注updates從500,1000,2000,3000,從圖片中可以明顯看到MRT的精調會使得模型會給幻覺翻譯一個更大的懲罰,即模型能夠區分出reference和distractor,這兩個曲線之間的縫隙也會越來越大,這意味著幻覺翻譯的比例也會慢慢減小。
同樣的現象出現在了同域的測試集中,最開始整體概率上升,500之後模型對distractor有一個下壓。雖然MRT對幻覺翻譯的偏差有一個減緩效果,但是由於最開始MRT對reference有一個非常高的概率估計,達到了0.65,而在前面跨域測試集下,只有0.2的概率估計,所以即使模型存在曝光偏差,到後期他們之間的縫隙逐漸減小,但是最終的整體概率還是無法超越reference。可以說在同域的情況下曝光偏差帶來的實際問題就被隱藏了,因此序列集的訓練函數,例如MRT,所帶來的提升被隱藏了。所以說到目前為止,通過分析實驗證實了文章的假設。
基於以上實驗,進行了進一步的假設,認為之前實驗所發現的束搜索悖論問題(隨著束寬增大到一定程度,翻譯質量會下降)和曝光偏差有關。。於是使用束寬分別為1、4、50進行了測試。可以看到,隨著束寬增大,幻覺翻譯的比例發生了上升,即便MRT精調之後也沒有緩減這個現象。但是緩減了上升的幅度,從44%下降到了33%。同時在穩定性上可以看到束寬4到50有所下降,但是經過MRT精調後下降幅度有所緩減,從16%下降到9%。
三、結論
這篇文章對曝光偏差這個理論缺陷提出了新的問題,即幻覺翻譯問題。通過實驗證實了通過MRT模型可以減小跨域翻譯的幻覺翻譯比例,從而提升神經模型的跨域穩定性。更重要的一點,本實驗給序列級的目標函數提供了新的佐證,即使它不能對同域的翻譯質量進行一個比較明顯的提升,但能夠提升模型的跨域穩定性。
嘉賓問答:
請問一下in-domain的曝光偏置問題嚴重嗎 現在有什麼比較有用的方法嗎?
目前的研究發現in-domain下曝光偏差所帶來的實際問題並不是很嚴重,可以參考一下這篇文章 https://arxiv.org/pdf/1905.10617.pdf。解決曝光偏差方法研究大概分兩類,一類是強化學習類的方法,把模型的翻譯與reference的metric作為RL的reword,我們工作中用到的MRT也算作這一類;另一類是schedule sampling類,基本思想是模擬模型的預測過程來訓練模型,比如ACL2019 best paper就屬於這一類。