神經機器翻譯中的曝光偏差,幻覺翻譯與跨域穩定性

2020-11-09 AITIME

摘要:神經機器翻譯中的標準訓練策略存在曝光偏差問題。即使已有研究提出緩解曝光偏差方法,但是曝光偏差造成的實際影響仍然存在爭議。


本文,我們將曝光偏差與神經機器翻譯中另一個廣泛討論的問題,即跨域下產生幻覺翻譯聯繫起來。通過三個數據集多個測試域的實驗,我們證實曝光偏差是導致幻覺翻譯的原因之一。使用最小風險訓練模型,避免暴露偏差,即可減輕幻覺翻譯。我們的分析實驗解釋了為什麼曝光偏差在跨域的場景下會造成更嚴重的問題,並且證實了曝光偏差與束搜索矛盾問題(即增加搜索束寬性能惡化)之間的聯繫。


本文的實驗發現為減少暴露偏差的相關方法提供了一個新的佐證:即使它們不能提高域內測試集的性能,它們仍舊可以提高模型的跨域穩定性。


王朝君,愛丁堡大學,愛丁堡大學信息學院科研助理,導師為Alexandra Birch。主要研究方向神經機器翻譯,已在相關領域的國際頂級會議ACL發表論文。


一、幻覺翻譯和曝光偏差的概念


本次分享的內容主要是一篇分析文章,這篇文章主要聯繫了目前領域中的幾個理論問題和實際問題,比如:曝光偏差(Exposure Bias),幻覺翻譯(Hallucination),以及神經機器翻譯的跨域穩定性。此外還提出了一種新的可視化的方法,針對模型的曝光偏差。


首先,對幻覺翻譯做一個說明。幻覺翻譯指的是模型產生的翻譯和原文在內容層面是不相關的,但是沒有語法方面的錯誤。舉一個例子:給模型輸入一個德語句子,原意為:她發現了我們。但是模型會把它翻譯成:如果他們的症狀和你一樣。之前的研究和本次的工作都發現這樣的幻覺翻譯在模型的跨域翻譯情景下很常見。跨域穩定性的實際意義在於當用戶使用的目標領域未知或者在低資源情況下,沒有充足的目標領域並行語料。這篇文章從幻覺翻譯的角度探究模型的跨域穩定性。


當前的端到端神經機器翻譯模型中有一個大家普遍認知的理論缺陷,它就是曝光偏差。曝光偏差指的是模型訓練與預測過程之間的不匹配。在訓練時每一個詞輸入都來自真實樣本,但是在推斷時當前輸入用的卻是上一個詞的輸出,所以這樣的不匹配大家稱之為曝光偏差。像MRT最小風險訓練這樣序列級的訓練損失函數在理論上可以避免曝光偏差的產生,但是在學界對曝光偏差實際產生的影響仍然存在爭議。在這篇論文的工作中,假設曝光偏差可能導致跨域下的幻覺翻譯問題。所以文章探究兩點:第一,曝光偏差是否是導致幻覺翻譯的原因之一;第二,採用MRT損失函數訓練模型之後是否能減小幻覺翻譯的出現從而提升跨域穩定性。


二、MRT對跨域翻譯穩定性的影響


我們對上述問題進行了實驗驗證。實驗使用兩個語言對,德語到英語(OPUS)和德語到羅曼什語(Allegra/Convivenza),括號中是語料的來源。德語到英語的訓練集使用的是醫療領域語句,而測試集語句則是關於IT,法律,古蘭經以及電影或電視字幕。對於德語到羅曼什語,訓練集使用的是法律領域語句,測試集語句是博客相關的語料。我們採用Transformer作為模型架構。首先使用最大似然函數訓練模型,作為基線。然後使用MRT精調基線,作為對比模型。



可以看到經過一系列的超參數的搜索,在測試集上進行評估之後,最終的結果呈現在上圖中。藍色的代表基線模型,紅色代表MRT精調之後的對比模型。在兩個語言對上,在同域(In-domain)的測試集下,MRT對比基線在穩定性上沒有很大的提升,即翻譯質量沒有很明顯的提升。但是在跨域(Out-of-domain)的測試集中它有一個比較明顯的提升,比基線高出了07-0.8的穩定性。



進一步的對測試集中存在的幻覺翻譯比例進行了人工評測。人工評測環節要求評測員對翻譯的句子進行兩個分類打分,首先對於翻譯的流暢性從流暢、部分流暢、不流暢這三個程度進行打分。然後給評測員正確的翻譯結果,從內容的充足性上進行充足、部分充足、不充足三個程度進行打分。最終被分類為部分流暢或流暢以及不充足的翻譯句子歸為幻覺翻譯。從上面的表可以看到,在MRT精調之後跨域翻譯的幻覺比例從33%下降到了26%。到目前為止,通過實驗證實了MRT可以緩解跨域翻譯下的幻覺翻譯比例,從而提升跨域穩定性。但是還是不清楚這樣的提升是否來自於曝光偏差的減小。


為了更進一步分析這個問題,於是通過可視化,觀察隨著MRT的精調,模型對於偏差有著怎麼樣的變化趨勢。文章所提出的方法,具體來說就是模型對正確標記的翻譯和隨機抽樣的句子的每個token的概率進行打分,然後將結果可視化。這裡隨機抽樣的句子來自於和訓練語料領域一致的測試集,並且最終選取的句子長度必須和正確的翻譯一樣。因此,這個隨機抽樣的句子相當於一個人造的幻覺翻譯。



以上是經過不同updates的可視化結果,本次實驗是在德語到英語的跨域測試集上進行的。可以看到在MRT 0 updates時,其相當於基線模型,它在前幾個迭代時間還能夠對人造的幻覺進行區分,但隨著錯誤的翻譯歷史慢慢輸入,就能夠發現它不能區分或者說不能給予正確翻譯更高的分數。但是隨著MRT的訓練,理論上它的曝光偏差會慢慢減小。首先忽略從0到500 updates,因為這一部分整體的概率的提升是因為在基線模型中進行了標籤平滑,但是在MRT的訓練函數中去掉了標籤平滑,所以模型對翻譯的置信度有所提升。所以我們主要關注updates從500,1000,2000,3000,從圖片中可以明顯看到MRT的精調會使得模型會給幻覺翻譯一個更大的懲罰,即模型能夠區分出reference和distractor,這兩個曲線之間的縫隙也會越來越大,這意味著幻覺翻譯的比例也會慢慢減小。



同樣的現象出現在了同域的測試集中,最開始整體概率上升,500之後模型對distractor有一個下壓。雖然MRT對幻覺翻譯的偏差有一個減緩效果,但是由於最開始MRT對reference有一個非常高的概率估計,達到了0.65,而在前面跨域測試集下,只有0.2的概率估計,所以即使模型存在曝光偏差,到後期他們之間的縫隙逐漸減小,但是最終的整體概率還是無法超越reference。可以說在同域的情況下曝光偏差帶來的實際問題就被隱藏了,因此序列集的訓練函數,例如MRT,所帶來的提升被隱藏了。所以說到目前為止,通過分析實驗證實了文章的假設。



基於以上實驗,進行了進一步的假設,認為之前實驗所發現的束搜索悖論問題(隨著束寬增大到一定程度,翻譯質量會下降)和曝光偏差有關。。於是使用束寬分別為1、4、50進行了測試。可以看到,隨著束寬增大,幻覺翻譯的比例發生了上升,即便MRT精調之後也沒有緩減這個現象。但是緩減了上升的幅度,從44%下降到了33%。同時在穩定性上可以看到束寬4到50有所下降,但是經過MRT精調後下降幅度有所緩減,從16%下降到9%。


三、結論


這篇文章對曝光偏差這個理論缺陷提出了新的問題,即幻覺翻譯問題。通過實驗證實了通過MRT模型可以減小跨域翻譯的幻覺翻譯比例,從而提升神經模型的跨域穩定性。更重要的一點,本實驗給序列級的目標函數提供了新的佐證,即使它不能對同域的翻譯質量進行一個比較明顯的提升,但能夠提升模型的跨域穩定性。


嘉賓問答:


請問一下in-domain的曝光偏置問題嚴重嗎 現在有什麼比較有用的方法嗎?


目前的研究發現in-domain下曝光偏差所帶來的實際問題並不是很嚴重,可以參考一下這篇文章 https://arxiv.org/pdf/1905.10617.pdf。解決曝光偏差方法研究大概分兩類,一類是強化學習類的方法,把模型的翻譯與reference的metric作為RL的reword,我們工作中用到的MRT也算作這一類;另一類是schedule sampling類,基本思想是模擬模型的預測過程來訓練模型,比如ACL2019 best paper就屬於這一類。

相關焦點

  • 什麼是神經機器翻譯(NMT)?
    ,神經機器翻譯(NMT)是這一進程的最新一步。由於能夠一次翻譯整個句子,NMT的輸出可以類似於人工翻譯。隨著越來越多的企業走向全球化,NMT可能會對翻譯行業產生巨大影響。什麼是神經機器翻譯?NMT使用基於神經網絡的技術來實現更多上下文精確的翻譯,而不是一次翻譯一個單詞的破碎句子。
  • F8 2017 | 技術負責人為你解析 Facebook 神經機器翻譯
    首先,Necip Fazil Ayan 表示,神經機器翻譯為 Facebook 帶來翻譯質量的大幅提升:精確度(是否清楚表達了原句的意思)提升 20%,通順程度(翻譯語句聽起來是否正常)提升 24%。基於短語架構機器翻譯的缺陷:再來看一看神經網絡機器翻譯系統。神經機器翻譯系統會考慮原句的整個語境,以及當次翻譯過程中此前翻譯出的所有內容。它的優點有:支持大段的語序重排(long distance reordering)連續、豐富的表達。
  • NIPS 2017 | 線上分享第二期:利用價值網絡改進神經機器翻譯
    分享者簡介:夏應策,博士五年級,現就讀於中國科學技術大學-微軟亞洲研究院聯合培養博士班,研究方向為機器學習(包括對偶學習、神經機器翻譯和多臂賭博機),是 2016 年微軟學者獎學金獲得者之一。演講主題:利用價值網絡改進神經機器翻譯
  • 谷歌發布神經機器翻譯,翻譯質量接近筆譯人員
    據外媒報導,谷歌於昨日發布了網頁版本和移動版本的谷歌翻譯。在漢譯英的過程中,谷歌翻譯會採用全新的神經機器翻譯機制,而這個App每天要進行一千八百萬次這樣的翻譯。此外,谷歌針對這個神經機器翻譯系統的運作原理,專門發表了一篇學術論文。
  • 谷歌翻譯是如何藉助多項新興AI技術提高翻譯質量的
    自谷歌翻譯首次亮相以來的13年裡,神經機器翻譯、基於重寫的範式和設備端處理等技術的出現和改進,助力該平臺的翻譯準確性取得不小的飛躍。但直到近年,即便是最先進的翻譯支持算法也一直落後於人類的表現。谷歌以外的努力充分說明了這個問題的嚴重性——旨在使得非洲大陸的數千種語言可自動翻譯的Masakhane項目,至今還沒有走出數據收集和轉錄階段。
  • 神經機器翻譯的編碼-解碼架構有了新進展, 具體要怎麼配置?
    翻譯/  崔躍輝、葉倚青校對/  葉倚青用於循環神經網絡的編碼-解碼架構,在標準機器翻譯基準上取得了最新的成果,並被用於工業翻譯服務的核心。該模型很簡單,但是考慮到訓練所需的大量數據,以及調整模型中無數的設計方案,想要獲得最佳的性能是非常困難的。
  • 資源| 史丹福大學NLP組開放神經機器翻譯代碼庫(附論文)
    選自斯坦福機器之心編譯參與:吳攀、杜夏德近日,史丹福大學自然語言處理組(Stanford NLP)發布了一篇文章,總結了該研究組在神經機器翻譯(NMT)上的研究信息。在這篇文章中,他們還放出了在多種翻譯任務上(比如英德翻譯和英語-捷克語翻譯)實現了當前最佳結果的代碼庫(codebase)。
  • 谷歌機器翻譯取得顛覆性突破 到底幾分真假?
    如果說IBM Model1是機器翻譯的牛頓定律,那麼Seq2Seq就是機器翻譯裡的愛因斯坦相對論,Seq2Seq是谷歌在機器學習頂會NIPS的一篇論文,模型簡單漂亮,為文本生成尤其是機器翻譯打下了良好的模型基礎,所有的NMT(神經機器翻譯)均在此模型上添磚加瓦,這篇也是一樣。
  • AlphaGo 神經網絡應用於 Google 翻譯,將接近人類水平
    Google 翻譯中,讓機器翻譯更加通順流暢,表意清晰。目前該系統僅應用於中文到英文的語言對翻譯。Google 表示,新的翻譯系統簡稱為 Google 神經機器翻譯(Google Neural Machine Translation-GNMT),就某些語言而言,GNMT 錯誤率可以減少 60%。
  • 微信翻譯大型翻車現場?機器翻譯到底有哪些不確定性
    有網友發現,當翻譯中帶有caixukun的人名拼音時,微信翻譯會出現一些奇怪的中文詞語,比如👇 翻譯出來的英文大意為: 世界末日時鐘在12點3分鐘,我們正在經歷世界上的人物和戲劇性的發展,這表明我們越來越接近末日和耶穌的回歸。 哈佛大學助理教授,研究自然語言處理和計算機翻譯的Andrew Rush認為,這些神秘的翻譯結果可能和谷歌幾年前採用的「神經機器翻譯」技術有關。
  • 谷歌推出神經網絡翻譯 中譯英水平匹敵真人?
    在谷歌發表的題為《規模生產中的神經網絡機器翻譯》(A Neural Network for Machine Translation, at Production Scale)的文章中,宣布將機器學習技術納入網頁和手機APP翻譯中,從前漢譯英的尷尬局面將大為扭轉。 翻譯系統面世後,根據用戶們的測試,發現漢譯英的準確率高得驚人。
  • 多家翻譯軟體大型翻車現場?機器翻譯到底有哪些不確定性
    說到底,機器翻譯現在還是在「背」,沒見過的情況,不會像人一樣推理,缺乏對句子的真正理解能力。」小牛翻譯創始人、東北大學朱靖波老師將這種譯文與原文本意不同的現象,稱之為「跑飛」現象,他解釋到:「出現這種現象的原因是神經機器翻譯技術本質上沒有對句子進行真正的理解,所以有些時候無法保證譯文的忠實度。早期神經機器翻譯中這個問題比較嚴重,現在這個問題得到了緩解,偶爾會出現,但不常見。」
  • 機器翻譯三大核心技術原理 | AI知識科普
    核心翻譯模塊是將輸入的字符單元、序列翻譯成目標語言序列的過程,這是機器翻譯中最關鍵最核心的地方。後處理模塊是將翻譯結果進行大小寫的轉化、建模單元進行拼接,特殊符號進行處理,使得翻譯結果更加符合人們的閱讀習慣。
  • 歸功於NMT技術 Google Translate離線翻譯更精準了
    歸功於人工智慧的引入,現在谷歌翻譯在離線狀態下也能獲得更好的翻譯結果了。 在今天發表的博文中宣布,谷歌翻譯在今天的更新中為離線翻譯帶來了神經機器翻譯(NMT)技術,目前該技術已經部署到行動裝置上了。通常情況下用戶需要聯網才能使用谷歌翻譯,而現在用戶能夠獲得一定程度上的離線翻譯。當手機處於飛行模式或者離線狀態下,通過NMT技術能夠帶來更好的翻譯效果。谷歌表示即使用戶在沒有網絡的情況下也能獲得高質量的翻譯效果。這對於經常在國外出差的用戶來說無疑是個好消息,因為並非所有國家和地區都有穩定和高速的上網環境。
  • 搜狗機器翻譯團隊獲得 WMT 2017 中英機器翻譯冠軍
    Sogou NMT 在中文到英文翻譯任務中名列第一。其中,在中文到英文翻譯任務的八項評價標準中(其中四項為 BLEU 及 BLEU 的變體),獲得了七項第一。神經機器翻譯在大規模翻譯任務上第一次獲得超越統計機器翻譯(SMT)的效果不過是 2014 年的事情(著名的 RNN encoder-decoder 結構就發表在 2014 年的 EMNLP 上),如今三年過去了,機器翻譯頂級論文中已經幾乎難以見到統計機器翻譯的身影,神經機器翻譯已經成為了機器翻譯領域的主流。
  • 人工智慧再下一城:機器翻譯提前7年達到人類專業翻譯水平
    在論文中,作者表示他們解決了當前NMT範式的一些局限。 他們的研究主要貢獻包括:利用翻譯問題的對偶性(duality),使模型能夠從源語言到目標語言(Source to Target)和從目標語言到源語言(Target to Source)這兩個方向的翻譯中學習。同時,這讓我們能同時從有監督和無監督的源數據和目標數據中學習。
  • 「你打籃球像蔡徐坤」:微信翻譯這個bug是怎麼回事?
    與此同時,官方帳號@騰訊微信團隊也在微博上宣布,翻譯功能目前正在緊急修復中。截至發稿,相關語句仍然無法被微信正常翻譯。神經機器翻譯是目前機器翻譯上比較火的一項技術。我們絕大多數的大語種翻譯已經基於這個技術了,「在美國一家頂級科技公司的研究分支擔任資深研究員的王夏*告訴矽星人。」在機翻技術發展的每個階段,科研人員都會遇到一些問題。NMT 也存在一些問題,比如整個過程的可解釋性是非常低的,」他說。
  • Facebook宣布採用AI翻譯平臺內容,但你以為事情就這麼簡單嗎?
    今日,Facebook告別了原來的基於短語的翻譯系統,啟用了最新的AI驅動的神經機器(NMT)翻譯系統。雖然在NMT翻譯技術上,Facebook相比谷歌或微軟(均於去年開始使用NMT技術)略顯落後,但是對Facebook本身,這項技術可以為其翻譯的準確性帶來顯著提升。Facebook原先基於短語的翻譯系統存在的問題是,它無法從整個句子的層面去翻譯句子。
  • 深度學習在統計機器翻譯和會話中的應用 |微軟IJCAI2016演講PPT
    神經網絡在基於短語的SMT中的示例l  神經網絡作為線性模型中的組成部分   翻譯模型   預壓模型 捲曲神經網絡的使用   聯合模型 FFLM與原始詞彙l 神經機器翻譯,建立一個單獨的,大型的NN,閱讀句子並輸入翻譯。不像基於短語的系統需要很多零件模型組成。
  • 微軟提出新型通用神經機器翻譯方法,挑戰低資源語言翻譯問題
    數百萬人使用在線翻譯系統和移動應用進行跨越語言障礙的交流。在近幾年深度學習的浪潮中,機器翻譯取得了快速進步。微軟研究院近期實現了機器翻譯的歷史性裡程碑——新聞文章中英翻譯達到人類水平。這一當前最優方法是一個神經機器翻譯(NMT)系統,該系統使用了數千萬新聞領域的平行句子作為訓練數據。