由中山大學,中國科技大學,微軟中國和廣東信息安全技術重點實驗室近日發表論文《Adversarial Neural Machine Translation-對抗式神經機器翻譯》,雷鋒網做了整理和編譯,未經雷鋒網許可不得轉載。
在2014年由Bahdanau等人提出的神經機器翻譯(NMT)近幾年獲得了學術和工業領域越來越多的關注。這種新式的翻譯方法與傳統的基於統計數據的翻譯機制(SMT)相比,可以獲得更好的翻譯質量。但是,其翻譯結果還遠遠沒有達到人類對機器翻譯的期待,基於NMT的研究還有很長的路要走。在研究領域,學者們使用的傳統NMT通常運用最大接近預測機制(MLE),使用翻譯原文段落和句子進行訓練。但是,這種翻譯方式並不能做到最為自然和準確的翻譯效果。儘管基於這種理論方法還有很多的科學研究,但是用機理上看,這樣的方式並不能從根本上使機器翻譯進步和提高到無限接近人類水平。
這篇論文介紹了一種新的基於神經機器翻譯的應用,結合近期行業內很火的生成對抗網絡GANs,使用GANs的思路架構進行訓練,從而實現的新方法,稱為對抗式神經機器翻譯。與目前熟知的大多數機器算法不同的是,通過這種方法的機器翻譯,不是通過將機器訓練的無限接近人,而是通過儘量減少人與機器之間的不同得以實現。在對抗式神經機器翻譯中,訓練的模型是由一種具備對抗性質的卷積神經網絡(CNN)構成的。鑑別器會將翻譯的結果和真實人類的翻譯結果進行區分。生成器(NMT模型)會生成高質量的翻譯結果來迷惑鑑別器。方法中還運用了梯度策略同時訓練NMT模型和對抗網絡。
論文中使用了英語法語翻譯和德語英語翻譯進行實驗,En→Fr資料庫由WMT 2014訓練語料庫構成, news-test 2012,news-test 2013作為開發組,news-test 2014作為測試組。該數據體量大約有12M,有6K和3K的句子對,最長的句子允許有50個字母。訓練使用了30K最多使用的英語和法語單詞。並將未出現的單詞標誌為UNK。並將未出現的單詞標誌為UNK。
Ge→En資料庫用了IWSLT 2014評估大賽的開源數據,體量大約為153k,有7k和6.5k雙語句子對,最長的句子長度也設置為50。訓練使用了包括22822個和32009個最常使用的英語和德語單詞的語料庫。
論文中對比了多個翻譯方法的結果。從上圖的表格中可以看到,通過對抗式神經機器翻譯相對於其他規範方法取得了更好的翻譯效果。特別是通過對抗式神經機器翻譯的方法,模型學習到了更好的詞彙量,更深的網絡,更大的單語種語料庫並取得了最大BLEU值。
原文連結:https://arxiv.org/pdf/1704.06933.pdf ,雷鋒網(公眾號:雷鋒網)
雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。