參與:李澤南
機器翻譯是自然語言處理的重要組成部分,其目的是使用計算機自動將文本翻譯成其他語言的形式。近年來,端到端的神經機器翻譯發展迅速,已經成為機器翻譯系統的新主流。近日,清華大學自然語言處理組發布了機器翻譯工具包 THUMT,為業內人士的研究和開發工作提供了便利。
工具連結:http://thumt.thunlp.org/
THUMT 是用於神經機器翻譯的開源工具包,構建於 Theano 之上,它具有以下特點:
基於 Attention 的翻譯模型:THUMT 應用了標準的 attention 編碼器-解碼器框架。最小風險訓練:除了標準最大似然估計(MLE)之外,THUMT 還支持最小風險訓練(MRT),其目的是找到一組模型參數,以最小化使用訓練數據評估指標(如 BLEU)計算的預期損失。使用單一語言語料庫:THUMT 為 NMT 提供了半監督訓練(SST)能力,能夠利用豐富的單語語料庫資源來改善源-目標和目標-源 NMT 模型的學習。可視化:為了讓人們了解 NMT 的內部工作機制,THUMT 提供了一個可視化工具來展示運行的每個中間狀態,以及相關語境之間的相關性。
論文:THUMT: An Open Source Toolkit for Neural Machine Translation
論文連結:https://arxiv.org/pdf/1706.06415.pdf
該論文介紹了清華大學自然語言處理小組開發的 THUMT 神經機器翻譯開源工具包。THUMT 在 Theano 上層實現了標準的基於注意的編碼器-解碼器框架,並且支持三種訓練標準:最大似然估計、最小風險訓練和半監督訓練。它的特點是有一個可視化工具,演示神經網絡和語境單詞隱藏態間的關聯,從而幫助分析 NMT 的內部工作機制。在中英數據集上的實驗顯示 THUMT 使用最小風險訓練極大的超越了 GroundHog 的表現,它也是 NMT 的一個頂尖工具包。
THUMT 實現的模型是標準的基於注意的 NMT 模型 (Bahdanau et al., 2015),在 Theano 之上 (Bergstra et al., 2010)。
THUMT 支持三個優化器:
SGD:標準隨機梯度下降,具有固定學習速率。Adadelta(Zeiler,2012):根據歷史,隨時間動態調整學習速率。Adam(Kingma and Ba, 2015):為每個參數計算不同的學習速率。THUMT 使用修正版本的 Adam 來解決 NaN 問題。
圖 1:神經機器翻譯的可視化
表 1:GroundHog 和 THUMT 之間的對比
表 2:MLE 和 SST 之間的對比
表 3:替代未知單詞的效果
表 4:MLE、MRT、SST 訓練時間對比
在該工具發布的論文中,研究人員已證明最小風險訓練可以提高最大似然估計的效果,同時,半監督訓練能夠利用單一語言語料庫來改善缺乏資源的翻譯任務。