攻下號稱最難的WMT2019中英翻譯任務!百度機器翻譯團隊登頂

2020-12-13 太平洋電腦網

8月1日WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開本屆大賽百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍

圖1  人工評價結果

WMT全稱是Workshop on Machine Translation是業界公認的國際頂級機器翻譯比賽之一其中中文-英文翻譯任務是歷年參賽隊伍最多競爭最為激烈的機器翻譯任務之一今年中英方向參賽隊伍有來自微軟字節跳動金山愛丁堡大學東北大學日本情報通信研究院等國內外知名機器翻譯團隊本屆大賽百度翻譯團隊憑藉在數據處理模型架構數據增強模型集成等方面的創新性突破最終力壓群雄取得第一

本次大會的評審專家對於百度參評系統給予高度評價This is a very solid system paper describing a strong system in the shared evaluationThe techniques employed are cutting-edge本文對主要技術進行介紹

圖2 百度翻譯參賽系統架構圖

如上圖所示數據處理模塊通過數據篩選噪音去除數據增強等產生訓練數據對於翻譯模型從預訓練網絡結構等方面進行改進使模型學到更多維度更深層次的信息在訓練和模型集成階段憑藉百度強大的機器學習平臺和海量的計算資源從上百個模型中選擇不同的模型組合集成最終結合統計特徵和深度學習模型的特徵通過Re-ranking算法從多個譯文候選中選擇最優的翻譯結果

接下來將從數據預處理翻譯模型改進訓練數據增強模型集成和重排序等方面介紹百度翻譯團隊的參賽系統

數據處理

神經網絡翻譯模型對訓練數據尤為敏感不僅要求數據規模大還要求數據質量高因此數據處理對於提升翻譯質量至關重要針對組委會提供的雙語數據通過fast_align進行數據清洗fast_align可以衡量兩個句子互為翻譯的概率從而根據翻譯概率去除低質數據以翻譯自動評價指標BLEU衡量清洗後的數據訓練模型提高了1.1個百分點

相比雙語數據主辦方提供了更多的單語數據採用Back Translation技術利用英語單語數據提升模型的翻譯質量具體做法是先用中英雙語數據訓練一個英中的翻譯系統由英中模型將英文句子翻譯成對應的中文句子將模型生成的中文句子和英文句子組合成雙語句對並和真實的中英雙語句對混合作為中英模型的訓練數據此技術可以提升翻譯質量(BLEU)0.8個百分點

翻譯模型

目前主流的神經網絡翻譯模型是Transformer根據模型參數的大小可以分成base Transformer和big Transformer其中big Transformer具有更多的參數和更好的翻譯效果在本次比賽中我們基於Transformer模型創新性地提出了三種改進的模型顯著提升了翻譯質量成為比賽決勝的關鍵點之一此次改進的模型包括

Pre-trained Transformer: 在大規模單語語料上訓練語言模型並以此作為翻譯模型的編碼器

Deeper Transformer: 加深編碼器的層數提取更多維度特徵

Bigger Transformer: 增大前向網絡的隱藏節點 

圖3 改進的翻譯模型

Pre-trained Transformer

最近的研究表明在大規模語料上訓練的語言模型對其下遊任務有很顯著的提升我們在中文數據上訓練出一個24層的Transformer語言模型採用自編碼的訓練方法即隨機將句子中的詞變為masked標籤並經過24層的Transformer進行編碼最後預測masked位置的實際的詞以預訓練的語言模型作為翻譯模型的編碼器在中英雙語數據上繼續訓練翻譯模型在使用雙語數據訓練階段預訓練語言模型編碼器的參數在前10000步保持不變只更新解碼器的參數之後編碼器和解碼器都會更新參數

Pre-trained Transformer相比標準的big Transformer擁有更深的encoder從6層擴展到24層並且經過在超大規模的中文單語數據上預訓練可以對源語言中文句子提取更多的有效特徵從而有效的提高模型的翻譯質量從自動評價指標BLEU上看Pre-trained Transformer相比big Transformer顯著提升了1個百分點

Deeper Transformer

更深的編碼器可以提取更多的特徵但是對於翻譯模型的訓練而言僅加深編碼器的層數通常會遇到梯度消失的問題導致模型無法正常收斂我們提出Deeper Transformer, 在更深的編碼器中通過增加殘差連接即前面所有層都作為下一層的輸入避免了梯度消失實現了端到端的翻譯訓練標準的base Transformer和big Transformer模型編碼器和解碼器都是6層的而對於採用deeper Transformer的模型, base Transformer的編碼器可以擴展到30層big Transformer的編碼器可以擴展到15層

Deeper Transformer相比標準的big Transformer性能提升較少但是在模型集成階段加入Deeper Transformer可以顯著提升整個系統的翻譯質量在本文後面的模型集成部分會有更詳細的介紹

Bigger Transformer

此外我們提出了Bigger Transformer在寬度的維度上增強模型探索了增大前向網絡節點和隱藏層節點對翻譯質量的影響發現增大前向網絡節點可以顯著提升翻譯質量Bigger Transformer的前向網絡節點數是15000而標準的big Transformer的前向網絡節點數是4096但是更多的參數更容易在訓練過程中出現過擬合問題 通過增大dropout的比率和label smoothing的參數避免了過擬合相比big Transformer, Bigger Transformer提升了0.8 BLEU

數據增強

對於單語數據採用聯合訓練方法增強back translation生成的譯文構造更高質量的雙語數據首先使用中英雙語數據分別訓練中英和英中翻譯模型中英模型將中文單語數據翻譯成英文英中模型將英文單語數據翻譯成中文中英模型在英中模型產生的的雙語數據上繼續訓練英中模型在中英模型生成的的雙語數據上繼續訓練中英和英中模型的性能都得到提升在下一輪中翻譯效果更好的中英英中模型可以生成質量更高的偽數據用來進一步提升翻譯模型

對於雙語數據的目標端英文通過英-中翻譯模型生成源端中文譯文生成的中文和真實的英文作為增強的數據混入雙語數據共同訓練中英模型

圖4 聯合訓練流程圖

對於雙語數據的源端中文採用知識蒸餾的方法以R2L翻譯模型(從右到左的翻譯順序)和異構模型(不同結構的模型)作為Teacher, 生成目標端英文譯文再將真實的中文和生成的英文作為增強數據指導模型學習更多的知識R2L翻譯模型作為Teacher由於翻譯模型解碼的特性生成的英文譯文的後部分翻譯的通常比前部分更好通過知識蒸餾方法可以讓翻譯模型L2R學習到更多的句子後部信息不同結構的翻譯模型具有不同的翻譯特性例如Deeper Transformer和Bigger Transformer可以作為Pre-trained Transformer的Teacher指導Pre-trained Transformer學習Deeper Transformer和Bigger Transformer的特性如下圖所示D』表示模型生成的雙語句對多個不同的D』組合作為模型的訓練語料 

圖5 知識蒸餾流程圖

多種數據增強方法不僅可以增強模型的魯棒性還指導模型學習其他模型特有的知識從而進一步提升翻譯效果

模型集成

模型集成解碼可以顯著提升翻譯效果我們使用不同的模型在不同的數據上採用不同的策略訓練出上百個翻譯模型以探索不同的模型集成對翻譯質量的影響經過大量的實驗發現相同結構的模型進行集成即使性能都很強但是集成的翻譯效果收益較小而集成不同結構的模型翻譯的效果得到了非常顯著的提升相比最強的單系統提升了1.4 BLEU

重排序

集成模型生成k個候選譯文通過k-best MIRA算法學習各個特徵的權重從而對候選譯文進一步排序選擇最好的譯文設計了4種特徵可以有效的提高翻譯質量

1.翻譯模型特徵集成模型生成譯文的得分和R2L模型對譯文的打分

2.語言模型特徵多個語言模型和後向語言模型對譯文的打分

3.長度特徵譯文和原文的長度比和長度差

4.加權投票特徵計算每個譯文和其他候選譯文的BLEU並計算其平均值

通過以上技術創新相比於基線系統我們獲得了6-7個百分點的大幅提升作為國內最早的網際網路機器翻譯系統之一百度翻譯在技術和產品上一直處於業界領先早在2015年百度翻譯就發布了全球首個神經網絡翻譯系統並於同年獲得國家科技進步二等獎通過不斷的技術創新翻譯質量保持業界領先在剛剛過去的百度開發者大會上發布了業界首個端到端的同傳翻譯小程序為用戶提供沉浸式同傳體驗隨著技術的不斷進步與發展機器翻譯將在跨越語言鴻溝中發揮越來越大的作用

百度自然語言處理Natural Language ProcessingNLP以『理解語言擁有智能改變世界』為使命研發自然語言處理核心技術打造領先的技術平臺和創新產品服務全球用戶讓複雜的世界更簡單

相關焦點

  • 百度機器翻譯團隊獲得WMT2019中英翻譯冠軍
    8月1日,WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開。本屆大賽,百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍。圖1 人工評價結果WMT全稱是Workshop on Machine Translation,是業界公認的國際頂級機器翻譯比賽之一,其中中文-英文翻譯任務是歷年參賽隊伍最多、競爭最為激烈的機器翻譯任務之一
  • 百度機器翻譯五大領域實現新突破 獲WMT2019中英翻譯冠軍
    8月1日,WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開。本屆大賽,百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍。圖1 人工評價結果  WMT全稱是Workshop on Machine Translation,是業界公認的國際頂級機器翻譯比賽之一,其中中文-英文翻譯任務是歷年參賽隊伍最多、競爭最為激烈的機器翻譯任務之一
  • 搜狗機器翻譯團隊獲得 WMT 2017 中英機器翻譯冠軍
    從去年開始,WMT 正式從一個研討會(workshop)變成了一項會議(conference),作為自然語言領域頂級會議 ACL 或 EMNLP 的分會,延續競賽的性質,擴展任務的範圍以及語言對的數量。今年的 WMT 2017 將跟隨 EMNLP 一起在 9 月舉行。作為新聞機器翻譯任務的 7 個語言對之一,中英語言對首次出現在比賽任務中,並由南京大學、廈門大學、中科院等機構聯合協助提供相關數據。
  • WMT 2019國際機器翻譯大賽:微軟亞洲研究院以7項第一成為冠軍
    Machine Translation (http://www.statmt.org/wmt19/),是全球學術界公認的國際頂級機器翻譯比賽。在本屆 WMT 2019 大賽中(http://www.statmt.org/wmt19/translation-task.html),共有來自全球的 50 多支隊伍參加,包括微軟、Facebook、百度、字節跳動、平安、日本情報通信研究機構(NICT)等企業、科研機構和高校。
  • 斬獲WMT2020國際機器翻譯大賽中英方向第一名
    來源:經濟日報-中國經濟網經濟日報-中國經濟網北京7月9日訊 作為全球學術界最具權威的機器翻譯比賽,近日,WMT2020國際機器翻譯大賽的榜單停止提交結果並發布排名,其中騰訊微信AI團隊在「中文-英文」翻譯任務上奪得冠軍。
  • WMT國際機器翻譯大賽結果流出,微信AI拔得頭籌
    作為全球學術界最具權威的機器翻譯比賽,近日,WMT2020國際機器翻譯大賽的榜單停止提交結果並發布排名,其中騰訊微信AI團隊在「中文-英文」翻譯任務上奪得冠軍。 大賽每年都吸引了眾多來自全球的企業、科研機構和高校所組成的頂尖團隊,包括微軟、Facebook、百度、金山、日本情報通信研究機構(NICT)。在賽制上,組委會根據中英、英中、中日等不同翻譯任務提供測試集,參賽者在線提交機器翻譯結果,組委會將根據在國際上具有廣泛認可度的BLEU自動評估指標對參賽者提交的機器譯文和標準答案進行擬合計算,擬合程度高者排在前面。
  • WMT2018國際翻譯大賽 騰訊翻譯君獲得中英翻譯冠軍
    央廣網科技5月23日消息 今天,騰訊翻譯君在WMT2018國際翻譯大賽上獲得中英翻譯冠軍。WMT,全稱Workshop on Machine Translation,是由來自歐洲和美國的高校、研究機構的研究人員聯合舉辦的業界公認的國際頂級機器翻譯比賽之一。
  • WMT2018國際翻譯大賽,騰訊翻譯君獲得中英翻譯冠軍
    【獵雲網成都】5月21日報導5月23日,騰訊翻譯君在WMT2018國際翻譯大賽上獲得中英翻譯冠軍。WMT,全稱Workshop on Machine Translation,是由來自歐洲和美國的高校、研究機構的研究人員聯合舉辦的業界公認的國際頂級機器翻譯比賽之一。
  • WMT2017國際翻譯大賽,搜狗獲得中英/英中翻譯雙向冠軍
    語音翻譯,無疑是一個很好的突破口。擁有深度學習算法的加成,人工智慧讓機器學習變得更加「聰明」,足以打破語言文化的交流壁壘。從這一點來看,中國的科技公司已是佔據了領先地位。擁有語音技術積累的搜狗知音,在前幾天的WMT 2017國際評測中,獲得中英和英中翻譯雙向冠軍,機器翻譯的準確率和速度震動了整個業界。搜狗,已經跑在了人工智慧隊伍的前列。
  • MT國際機器翻譯大賽結果流出 微信AI在中英方向拔得頭籌
    【TechWeb】7月7日消息,近日,WMT2020國際機器翻譯大賽的榜單停止提交結果並發布排名,其中騰訊微信AI團隊在「中文-英文」翻譯任務上奪得冠軍。WMT是機器翻譯領域的國際頂級評測比賽之一,自2006年創辦至今,WMT已經成功舉辦15屆。
  • 百度何中軍:機器翻譯——從設想到大規模應用
    第二是算力,最開始計算機是由電子管、電晶體為材料製造的,隨著技術發展,到統計機器翻譯時代,主力算力是CPU集群,神經網絡翻譯時代主力算力則是GPU集群。第三是數據,最開始的時候人們通過構建規則以及利用字典進行翻譯,網際網路出現以後產生了大規模的數據,人們開始使用這些自動採集的大數據來訓練機器翻譯系統,近年來又引入了行業優質垂類數據來進一步優化翻譯系統。
  • 同聲翻譯要失業了!微軟剛剛宣布:中英機器翻譯可與人類媲美
    機器翻譯是自然語言處理領域最具挑戰性的研究任務之一。跨時區跨領域合作微軟技術院士,負責微軟語音、自然語言和機器翻譯工作的黃學東稱,「這是對自然語言處理領域最具挑戰性任務的一項重大突破。在機器翻譯方面達到與人類相同的水平是所有人的夢想,我們沒有想到這麼快就能實現。」
  • 基於PaddlePaddle的機器翻譯教程 | 深度學習基礎任務系列
    將深度學習應用於機器翻譯任務的方法大致分為兩類:仍以統計機器翻譯系統為框架,只是利用神經網絡來改進其中的關鍵模塊,如語言模型、調序模型等(見圖1的左半部分);不再以統計機器翻譯系統為框架,而是直接用神經網絡將源語言映射到目標語言,即端到端的神經網絡機器翻譯(End-to-EndNeuralMachineTranslation
  • 機器翻譯新突破,微軟中英新聞翻譯達人類水平
    微軟亞洲研究院副院長、自然語言計算組負責人周明表示:「這也是為什麼機器翻譯比純粹的模式識別任務複雜得多,人們可能用不同的詞語來表達完全相同的意思,但未必能準確判斷哪一個更好。」這也是為什麼科研人員在機器翻譯上攻堅了數十年,甚至曾經很多人都認為機器翻譯永遠不可能達到人類翻譯的水平。
  • 騰訊微信AI首次奪冠WMT2020國際機器翻譯大賽中英方向
    文/福布斯中國近日,作為全球學術界最具權威的機器翻譯比賽, WMT2020國際機器翻譯大賽的榜單停止提交結果並發布排名
  • 微軟宣布重大裡程碑:中英機器翻譯可與人類媲美
    【環球網科技 記者 林迪】日前,環球網科技記者從微軟亞洲研究院官網了解到,其研究團隊對外宣布,最新研發的機器翻譯系統在通用新聞報導測試集newstest2017的中-英測試集上,達到了可與人工翻譯媲美的水平。
  • 百度大腦開放日召開機器翻譯專場 百度AI同傳翻譯性能可媲美人類
    機器翻譯作為人工智慧關鍵技術之一,正日益成為企業智能化升級的重要應用場景。12月1日,百度大腦開放日舉辦了以「機器翻譯 溝通全世界」為主題的專場活動。而基於神經網絡機器翻譯NMT( Neural Machine Translation )技術已成為主流,伴隨著翻譯規模化的需求,機器翻譯在保障流暢性和準確性的同時也將越來越實時化,並為大中小企業及個人提供不同的部署服務。何中軍在會上詳解了機器翻譯技術的發展歷程,並通過一系列實際應用場景案例,詳解了百度翻譯全面的產品布局和服務方式。
  • 又一裡程碑:微軟宣布中英機器翻譯達到人類水平
    為了確保翻譯結果準確且達到人類的翻譯水平,微軟研究團隊邀請了雙語語言顧問將微軟的翻譯結果與兩個獨立的人工翻譯結果進行了比較評估。微軟技術院士,負責微軟語音、自然語言和機器翻譯工作的黃學東稱,這是對自然語言處理領域最具挑戰性任務的一項重大突破。「在機器翻譯方面達到與人類相同的水平是所有人的夢想,我們沒有想到這麼快就能實現。」
  • 一文看懂我國機器翻譯發展情況及BAT、科大訊飛等機器翻譯格局分析
    各大BAT等公司相繼推出自己的翻譯系統,以及一些新興的高新技術企業共同構成了我國機器翻譯的競爭格局,下面一起來了解一下我國機器翻譯企業的基本情況吧!1.百度2010年初,百度組建了機器翻譯核心研發團隊。2011年6月30日,百度機器翻譯服務正式上線,目前支持28種語言的互譯。
  • 機器翻譯七十年:百度領跑神經網絡翻譯時代
    中新網12月22日電 機器翻譯距今已有70年的發展歷史。自上世紀40年代起,基於規則、實例以及統計的機器翻譯方法漸次登場,各領風騷。近兩年,神經網絡機器翻譯(Neural Machine Translation, NMT)技術異軍突起,取得了翻譯質量的大幅躍升。