百度機器翻譯五大領域實現新突破 獲WMT2019中英翻譯冠軍

2020-12-08 IT168

  8月1日,WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開。本屆大賽,百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍。

圖1 人工評價結果

  WMT全稱是Workshop on Machine Translation,是業界公認的國際頂級機器翻譯比賽之一,其中中文-英文翻譯任務是歷年參賽隊伍最多、競爭最為激烈的機器翻譯任務之一。今年中英方向參賽隊伍有來自微軟、字節跳動、金山、愛丁堡大學、東北大學、日本情報通信研究院等國內外知名機器翻譯團隊。本屆大賽,百度翻譯團隊憑藉在數據處理、模型架構、數據增強、模型集成等方面的創新性突破,最終力壓群雄,取得第一。

  本次大會的評審專家對於百度參評系統給予高度評價,「This is a very solid system paper describing a strong system in the shared evaluation」,「The techniques employed are cutting-edge」。本文對主要技術進行介紹。

圖2 百度翻譯參賽系統架構圖

  如上圖所示,數據處理模塊通過數據篩選、噪音去除、數據增強等,產生訓練數據;對於翻譯模型,從預訓練、網絡結構等方面進行改進,使模型學到更多維度、更深層次的信息。在訓練和模型集成階段,憑藉百度強大的機器學習平臺和海量的計算資源,從上百個模型中選擇不同的模型組合集成。最終,結合統計特徵和深度學習模型的特徵,通過Re-ranking算法從多個譯文候選中選擇最優的翻譯結果。

  接下來將從數據預處理、翻譯模型改進、訓練數據增強、模型集成和重排序等方面介紹百度翻譯團隊的參賽系統。

  一、數據處理

  神經網絡翻譯模型對訓練數據尤為敏感,不僅要求數據規模大,還要求數據質量高。因此,數據處理對於提升翻譯質量至關重要。針對組委會提供的雙語數據,通過fast_align進行數據清洗,fast_align可以衡量兩個句子互為翻譯的概率,從而根據翻譯概率去除低質數據。以翻譯自動評價指標BLEU衡量,清洗後的數據訓練模型提高了1.1個百分點。

  相比雙語數據,主辦方提供了更多的單語數據。採用Back Translation技術利用英語單語數據提升模型的翻譯質量。具體做法是,先用中英雙語數據訓練一個英中的翻譯系統,由英中模型將英文句子翻譯成對應的中文句子,將模型生成的中文句子和英文句子組合成雙語句對,並和真實的中英雙語句對混合作為中英模型的訓練數據。此技術可以提升翻譯質量(BLEU)0.8個百分點。

  二、翻譯模型

  目前,主流的神經網絡翻譯模型是Transformer,根據模型參數的大小可以分成base Transformer和big Transformer。其中,big Transformer具有更多的參數和更好的翻譯效果。在本次比賽中,我們基於Transformer模型,創新性地提出了三種改進的模型,顯著提升了翻譯質量,成為比賽決勝的關鍵點之一。此次改進的模型包括:

  Pre-trained Transformer: 在大規模單語語料上訓練語言模型,並以此作為翻譯模型的編碼器。

  Deeper Transformer: 加深編碼器的層數,提取更多維度特徵。

  Bigger Transformer: 增大前向網絡的隱藏節點。

圖3 改進的翻譯模型

  Pre-trained Transformer

  最近的研究表明,在大規模語料上訓練的語言模型,對其下遊任務有很顯著的提升。我們在中文數據上訓練出一個24層的Transformer語言模型,採用自編碼的訓練方法,即隨機將句子中的詞變為masked標籤,並經過24層的Transformer進行編碼,最後預測masked位置的實際的詞。以預訓練的語言模型作為翻譯模型的編碼器,在中英雙語數據上繼續訓練翻譯模型。在使用雙語數據訓練階段,預訓練語言模型(編碼器)的參數在前10000步保持不變,只更新解碼器的參數,之後編碼器和解碼器都會更新參數。

  Pre-trained Transformer相比標準的big Transformer擁有更深的encoder(從6層擴展到24層),並且經過在超大規模的中文單語數據上預訓練,可以對源語言(中文)句子提取更多的有效特徵,從而有效的提高模型的翻譯質量。從自動評價指標BLEU上看,Pre-trained Transformer相比big Transformer,顯著提升了1個百分點。

  Deeper Transformer

  更深的編碼器可以提取更多的特徵,但是對於翻譯模型的訓練而言,僅加深編碼器的層數,通常會遇到梯度消失的問題,導致模型無法正常收斂。我們提出Deeper Transformer, 在更深的編碼器中,通過增加殘差連接,即前面所有層都作為下一層的輸入,避免了梯度消失,實現了端到端的翻譯訓練。標準的base Transformer和big Transformer模型,編碼器和解碼器都是6層的。而對於採用deeper Transformer的模型, base Transformer的編碼器可以擴展到30層,big Transformer的編碼器可以擴展到15層。

  Deeper Transformer相比標準的big Transformer性能提升較少,但是在模型集成階段,加入Deeper Transformer可以顯著提升整個系統的翻譯質量,在本文後面的模型集成部分會有更詳細的介紹。

  Bigger Transformer

  此外,我們提出了Bigger Transformer,在寬度的維度上增強模型。探索了增大前向網絡節點和隱藏層節點對翻譯質量的影響,發現增大前向網絡節點可以顯著提升翻譯質量。Bigger Transformer的前向網絡節點數是15000,而標準的big Transformer的前向網絡節點數是4096。但是,更多的參數更容易在訓練過程中出現過擬合問題。 通過增大dropout的比率和label smoothing的參數避免了過擬合。相比big Transformer, Bigger Transformer提升了0.8 BLEU。

  三、數據增強

  對於單語數據,採用聯合訓練方法增強back translation生成的譯文,構造更高質量的「偽」雙語數據。首先使用中英雙語數據分別訓練中英和英中翻譯模型,中英模型將中文單語數據翻譯成英文,英中模型將英文單語數據翻譯成中文。中英模型在英中模型產生的「偽」的雙語數據上繼續訓練,英中模型在中英模型生成的「偽」的雙語數據上繼續訓練,中英和英中模型的性能都得到提升。在下一輪中,翻譯效果更好的中英、英中模型可以生成質量更高的偽數據,用來進一步提升翻譯模型。

  對於雙語數據的目標端(英文),通過英-中翻譯模型生成源端(中文)譯文,將「生成」的中文和「真實」的英文作為增強的數據混入雙語數據共同訓練中英模型。

圖4 聯合訓練流程圖

  對於雙語數據的源端(中文),採用知識蒸餾的方法,以R2L翻譯模型(從右到左的翻譯順序)和異構模型(不同結構的模型)作為「Teacher」, 生成目標端(英文)譯文,再將「真實」的中文和「生成」的英文作為增強數據,指導模型學習更多的知識。R2L翻譯模型作為「Teacher」,由於翻譯模型解碼的特性,生成的英文譯文的後部分翻譯的通常比前部分更好,通過知識蒸餾方法可以讓翻譯模型(L2R)學習到更多的句子後部信息。不同結構的翻譯模型具有不同的翻譯特性,例如,Deeper Transformer和Bigger Transformer可以作為Pre-trained Transformer的「Teacher」,指導Pre-trained Transformer學習Deeper Transformer和Bigger Transformer的特性。如下圖所示,D』表示模型生成的雙語句對,多個不同的D』組合作為模型的訓練語料。

圖5 知識蒸餾流程圖

  多種數據增強方法,不僅可以增強模型的魯棒性,還指導模型學習其他模型特有的知識,從而進一步提升翻譯效果。

  四、模型集成

  模型集成解碼可以顯著提升翻譯效果。我們使用不同的模型,在不同的數據上採用不同的策略訓練出上百個翻譯模型,以探索不同的模型集成對翻譯質量的影響。經過大量的實驗發現,相同結構的模型進行集成,即使性能都很強,但是集成的翻譯效果收益較小;而集成不同結構的模型,翻譯的效果得到了非常顯著的提升,相比最強的單系統提升了1.4 BLEU。

  五、重排序

  集成模型生成k個候選譯文,通過k-best MIRA算法學習各個特徵的權重,從而對候選譯文進一步排序,選擇最好的譯文。設計了4種特徵,可以有效的提高翻譯質量:

  1.翻譯模型特徵:集成模型生成譯文的得分和R2L模型對譯文的打分。

  2.語言模型特徵:多個語言模型和後向語言模型對譯文的打分。

  3.長度特徵:譯文和原文的長度比和長度差。

  4.加權投票特徵:計算每個譯文和其他候選譯文的BLEU,並計算其平均值。

  通過以上技術創新,相比於基線系統,我們獲得了6-7個百分點的大幅提升。作為國內最早的網際網路機器翻譯系統之一,百度翻譯在技術和產品上一直處於業界領先。早在2015年,百度翻譯就發布了全球首個神經網絡翻譯系統,並於同年獲得國家科技進步二等獎。通過不斷的技術創新,翻譯質量保持業界領先。在剛剛過去的百度開發者大會上,發布了業界首個端到端的同傳翻譯小程序,為用戶提供沉浸式同傳體驗。隨著技術的不斷進步與發展,機器翻譯將在跨越語言鴻溝中發揮越來越大的作用。

  百度自然語言處理(Natural Language Processing,NLP)以『理解語言,擁有智能,改變世界』為使命,研發自然語言處理核心技術,打造領先的技術平臺和創新產品,服務全球用戶,讓複雜的世界更簡單。


相關焦點

  • 百度機器翻譯團隊獲得WMT2019中英翻譯冠軍
    8月1日,WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開。本屆大賽,百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍。,其中中文-英文翻譯任務是歷年參賽隊伍最多、競爭最為激烈的機器翻譯任務之一。
  • 搜狗機器翻譯團隊獲得 WMT 2017 中英機器翻譯冠軍
    搜狗語音交互技術中心代表搜狗參加了這次含金量極高的比賽,該中心研發的搜狗神經網絡機器翻譯(Sogou Neural Machine Translation)系統在「中文-英文」機器翻譯任務中獲得了冠軍。這個系統採用了哪些新方法、新結構,又為我們提供了哪些新思路?讓我們結合論文聊一聊 Sogou NMT。WMT 是機器翻譯領域的國際頂級評測比賽之一。
  • 微信AI首次奪冠WMT2020國際機器翻譯大賽中英方向
    作為全球學術界最具權威的機器翻譯比賽,近日,WMT2020國際機器翻譯大賽的榜單停止提交結果並發布排名,其中騰訊微信AI團隊在「中文-英文」翻譯任務上奪得冠軍。提交結果BLEU評分第一,微信AI斬獲中英翻譯方向冠軍WMT 是機器翻譯領域的國際頂級評測比賽之一,自2006年創辦至今,WMT已經成功舉辦15屆。大賽每年都吸引了眾多來自全球的企業、科研機構和高校所組成的頂尖團隊,包括微軟、Facebook、百度、金山、日本情報通信研究機構(NICT)。
  • WMT2017國際翻譯大賽,搜狗獲得中英/英中翻譯雙向冠軍
    語音翻譯,無疑是一個很好的突破口。擁有深度學習算法的加成,人工智慧讓機器學習變得更加「聰明」,足以打破語言文化的交流壁壘。從這一點來看,中國的科技公司已是佔據了領先地位。擁有語音技術積累的搜狗知音,在前幾天的WMT 2017國際評測中,獲得中英和英中翻譯雙向冠軍,機器翻譯的準確率和速度震動了整個業界。搜狗,已經跑在了人工智慧隊伍的前列。
  • 搜狗獲WMT2017國際翻譯大賽雙向冠軍 可滿足多種場景下的實時翻譯...
    搜狗獲WMT2017國際翻譯大賽雙向冠軍 可滿足多種場景下的實時翻譯需求 每日經濟新聞 2017-09-19 00
  • 百度機器翻譯獲國家科技進步獎
    項目負責人、百度技術副總裁海峰從1993年初開始從事機器翻譯領域研究工作,最終藉助百度強大的海量計算平臺和豐富的海量網際網路數據處理經驗,讓機器翻譯從理論走向實踐。   據王海峰介紹,得益於百度在自然語言處理上的領先技術優勢與不懈的創新努力,此次由百度與中科院自動化所、計算所、浙江大學、哈爾濱工業大學、清華大學共同研發的「基於大數據的網際網路機器翻譯核心技術及產業化」項目,突破了機器翻譯領域內的四大世界難題:提出基於大數據的網際網路機器翻譯模型,快速響應高負荷翻譯需求; 基於大數據的翻譯知識獲取,克服語言數據噪聲問題; 通過深度語義分析和翻譯技術
  • 百度大腦開放日召開機器翻譯專場 百度AI同傳翻譯性能可媲美人類
    機器翻譯作為人工智慧關鍵技術之一,正日益成為企業智能化升級的重要應用場景。12月1日,百度大腦開放日舉辦了以「機器翻譯 溝通全世界」為主題的專場活動。
  • 百度機器翻譯獲2015年度國家科技進步二等獎(圖)
    國家科學技術獎勵授予在各個領域實現重大技術突破、做出創造性貢獻的中國公民和組織,此前獲獎的「載人航天」、「探月工程」、「青藏鐵路」等成果舉世矚目、彪炳史冊。百度機器翻譯項目在大會上被授予國家科技進步獎,成為BAT中首個獲此獎項的企業。機器翻譯是人工智慧領域最難的課題之一。1947年,機器翻譯步入歷史舞臺,50年代機器翻譯研究持續升溫,美國、前蘇聯等國家均出現了研究熱潮。
  • 中到英新聞翻譯媲美人類,微軟機器翻譯新突破
    今日,微軟研究團隊表示,微軟和微軟亞研創造了首個在質量與準確率上匹配人類水平的中英新聞機器翻譯系統。黃學東告訴機器之心,他們採用專業人類標註與盲測評分代替 BLEU 分值而具有更高的準確性,且新系統相比於現存的機器翻譯系統有非常大的提升。因此,根據人類盲測評分,微軟機器翻譯取得了至少和專業翻譯人員相媲美的效果。
  • 機器翻譯應用價值凸顯 百度翻譯豐富產品矩陣助力企業智能化升級
    機器翻譯作為人工智慧關鍵技術之一,正日益成為企業智能化升級的重要應用場景。12月1日,百度大腦開放日舉辦了以「機器翻譯 溝通全世界」為主題的專場活動。自2010年以來,百度翻譯在大規模產業化機器翻譯模型、海量翻譯知識獲取、多語言翻譯統一框架、機器同聲傳譯等方面進行了系統而深入的研究,取得重大技術突破,研製了具有完全自主智慧財產權、技術先進、功能豐富的機器翻譯系統,實時準確地響應全球海量複雜多樣的翻譯請求。
  • 機器翻譯七十年:百度領跑神經網絡翻譯時代
    近兩年,神經網絡機器翻譯(Neural Machine Translation, NMT)技術異軍突起,取得了翻譯質量的大幅躍升。12月21日,在百度機器翻譯技術開放日上,百度技術委員會聯席主席、自然語言技術負責人吳華博士表示,基於領先的人工智慧、神經網絡以及自然語言處理技術,百度早在1年多以前就率先發布了世界上首個網際網路NMT系統,引領機器翻譯進入神經網絡翻譯時代。
  • 人工智慧領域突破百度發布在線翻譯系統
    日前,百度在機器翻譯技術上取得重大突破,發布了融合統計和深度學習方法的在線翻譯系統。該系統藉助海量計算機模擬的神經元,模仿人腦「理解語言,生成譯文」,同時結合百度已有的統計機器翻譯技術,使得機器翻譯質量實現了質的飛躍。百度,再一次站到網際網路前沿技術的領先位置。  機器翻譯一直被公認為是人工智慧領域最難的課題之一。
  • 全球首個突破200種語言互譯的翻譯引擎 百度翻譯打破世界溝通壁壘
    而基於神經網絡機器翻譯NMT( Neural Machine Translation )技術已成為主流,伴隨著翻譯規模化的需求,機器翻譯在保障流暢性和準確性的同時也將越來越實時化,並為大中小企業及個人提供不同的部署服務。何中軍在會上詳解了機器翻譯技術的發展歷程,並通過一系列實際應用場景案例,詳解了百度翻譯全面的產品布局和服務方式。
  • 2020國際機器翻譯大賽:火山翻譯力奪五項冠軍
    在11月下旬結束的自然語言處理頂級學術會議EMNLP2020上,國際機器翻譯大賽(WMT20)公布了賽事最終結果,來自字節跳動火山引擎旗下的火山翻譯(Volctrans)在39支參賽隊伍中殺出重圍,以顯著優勢在「中文-英語」語向翻譯項目上拿下了冠軍。
  • AI 如何成為百度翻譯 DAU 高速增長的引擎?
    2010 年代,隨著深度神經網絡在圖像、語音領域的突破,以 Google、百度、微軟為代表的科技巨頭,開始將神經網絡引入機器翻譯系統中,無論是在實驗室還是工業落地的產品上,都取得非常不錯的結果,由此也將機器翻譯帶入到神經網絡翻譯的新時代。
  • 百度翻譯上新!桌面端1.0讓工作學習「輕+快」
    但由於信息渠道多樣,在翻譯過程中需頻繁切換工具,導致信息翻譯速度和理解效率低下,這也成為當前電腦工作、學習時使用翻譯的痛點。近日,百度翻譯全新發布桌面端1.0,支持200多個語種互譯,內含海量中英詞典,並重磅推出「極簡模式」、「劃譯」與「快捷鍵發起翻譯」三大核心功能,盡顯其「輕·快」特性,幫助用戶即時翻譯陌生詞句,高效便捷地理解、獲取信息。
  • 百度翻譯打造「翻譯雞」打破溝通壁壘 榮獲世界級設計大獎
    "吉(ji)"同音,代表中國人對"吉祥如意"生活的嚮往;形容雞「破殼而出」的這種力量,也很好地投射出了人類對打破語言溝通障礙,實現跨語言溝通的迫切渴望;所以,取「JI」諧音,以「雞」為品牌IP,體現了"百度翻譯"致力於幫助用戶打破跨語言溝通障礙、追求美好生活的願景。
  • 百度翻譯打造定製化翻譯服務、AI同傳等全產品矩陣 企業效率工具擔當
    而基於神經網絡機器翻譯NMT( Neural Machine Translation )技術已成為主流,伴隨著翻譯規模化的需求,機器翻譯在保障流暢性和準確性的同時也將越來越實時化,並為大中小企業及個人提供不同的部署服務。何中軍在會上詳解了機器翻譯技術的發展歷程,並通過一系列實際應用場景案例,詳解了百度翻譯全面的產品布局和服務方式。
  • 人工智慧再下一城:機器翻譯提前7年達到人類專業翻譯水平
    10月16日收集的谷歌翻譯商用系統;Sogou是搜狗NMT翻譯系統,這是在2017年WMT中英機器翻譯競賽的冠軍。突破當前神經機器翻譯範式局限,性能再上一個數量級為了能夠取得中-英翻譯的裡程碑式突破,來自微軟亞洲研究院和雷德蒙研究院的三個研究組,進行了跨越中美時區、跨越研究領域的聯合創新。
  • 出海記|臺媒稱百度AI即時翻譯工具實現突破:挑戰谷歌
    據臺灣中時電子報網站10月24日報導,許多在線翻譯服務允許用戶說或寫一句話,但翻譯的過程會延遲。相比之下,百度即時翻譯工具可以在句子說出來的同時進行翻譯。該產品是百度的一大突破,在過去幾年將重金投資人工智慧,希望構建公司的未來業務。