WMT 2019國際機器翻譯大賽:微軟亞洲研究院以7項第一成為冠軍

2020-12-12 雷鋒網

雷鋒網(公眾號:雷鋒網) AI 科技評論按,近日,由國際計算語言學協會 ACL(The Association for Computational Linguistics)舉辦的 WMT 2019 國際機器翻譯比賽的客觀評測結果揭曉,微軟亞洲研究院機器學習組在參加的 11 項機器翻譯任務中,有 7 項獲得了第一名,另外 4 項獲得第二名。

圖片來自大賽網站,橫向為源語種,縱向為目標語種

7項任務獲第一,4項任務獲第二

WMT 的全稱為 Conference on Machine Translation (http://www.statmt.org/wmt19/),是全球學術界公認的國際頂級機器翻譯比賽。自 2006 年至今,WMT 機器翻譯比賽已經成功舉辦 14 屆,每一次比賽都是全球各大高校、科技公司與學術機構展示自身機器翻譯實力的較量,更是見證了機器翻譯技術的不斷進步。

在本屆 WMT 2019 大賽中(http://www.statmt.org/wmt19/translation-task.html),共有來自全球的 50 多支隊伍參加,包括微軟、Facebook、百度、字節跳動、平安、日本情報通信研究機構(NICT)等企業、科研機構和高校。大賽共設置了 19 項不同語言之間的翻譯任務,微軟亞洲研究院參加了 11 項,其中 7 項翻譯任務獲第一,包括:德語-英語、德語-法語、法語-德語、中文-英語、英語-立陶宛語、英語-芬蘭語、俄語-英語。另外 4 項任務獲得第二,包括:英語-德語、立陶宛語-英語、芬蘭語-英語、英語-哈薩克語。來自微軟的另外一支團隊則在英語-德語的任務上獲得了第一名。

結果顯示,此次大賽的亞軍團隊在 3 項任務中獲得了第一,季軍團隊則有兩項獲得第一,來自微軟亞洲研究院的神經網絡機器翻譯算法的表現遙遙領先於其他參賽隊伍。

機器翻譯算法改進

2018 年 3 月,由微軟亞洲研究院與微軟雷德蒙研究院共同研發的機器翻譯系統便在 WMT 2017 大會上發布的通用新聞報導測試 newstest2017 機器翻譯系統融合了微軟亞洲研究院機器學習組的最近研究成果——對偶學習(Dual Learning)和推敲網絡(Deliberation Networks),以及自然語言計算組的最新技術——聯合訓練(Joint Training)和一致性規範(Agreement Regularization)。

在 WMT 2019 的比賽中,微軟亞洲研究院機器學習組再次將多個創新的算法運用在了機器翻譯的任務中,從學習機制、預訓練、網絡架構優化、數據增強等方面,提升了機器翻譯結果的質量。

此次使用的創新算法包括:

  • MADL:Multi-agent dual learning,多體對偶學習

  • MASS:Masked sequence to sequence pre-training,屏蔽序列到序列的預訓練

  • NAO:Automatic neural architecture optimization,自動神經網絡架構優化

  • SCA:Soft contextual data augmentation,軟性上下文數據增強

其中,關於 NAO 的論文已被 NIPS 2018 收錄,關於 MADL 的論文已被 ICLR 2019 收錄,關於 MASS 的論文則被 ICML 2019 收錄。

新的學習機制:MADL 多體對偶學習

在機器翻譯中,訓練數據的數據量越大、質量越高,其訓練的翻譯結果越好。基於對偶學習,創新的 MADL 算法利用正向與反向翻譯的多個模型對單語數據進行前向和後向翻譯並打分,然後將得分最高的數據放置到訓練數據中從而獲得更多高質量的數據,或者將單語數據的前向後向重建誤差加入到損失函數裡來增強學習過程。MADL 不局限於某個語種,可以在任何源語種和目標語種之間提供這樣的對偶學習能力。

更好的預訓練:MASS 屏蔽序列到序列的預訓練

MASS 是針對序列生成設計的預訓練算法,比 BERT 以及 GPT/2 更加通用。BERT 模型通常是屏蔽掉句子中的一個單詞,然後通過分類來預測這個詞;GPT 模型是給定前面的詞,通過分類生成後面的詞,直至一句話或整篇文檔;兩者都是預訓練一個編碼器。而翻譯則是基於編碼器-解碼器-注意力框架,因此 BERT 和 GPT/2 並不能很好地適用於翻譯任務。但 MASS 則能將句子中的部分連續片斷隨機屏蔽,然後訓練一個編碼器-解碼器-注意力模型預測生成該片斷,從而利用海量單語數據預訓練然後初始化翻譯模型。因此,MASS 比 BERT 和 GPT/2 都更適用於機器翻譯這個應用場景。實驗證明,MASS 屏蔽翻譯句子中 50% 的片斷效果最好。

網絡架構優化: NAO 自動神經網絡架構優化

NAO 是從神經網絡結構優化的角度去提升機器翻譯水平。不同的網絡結構通常對於翻譯結果有著較大影響,NAO 把離散的網絡結構嵌入到連續的向量空間,從而通過連續優化找到更好的網絡結構。與固定的 Transformer 相比,NAO 可以找到更多樣的網絡結構,和 Transformer 形成互補優勢,使得機器翻譯多模型集成的結果更佳。

數據增強:SCA 軟性上下文數據增強

所謂 SCA 軟性上下文數據增強,是在雙語訓練數據中隨機屏蔽某個詞,再基於語言模型利用上下文來預測這個詞,隨後選擇概率最高的幾個詞,根據預測概率把這些預測的詞線性組合到一起,替換原來被屏蔽的詞。這樣一個句子/句對可以生成多個句子/句對,同一個句子的翻譯就可以出現多個合理的翻譯結果,這也與實際翻譯過程中翻譯結果並不唯一這一事實相吻合。通過如此軟性上下文數據增強,從而擴大訓練數據的規模,增強數據質量,得到更好的翻譯結果。

在此次的 11 項機器翻譯任務中,微軟亞洲研究院的研究員們在每個翻譯任務上採用了上述不同的技術。未來,研究團隊計劃將這四個層面的創新技術整合,並且通過與微軟翻譯產品部門的合作,將新技術儘快轉化到微軟翻譯產品中。

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 阿里獲WMT國際機器翻譯大賽5項冠軍
    供圖中新網杭州5月24日電 (黃慧)在WMT2018國際機器翻譯大賽上,阿里巴巴達摩院機器智能-NLP翻譯團隊在提交的5項比賽中全數獲得冠軍。其中,這5個項目包括英文-中文翻譯、英文-俄羅斯語互譯、英文-土耳其語互譯。
  • 阿里達摩院打敗微軟等巨頭 獲WMT機器翻譯大賽5項冠軍
    參考消息網5月24日報導在剛剛結束的WMT2018國際機器翻譯大賽上,阿里巴巴達摩院機器智能-NLP翻譯團隊打敗多個國外巨頭與研究機構,在所有提交的5項比賽中,全數獲得冠軍,成為此次比賽的最大贏家。這5個項目包括英文-中文翻譯、英文-俄羅斯語互譯、英文-土耳其語互譯,達摩院在這幾個項目的自動評測指標BLEU都位居第一。達摩院獲得5個項目自動評測第一名。WMT全稱Workshop on Machine Translation,是國際公認的頂級機器翻譯賽事之一,也是各大科技公司與學術機構展示自身機器翻譯實力的平臺。
  • 突破小語種機器翻譯,阿里獲WMT國際大賽5項冠軍
    來源:環球網在剛剛結束的WMT2018國際機器翻譯大賽上,阿里巴巴達摩院機器智能-NLP翻譯團隊打敗多個國外巨頭與研究機構,在所有提交的5項比賽中,全數獲得冠軍,成為此次比賽的最大贏家。這5個項目包括英文-中文翻譯、英文-俄羅斯語互譯、英文-土耳其語互譯,達摩院在這幾個項目的自動評測指標BLEU都位居第一。
  • WMT2018國際翻譯大賽 騰訊翻譯君獲得中英翻譯冠軍
    央廣網科技5月23日消息 今天,騰訊翻譯君在WMT2018國際翻譯大賽上獲得中英翻譯冠軍。WMT,全稱Workshop on Machine Translation,是由來自歐洲和美國的高校、研究機構的研究人員聯合舉辦的業界公認的國際頂級機器翻譯比賽之一。
  • WMT2018國際翻譯大賽,騰訊翻譯君獲得中英翻譯冠軍
    【獵雲網成都】5月21日報導5月23日,騰訊翻譯君在WMT2018國際翻譯大賽上獲得中英翻譯冠軍。WMT,全稱Workshop on Machine Translation,是由來自歐洲和美國的高校、研究機構的研究人員聯合舉辦的業界公認的國際頂級機器翻譯比賽之一。
  • WMT國際機器翻譯大賽結果流出,微信AI拔得頭籌
    作為全球學術界最具權威的機器翻譯比賽,近日,WMT2020國際機器翻譯大賽的榜單停止提交結果並發布排名,其中騰訊微信AI團隊在「中文-英文」翻譯任務上奪得冠軍。 提交結果BLEU評分第一,微信AI斬獲中英翻譯方向冠軍WMT 是機器翻譯領域的國際頂級評測比賽之一,自2006年創辦至今,WMT已經成功舉辦15屆。
  • 斬獲WMT2020國際機器翻譯大賽中英方向第一名
    來源:經濟日報-中國經濟網經濟日報-中國經濟網北京7月9日訊 作為全球學術界最具權威的機器翻譯比賽,近日,WMT2020國際機器翻譯大賽的榜單停止提交結果並發布排名,其中騰訊微信AI團隊在「中文-英文」翻譯任務上奪得冠軍。
  • 百度機器翻譯團隊獲得WMT2019中英翻譯冠軍
    8月1日,WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開。本屆大賽,百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍。圖1 人工評價結果WMT全稱是Workshop on Machine Translation,是業界公認的國際頂級機器翻譯比賽之一,其中中文-英文翻譯任務是歷年參賽隊伍最多、競爭最為激烈的機器翻譯任務之一
  • 2020 國際機器翻譯大賽:火山翻譯力奪五項冠軍
    在11月下旬結束的自然語言處理頂級學術會議EMNLP2020上,國際機器翻譯大賽(WMT20)公布了賽事最終結果,來自字節跳動火山引擎旗下的火山翻譯(Volctrans)在39支參賽隊伍中殺出重圍,以顯著優勢在「中文-英語」語向翻譯項目上拿下了冠軍。
  • 2020國際機器翻譯大賽:火山翻譯力奪五項冠軍
    在11月下旬結束的自然語言處理頂級學術會議EMNLP2020上,國際機器翻譯大賽(WMT20)公布了賽事最終結果,來自字節跳動火山引擎旗下的火山翻譯(Volctrans)在39支參賽隊伍中殺出重圍,以顯著優勢在「中文-英語」語向翻譯項目上拿下了冠軍。
  • WMT2017國際翻譯大賽,搜狗獲得中英/英中翻譯雙向冠軍
    語音翻譯,無疑是一個很好的突破口。擁有深度學習算法的加成,人工智慧讓機器學習變得更加「聰明」,足以打破語言文化的交流壁壘。從這一點來看,中國的科技公司已是佔據了領先地位。擁有語音技術積累的搜狗知音,在前幾天的WMT 2017國際評測中,獲得中英和英中翻譯雙向冠軍,機器翻譯的準確率和速度震動了整個業界。搜狗,已經跑在了人工智慧隊伍的前列。
  • 百度機器翻譯五大領域實現新突破 獲WMT2019中英翻譯冠軍
    8月1日,WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開。本屆大賽,百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍。圖1 人工評價結果  WMT全稱是Workshop on Machine Translation,是業界公認的國際頂級機器翻譯比賽之一,其中中文-英文翻譯任務是歷年參賽隊伍最多、競爭最為激烈的機器翻譯任務之一
  • 微軟亞洲研究院:20年20人-虎嗅網
    1998年7月,李開復正式入職微軟,創建並領導了微軟中國研究院,招募了張亞勤、沈向洋、洪小文等大批在美人才回國加入,該研究院其後成為中國乃至全球的計算機研究機構。2000年被微軟調回總部,2005年離職,李開復微軟生涯結束。2005年9月,李開復以Google全球副總裁兼大中華區總裁身份,創辦並開始運營Google中國。
  • 金山AI團隊勇奪WMT2019大賽英譯中賽道人工評測冠軍
    近日,在剛剛結束的WMT2019國際機器翻譯大賽上,金山軟體集團(以下簡稱「金山」)旗下AI Lab團隊打敗多個國內外巨頭與研究機構,成功在英譯中賽道上斬獲人工測評冠軍。金山AI Lab參賽團隊成員 除了奪得英譯中賽道人工評測的冠軍外,金山AI Lab還在此次大賽中奪得其他榮譽:機器自動評測的第二名
  • 搜狗機器翻譯團隊獲得 WMT 2017 中英機器翻譯冠軍
    搜狗語音交互技術中心代表搜狗參加了這次含金量極高的比賽,該中心研發的搜狗神經網絡機器翻譯(Sogou Neural Machine Translation)系統在「中文-英文」機器翻譯任務中獲得了冠軍。這個系統採用了哪些新方法、新結構,又為我們提供了哪些新思路?讓我們結合論文聊一聊 Sogou NMT。WMT 是機器翻譯領域的國際頂級評測比賽之一。
  • 再發「最強音」,科大訊飛喜獲國際口語機器翻譯評測大賽冠軍
    再發「最強音」,科大訊飛喜獲國際口語機器翻譯評測大賽冠軍 繼斬獲今年八項「世界第一」之後,科大訊飛再度發力,在剛剛結束的 2018 年國際口語機器翻譯評測比賽中,科大訊飛在英德方向語音翻譯任務端到端模型比賽中
  • 騰訊微信AI首次奪冠WMT2020國際機器翻譯大賽中英方向
    文/福布斯中國近日,作為全球學術界最具權威的機器翻譯比賽, WMT2020國際機器翻譯大賽的榜單停止提交結果並發布排名
  • MT國際機器翻譯大賽結果流出 微信AI在中英方向拔得頭籌
    【TechWeb】7月7日消息,近日,WMT2020國際機器翻譯大賽的榜單停止提交結果並發布排名,其中騰訊微信AI團隊在「中文-英文」翻譯任務上奪得冠軍。WMT是機器翻譯領域的國際頂級評測比賽之一,自2006年創辦至今,WMT已經成功舉辦15屆。
  • 微軟亞洲研究院副院長周明離職,將加入創新工場AI工程院
    12月17日,澎湃新聞(www.thepaper.cn)獲悉,微軟亞洲研究院副院長周明近期已經從微軟離職,加入由李開復創辦的創新工場人工智慧工程院,擔任首席科學家。1996-1999訪問日本高電社公司領導中日機器翻譯研究。他是中國第一個中英翻譯系統CEMT-I(哈工大1989年)、日本最有名的中日機器翻譯產品J-北京(日本高電社1998年)的研製者。1999年,周明加入微軟亞洲研究院,不久開始負責自然語言研究組。
  • 十九年來,從微軟亞洲研究院走出了他們-虎嗅網
    三年後,最初的微軟中國研究院更名為微軟亞洲研究院。巧婦難為無米之炊,李開復組建團隊之初就頻頻受阻,說服海外精英歸國並不容易,何況是在電話和網絡還未普及的年代。但其中也不乏熱血青年,張亞勤的加盟成為打開僵局的契機。這位31歲,1997年就獲得IEEE Fellow的天才少年曾被一度傳位佳話。