中到英新聞翻譯媲美人類,微軟機器翻譯新突破

2020-12-10 機器之心Pro

今日,微軟研究團隊表示,微軟和微軟亞研創造了首個在質量與準確率上匹配人類水平的中英新聞機器翻譯系統。黃學東告訴機器之心,他們採用專業人類標註與盲測評分代替 BLEU 分值而具有更高的準確性,且新系統相比於現存的機器翻譯系統有非常大的提升。因此,根據人類盲測評分,微軟機器翻譯取得了至少和專業翻譯人員相媲美的效果。

微軟亞洲與美國實驗室的研究者稱,其中英新聞機器翻譯系統在常用的新聞報導測試集 newstest 2017 上達到了人類水平。該測試集由來自業界和學界的團隊共同開發,去年秋季在 WMT17 會議上發布。為了保證結果既準確又能達到人類水平,該團隊聘請了外部雙語評估員,他們對比了微軟的結果與兩組獨立翻譯的人類譯文。

微軟語音、自然語言與機器翻譯的技術負責人黃學東稱之為自然語言處理最具挑戰性任務中的重要裡程碑。他對機器之心說:「我們的新系統相比之前的翻譯系統有非常大的提升,因此它確實是一個重大突破,是一個歷史性的裡程碑。」

「機器翻譯達到人類水平是我們所有人的夢想,」黃說道,「我們只是沒想到這麼快就實現了。」

黃學東也領導了最近在對話語音識別任務中達到人類水平的研究組,他認為取得機器翻譯任務的這一裡程碑尤其令人高興,因為它可以幫助人們更好地理解彼此。

黃學東說:「消除語言障礙,幫助人們更流暢地交流,這真的非常了不起,非常非常有價值。」

機器翻譯是研究者研究了數十年的問題,專家稱,很長時間以來人們都認為機器翻譯無法達到人類水平。研究者現在仍應該注意該裡程碑時間並不意味著機器翻譯問題已經被解決。

微軟亞洲研究院副院長、自然語言處理組主任周明參與了該項目,稱研究團隊非常激動能夠在該數據集上達到與人類匹配的機器翻譯水平。但是他提到,目前仍然存在很多挑戰,如還需要在實時新聞報導上對該系統進行測試。

微軟機器翻譯團隊研究經理 Arul Menezes 稱,他們團隊計劃在測試集上證明該系統在中英語言對上可以達到與人類匹配的水平(中英語言對數據較多),此外,測試集還包括大眾新聞報導中更常見的詞彙。

「考慮到目前數據和可用資源所能達到的最佳案例,我們想找出該系統是否能夠實際匹配人類專業譯者的水平。」Menezes 稱,他也主導了該項目。

Menezes 稱研究團隊可以將這一技術突破應用於微軟的多語商用翻譯產品。這將為更準確、自然流暢的跨語言翻譯和更複雜或罕見的詞彙翻譯鋪平道路。

對偶學習、推敲、聯合訓練和一致性正則化

儘管學術和業界的研究者多年來一直在研究機器翻譯,但近期使用深度神經網絡訓練 AI 系統的方法取得了實質性的突破。這些機器翻譯系統能夠輸出更流暢、自然的譯文,且比以前的統計機器翻譯方法有更廣闊的適用範圍。

為了在該數據集上訓練出能達到人類水平的翻譯系統,位於北京、雷德蒙德的三個微軟研究團隊通力合作,增加了許多其它訓練方法幫助系統更加流暢和準確。在許多情況下,這些新方法模擬人類改進翻譯工作的過程,一遍遍地迭代直到實現正確結果。

微軟亞研首席研究員劉鐵巖領導了該項目的機器學習團隊,他表示:「我們大部分研究都受到人類工作方式的啟發。」

他們使用的一種方法是對偶學習(dual learning)。我們可以把它看作一種核查系統工作的方法:每次他們向系統發送一個中譯英的語句,然後再將英譯文翻譯成中文。這就好像人們想要確保自動翻譯結果是準確的,這一方法允許系統從自身的錯誤中學習。微軟研究團隊研發的對偶學習也可用於提升其他 AI 任務的結果。

另一種方法稱為推敲網絡(deliberation network),它與人類經常通讀全文來編輯和修改譯文的過程非常相似。研究人員會教系統重複翻譯相同語句的過程,並逐步潤色和提升譯文效果。

研究者同樣開發了兩種新技術以提升其翻譯準確率,周明說。一項叫作聯合訓練(joint training)的技術可用於迭代地提升英中、中英翻譯系統。通過這一方法,英中翻譯系統把新的英語語句翻譯成中文,從而獲得新的句對,用於增強中英翻譯訓練集。相同操作接著再用於中英翻譯系統。隨著不斷收斂,兩個系統的表現都獲得了提升。

另一項技術是一致性正則化(agreement regularization)。有了它,系統通過從左到右或從右到左的讀取即可生成翻譯。如果這兩個翻譯技術生成了相同的翻譯,則結果相比沒有獲得相同翻譯更加值得信任。該方法用於鼓勵系統生成一致的翻譯結果。

周明稱他希望這些方法和技術也對其他語言的機器翻譯提升有所幫助,並帶來翻譯領域之外的 AI 突破。

「這些有助於機器翻譯的方法和技術也可應用於整個 AI 研究領域」他說。

沒有「正確」答案

該研究團隊使用的測試集包含了一個在線新聞樣本的 2000 個語句,同時該測試集也被專業譯者翻譯過。

微軟在該測試集上進行了多輪評估,每次隨機選取數百個譯文。為了驗證微軟的機器翻譯水平和人類相當,該公司在該測試集的評估規範之外,還聘請了外部雙語語言顧問來對比微軟和人類譯者的翻譯結果。

驗證結果的方法也表明訓練準確的機器翻譯系統的複雜性。在其他任務中,例如語音識別,判斷系統的表現是否和人類一樣好是很直接的,因為理想結果對於人類和機器來說都是一樣的。研究者稱其為模式識別任務。

而在翻譯任務中存在很多微妙差別。即使兩個文筆流暢的人類譯者對同一句話的譯文也可能略有不同,並且二者都是正確的。這是因為一句話的正確譯文並不是唯一的。

「機器翻譯相比模式識別任務要複雜得多,」周說。「人們可以使用不同的詞來描述同樣的東西,你未必能夠指出哪一個更好。」

研究者稱正是這種複雜性使得機器翻譯尤其困難,也正是這一點讓它變得如此有趣。

劉說沒有人知道機器翻譯是否有朝一日能將任何語言文本翻譯得足夠好,在準確性和抒情性方面都能和人類譯者相當。但是,他說,近期的這些研究突破將使他們邁向下一個長期計劃,向這個目標和其它偉大的 AI 成就前進,例如在語音轉語音翻譯中達到人類水平。

「我們可以預測,我們一定能做得越來越好。」劉說。

論文:Achieving Human Parity on Automatic Chinese to English News Translation

摘要:機器翻譯近年來發展迅速,現在數百萬人使用在線翻譯系統和移動 app 進行跨語言溝通。那麼我們自然會想到這個問題:機器翻譯系統能否接近或達到人類翻譯水平。本論文中,我們首次解決了如何定義和準確評估機器翻譯是否與人類翻譯水平相當的問題。我們介紹了微軟的機器翻譯系統,並在廣泛使用的 WMT 2017 中英新聞翻譯任務上對該系統的譯文質量進行了評估。評估結果表明我們最新的神經機器翻譯系統實現了新的當前最優結果,譯文質量與人類專業譯者水平相當。我們還發現它顯著優於眾包業餘譯者的譯文質量。

2 人類翻譯水平

直觀來看,我們將與人類翻譯水平相當定義為:

1. 如果一個具備雙語能力的人判斷人類輸出的譯文質量與機器輸出的譯文質量相當,則機器達到人類水平。

2. 如果機器翻譯系統在測試集上的譯文質量評分(人工評分)與人類譯文得分沒有顯著差別,則機器達到人類水平。

微軟選擇了第二個定義來鑑定機器翻譯是否達到了人類翻譯水平,這相對而言比較公平且比較有實際意義。給定可靠的翻譯質量評分指標,基於人類直接測評的方式,我們可以使用成對統計顯著性檢驗來決定機器翻譯系統在測試集上是否達到了人類翻譯水平。

現有的多種機器翻譯評測方法通常基於參考譯文,可能會出現偏差,因此微軟採用了 WMT17 [6] 使用的直接評估方法作為人工評分方法。為了避免人工評分過程中出現偏差,微軟和 IWSLT17 [7] 一樣使用了基於來源(source-based)的評價方法。

4 實驗

表 1 第一部分展示了基線模型的結果。首先,我們對比了 WMT 2017 最佳結果搜狗系統 [42]。儘管搜狗系統是多個系統的集成,我們這裡仍把它作為對照。該表中的其他系統都是單個系統。我們的基線系統 Base 在 1800 萬句子上訓練。BT 在基線模型的基礎上添加了回譯數據。

表 1: WMT 2017 中英測試集上的自動評估結果(BLEU 值)。

選擇數據的實驗結果

Base8K 使用基線數據和回譯數據,但是它使用的模型架構較大,處理大型數據集的效果更好。

表 2:WMT 2017 中英測試集上的選擇數據評估結果。

組合系統的實驗結果

如表 3 所示,結合一組異構系統可以互補,實現更好的結果。我們對許多組合系統的配置與特徵進行了實驗,發現最有幫助的評分特徵為 SY SScore、LMScore、R2Lscore、R2LSV 和 E2ZSV。這是非常令人驚奇的,因為組合系統關注於建模相似的特徵。這可能是由於這些模型學習互補特徵,它們有額外的能力相互補充。

表 3:WMT 2017 中英測試集上的組合系統結果。

5 人類評估結果

表 4 展示了我們的大規模人類評估結果。基於這些結果,我們認為,根據定義 2,我們在新聞領域中英翻譯方面已經達到了人類水平,因為我們的系統結果和人類譯文無顯著差別。

表 4:人類評估結果(每個系統至少有 n≥1827 個評估結果)表明我們的研究系統 Combo-4、Combo-5 和 Combo-6 達到了和人類相當的中英翻譯水平(根據定義 2),因為其翻譯結果和 Reference-HT(人類翻譯)無顯著差別。我們所有系統的譯文質量都顯著超越了 Reference-PE(基於機器翻譯輸出的譯後編輯結果),以及 Reference-WMT(也是人類翻譯)。# 表示集群的排名,Ave% 是平均原始分數 r ∈ [0,100],Ave Z 表示標準 z 分數。n≥x 表示我們為該系統收集了至少 x 份評估結果。在表 5g 中表示為 Meta-1。

上表中,根據 p-level(p ≤ 0.05)的 Wilcoxon 秩和檢測(和 WMT17 一樣),更高層集群的系統顯著優於更低集群的系統。相同集群中的系統通過 z 分數進行排序(z 分數即圍繞平均值的標準差),z 分數在標註者級別上進行計算,以避免不同標註行為的影響,同時保證質量。

表 5:我們在 Subset-1(5a、5b、5c)上實現三次迭代的完整結果,以及在 Subset2 (5d)、Subset-3 (5e) 和 Subset-4 (5f) 上的評估結果對比。我們還展示了 Meta-1(5g)的組合數據結果,它將 Subset-1 上所有迭代的標註組合在一起。# 表示集群的排名、Ave % 表示平均原始分數,r ∈ [0,100]、Ave z 為標準化的 z 分數。n ≥ x 表示我們為各系統及其評估活動收集了至少 x 份評估結果。所有活動涉及 a = 15 個標註者。根據 p-level(p ≤ 0.05)上的 Wilcoxon 秩和檢驗,更高層集群中的系統顯著地優於低層集群中的所有系統。同一集群中的系統根據 z 分數排序,但同時與質量有緊密聯繫。

6 人類分析

表 7 展示了標註出的錯誤的分布,即包含特定錯誤類別的句子片段所佔比例。

表 7:錯誤分布,即包含特定錯誤類別的句子片段所佔的比例。

相關焦點

  • 機器翻譯新突破,微軟中英新聞翻譯達人類水平
    #表示集群的排名,Ave%表示平均原始分數(範圍在[0,100]之間),Ave z表示標準 z分數。該表顯示了系統收集了至少1827份評估結果。
  • 微軟宣布重大裡程碑:中英機器翻譯可與人類媲美
    【環球網科技 記者 林迪】日前,環球網科技記者從微軟亞洲研究院官網了解到,其研究團隊對外宣布,最新研發的機器翻譯系統在通用新聞報導測試集newstest2017的中-英測試集上,達到了可與人工翻譯媲美的水平。
  • 又一裡程碑:微軟宣布中英機器翻譯達到人類水平
    微軟技術院士黃學東     昨天,由微軟亞洲研究院與雷德蒙研究院的研究人員組成的團隊宣布,其研發的機器翻譯系統在通用新聞報導測試集newstest2017的中-英測試集上,達到了可與人工翻譯媲美的水平
  • 微軟的裡程碑式突破:AI中翻英效果媲美人類
    摘要:微軟周三稱,研發出了首個媲美人類水平的中翻英系統。這一翻譯目前已經開放,也在一定程度上顯示出了相對更高的翻譯水平,但目前全世界的英翻中水平,似乎都仍有待提高……微軟周三稱,機器翻譯取得重要進展,研發出了首個媲美人類水平的中翻英系統。
  • 機器翻譯系統提前7年達到人類專業翻譯水平
    「這既是技術上的突破,也是工程上的突破,是技術和工程的完美結合,只有把過程中的每一件事情都做好,才能得到這樣的結果。」   裡程碑式突破:首個媲美人類專業水平的機器翻譯系統   這次微軟的翻譯系統是在數據集 WMT-17 的新聞數據集 newstest2017 上取得了上述成果。
  • 微軟宣布重大裡程碑:中英機器翻譯水平可「與人類媲美」
    PingWest品玩 3 月 15 日報導,根據微軟亞洲研究院消息,今天,微軟研究團隊宣布其研發的機器翻譯系統在通用新聞報導測試集newstest2017 的中-英測試集上達到了人類水平,這是首個在新聞報導的翻譯質量和準確率上可以比肩人工翻譯的翻譯系統。
  • 媲美人類有何不可?深度解讀微軟新 AI 翻譯系統四大秘技
    雷鋒網 AI 科技評論按:3 月 15 日的文章《機器翻譯新突破,微軟中英新聞翻譯達人類水平》中,我們介紹了微軟亞洲研究院與雷德蒙研究院共同研發的新的機器翻譯系統,微軟稱它在 newstest2017 的中-英測試集上達到了與人工翻譯媲美的水平
  • 早資道|孫宏斌請辭樂視網董事長 微軟稱AI翻譯以可媲美人類
    微軟AI翻譯取得突破進展:準確率可與人類翻譯媲美3月15日,一組微軟研究人員在3月14日發表博客文章稱,在利用深層神經網絡人工智慧(AI)訓練技術翻譯文本方面取得了進展。他們發明了第一臺機器翻譯系統,可以將中文新聞的句子翻譯成英文,準確率與人類不相上下。
  • 微軟AI 翻譯重大突破:近人類語言中譯英
    微軟自然語言和機器翻譯工作的技術專家黃學東(Xuedong Huang)稱,這是最具挑戰性的自然語言處理任務的重要裡程碑之一。機器翻譯是科學家和技術人員們數十年來研究的課題,在此前很多時間裡,專家們認為機器永遠無法做到像人那樣說話與對話。微軟機器翻譯團隊試圖證明當使用中文和英文語言對話時,AI 可以表現得像人一樣自然,目前他們獲得了初步的成果。
  • 機器翻譯正在消除語言障礙,人類專業翻譯會下崗嗎?
    在今年《MIT科技評論》推出的十大突破技術中,巴別魚耳塞成功入選。它可以做到雙方交流時,會對所講的話進行翻譯,並在智慧型手機上大聲播放。手持手機的人回應後,回答被翻譯,然後在耳塞中播放,該技術還能實時翻譯,適用於多種語言,使用方便。工業界對於機器翻譯已經開始摩拳擦掌。
  • 微軟亞洲研究院宣布:機器翻譯和人工翻譯媲美,吃香行業被淘汰!
    最近,微軟亞洲研究院宣布,他們團隊所研發的機器翻譯系統已經達到可以和人工翻譯相媲美的水平。並且這是首個在新聞報導的翻譯質量和準確率可以和人類的翻譯水平相互持平的。這個機器翻譯系統是由產業界和學術界的合作夥伴相互開發出來的。
  • 微軟推出實時翻譯技術 僅支持中德英之間翻譯轉換
    微軟推出實時翻譯技術 僅支持中德英之間翻譯轉換 來源:環球網 • 2018-11-20 16:39:09
  • 微軟AI翻譯準確率與人類翻譯不相上下 只涵蓋中英文
    ­  據國外媒體報導,微軟的一組研究人員開發了一種機器系統,該系統可將中文新聞文章翻譯成英文,準確率與人類翻譯不相上下。­  研究人員稱,這一成就是一個重大的裡程碑。微軟在一篇博客文章中表示,許多專家曾經認為,設計一臺與人類的翻譯能力相匹敵的計算機是永遠無法實現的。
  • 劉和平、韓林濤:下「機器翻譯替代人類」結論為時尚早
    一個星期後,我們拿到了為本次大會提供技術支持的Mark Seligman博士撰寫的的微軟機器翻譯應用報告初稿,鑑於技術保密等原因,我們這裡只從人工翻譯和機器翻譯對比的角度對此次人機比拼作出以下觀察思考。2018年3月15日camel AI科技評論消息稱,「機器翻譯新突破,微軟中英新聞翻譯達人類水平」。
  • 搜狗王小川:2020年 機器翻譯的某些指標可以趕上人類翻譯
    作為中國人工智慧技術和產業領域規模最大、影響力最強的專業會議之一,GAITC邀請到了中國工程院院士李德毅、圖靈獎得主姚期智、歐洲科學院院士漢斯·烏思克爾特等數十位業界專家,共同獻上了數場精妙絕倫的主題演講和對話。搜狗CEO王小川應邀在活動上發表了主題為《語言AI之路與挑戰》的演講。他回顧了人工智慧在語言領域取得的進展,並指出「到2020年,機器翻譯在一些指標上可以趕上人類翻譯。」
  • 微軟提出新型通用神經機器翻譯方法,挑戰低資源語言翻譯問題
    近日微軟發布博客,提出一種半監督通用神經機器翻譯方法,解決低資源語言機器翻譯的問題,幫助解決方言和口語機器翻譯難題。該研究相關論文已被 NAACL 2018 接收。機器翻譯已經成為促進全球交流的重要組成部分。
  • 微軟AI翻譯 英語專業看後表示會流淚
    【手機中國 新聞】昨日,微軟研究團隊發布消息稱,他們已經研發出首款中文新聞翻譯成英文的機器翻譯系統,該系統翻譯出的中譯英文章的精確度可與人類翻譯語言相媲美。微軟AI翻譯取得突破(圖片來自網絡)來自微軟自然語言的機器翻譯工作的技術專家黃學東表示,這項技術是最具挑戰性的自然語言處理任務的重要裡程碑,一直以來「機器翻譯」是科學家和技術人們數十年研究的課題,在過去的很多時間裡,專家們認為機器無法做到像人那樣說話與對話。
  • 機器翻譯革命強勢來襲 人類翻譯將無路可走?
    神經機器翻譯(NMT)自2014年在科學論文中首次被提及以來,已使機器翻譯領域出現翻天覆地的變化,它開始全面超越以統計模型為基礎的統計機器翻譯(SMT),快速成為在線翻譯系統的主流標配。神經機器翻譯的「神經元」可以學習和收集信息,模仿人類大腦的神經元建立聯繫。
  • 機器翻譯與人工翻譯之爭
    機器翻譯發展迅速語言能力是區分人類和動物的重要特徵之一,是人類有效交流的保證。用機器來進行語言翻譯的想法,最早可追溯到古希臘時期。現代意義上的「機器翻譯」一詞,由古圖拉特(Couturat)和洛(Leau)1903年在《通用語言的歷史》一書中最早提出。
  • 微軟推出實時翻譯技術 支持中德英三種語言
    【環球網智能綜合報導】外媒11月19日報導,軟體巨頭微軟的語言翻譯技術可能會改變客服業。據悉,道格拉斯-亞當斯在《銀河系漫遊指南》系列中,有一條叫「巴別魚(Babel Fish)」的黃色小魚,你只要把它塞入耳中,它就會自動為你翻譯宇宙中的任何語言。