中到英新聞翻譯媲美人類,微軟機器翻譯新突破

2021-01-10 機器之心Pro

今日,微軟研究團隊表示,微軟和微軟亞研創造了首個在質量與準確率上匹配人類水平的中英新聞機器翻譯系統。黃學東告訴機器之心,他們採用專業人類標註與盲測評分代替 BLEU 分值而具有更高的準確性,且新系統相比於現存的機器翻譯系統有非常大的提升。因此,根據人類盲測評分,微軟機器翻譯取得了至少和專業翻譯人員相媲美的效果。

微軟亞洲與美國實驗室的研究者稱,其中英新聞機器翻譯系統在常用的新聞報導測試集 newstest 2017 上達到了人類水平。該測試集由來自業界和學界的團隊共同開發,去年秋季在 WMT17 會議上發布。為了保證結果既準確又能達到人類水平,該團隊聘請了外部雙語評估員,他們對比了微軟的結果與兩組獨立翻譯的人類譯文。

微軟語音、自然語言與機器翻譯的技術負責人黃學東稱之為自然語言處理最具挑戰性任務中的重要裡程碑。他對機器之心說:「我們的新系統相比之前的翻譯系統有非常大的提升,因此它確實是一個重大突破,是一個歷史性的裡程碑。」

「機器翻譯達到人類水平是我們所有人的夢想,」黃說道,「我們只是沒想到這麼快就實現了。」

黃學東也領導了最近在對話語音識別任務中達到人類水平的研究組,他認為取得機器翻譯任務的這一裡程碑尤其令人高興,因為它可以幫助人們更好地理解彼此。

黃學東說:「消除語言障礙,幫助人們更流暢地交流,這真的非常了不起,非常非常有價值。」

機器翻譯是研究者研究了數十年的問題,專家稱,很長時間以來人們都認為機器翻譯無法達到人類水平。研究者現在仍應該注意該裡程碑時間並不意味著機器翻譯問題已經被解決。

微軟亞洲研究院副院長、自然語言處理組主任周明參與了該項目,稱研究團隊非常激動能夠在該數據集上達到與人類匹配的機器翻譯水平。但是他提到,目前仍然存在很多挑戰,如還需要在實時新聞報導上對該系統進行測試。

微軟機器翻譯團隊研究經理 Arul Menezes 稱,他們團隊計劃在測試集上證明該系統在中英語言對上可以達到與人類匹配的水平(中英語言對數據較多),此外,測試集還包括大眾新聞報導中更常見的詞彙。

「考慮到目前數據和可用資源所能達到的最佳案例,我們想找出該系統是否能夠實際匹配人類專業譯者的水平。」Menezes 稱,他也主導了該項目。

Menezes 稱研究團隊可以將這一技術突破應用於微軟的多語商用翻譯產品。這將為更準確、自然流暢的跨語言翻譯和更複雜或罕見的詞彙翻譯鋪平道路。

對偶學習、推敲、聯合訓練和一致性正則化

儘管學術和業界的研究者多年來一直在研究機器翻譯,但近期使用深度神經網絡訓練 AI 系統的方法取得了實質性的突破。這些機器翻譯系統能夠輸出更流暢、自然的譯文,且比以前的統計機器翻譯方法有更廣闊的適用範圍。

為了在該數據集上訓練出能達到人類水平的翻譯系統,位於北京、雷德蒙德的三個微軟研究團隊通力合作,增加了許多其它訓練方法幫助系統更加流暢和準確。在許多情況下,這些新方法模擬人類改進翻譯工作的過程,一遍遍地迭代直到實現正確結果。

微軟亞研首席研究員劉鐵巖領導了該項目的機器學習團隊,他表示:「我們大部分研究都受到人類工作方式的啟發。」

他們使用的一種方法是對偶學習(dual learning)。我們可以把它看作一種核查系統工作的方法:每次他們向系統發送一個中譯英的語句,然後再將英譯文翻譯成中文。這就好像人們想要確保自動翻譯結果是準確的,這一方法允許系統從自身的錯誤中學習。微軟研究團隊研發的對偶學習也可用於提升其他 AI 任務的結果。

另一種方法稱為推敲網絡(deliberation network),它與人類經常通讀全文來編輯和修改譯文的過程非常相似。研究人員會教系統重複翻譯相同語句的過程,並逐步潤色和提升譯文效果。

研究者同樣開發了兩種新技術以提升其翻譯準確率,周明說。一項叫作聯合訓練(joint training)的技術可用於迭代地提升英中、中英翻譯系統。通過這一方法,英中翻譯系統把新的英語語句翻譯成中文,從而獲得新的句對,用於增強中英翻譯訓練集。相同操作接著再用於中英翻譯系統。隨著不斷收斂,兩個系統的表現都獲得了提升。

另一項技術是一致性正則化(agreement regularization)。有了它,系統通過從左到右或從右到左的讀取即可生成翻譯。如果這兩個翻譯技術生成了相同的翻譯,則結果相比沒有獲得相同翻譯更加值得信任。該方法用於鼓勵系統生成一致的翻譯結果。

周明稱他希望這些方法和技術也對其他語言的機器翻譯提升有所幫助,並帶來翻譯領域之外的 AI 突破。

「這些有助於機器翻譯的方法和技術也可應用於整個 AI 研究領域」他說。

沒有「正確」答案

該研究團隊使用的測試集包含了一個在線新聞樣本的 2000 個語句,同時該測試集也被專業譯者翻譯過。

微軟在該測試集上進行了多輪評估,每次隨機選取數百個譯文。為了驗證微軟的機器翻譯水平和人類相當,該公司在該測試集的評估規範之外,還聘請了外部雙語語言顧問來對比微軟和人類譯者的翻譯結果。

驗證結果的方法也表明訓練準確的機器翻譯系統的複雜性。在其他任務中,例如語音識別,判斷系統的表現是否和人類一樣好是很直接的,因為理想結果對於人類和機器來說都是一樣的。研究者稱其為模式識別任務。

而在翻譯任務中存在很多微妙差別。即使兩個文筆流暢的人類譯者對同一句話的譯文也可能略有不同,並且二者都是正確的。這是因為一句話的正確譯文並不是唯一的。

「機器翻譯相比模式識別任務要複雜得多,」周說。「人們可以使用不同的詞來描述同樣的東西,你未必能夠指出哪一個更好。」

研究者稱正是這種複雜性使得機器翻譯尤其困難,也正是這一點讓它變得如此有趣。

劉說沒有人知道機器翻譯是否有朝一日能將任何語言文本翻譯得足夠好,在準確性和抒情性方面都能和人類譯者相當。但是,他說,近期的這些研究突破將使他們邁向下一個長期計劃,向這個目標和其它偉大的 AI 成就前進,例如在語音轉語音翻譯中達到人類水平。

「我們可以預測,我們一定能做得越來越好。」劉說。

論文:Achieving Human Parity on Automatic Chinese to English News Translation

摘要:機器翻譯近年來發展迅速,現在數百萬人使用在線翻譯系統和移動 app 進行跨語言溝通。那麼我們自然會想到這個問題:機器翻譯系統能否接近或達到人類翻譯水平。本論文中,我們首次解決了如何定義和準確評估機器翻譯是否與人類翻譯水平相當的問題。我們介紹了微軟的機器翻譯系統,並在廣泛使用的 WMT 2017 中英新聞翻譯任務上對該系統的譯文質量進行了評估。評估結果表明我們最新的神經機器翻譯系統實現了新的當前最優結果,譯文質量與人類專業譯者水平相當。我們還發現它顯著優於眾包業餘譯者的譯文質量。

2 人類翻譯水平

直觀來看,我們將與人類翻譯水平相當定義為:

1. 如果一個具備雙語能力的人判斷人類輸出的譯文質量與機器輸出的譯文質量相當,則機器達到人類水平。

2. 如果機器翻譯系統在測試集上的譯文質量評分(人工評分)與人類譯文得分沒有顯著差別,則機器達到人類水平。

微軟選擇了第二個定義來鑑定機器翻譯是否達到了人類翻譯水平,這相對而言比較公平且比較有實際意義。給定可靠的翻譯質量評分指標,基於人類直接測評的方式,我們可以使用成對統計顯著性檢驗來決定機器翻譯系統在測試集上是否達到了人類翻譯水平。

現有的多種機器翻譯評測方法通常基於參考譯文,可能會出現偏差,因此微軟採用了 WMT17 [6] 使用的直接評估方法作為人工評分方法。為了避免人工評分過程中出現偏差,微軟和 IWSLT17 [7] 一樣使用了基於來源(source-based)的評價方法。

4 實驗

表 1 第一部分展示了基線模型的結果。首先,我們對比了 WMT 2017 最佳結果搜狗系統 [42]。儘管搜狗系統是多個系統的集成,我們這裡仍把它作為對照。該表中的其他系統都是單個系統。我們的基線系統 Base 在 1800 萬句子上訓練。BT 在基線模型的基礎上添加了回譯數據。

表 1: WMT 2017 中英測試集上的自動評估結果(BLEU 值)。

選擇數據的實驗結果

Base8K 使用基線數據和回譯數據,但是它使用的模型架構較大,處理大型數據集的效果更好。

表 2:WMT 2017 中英測試集上的選擇數據評估結果。

組合系統的實驗結果

如表 3 所示,結合一組異構系統可以互補,實現更好的結果。我們對許多組合系統的配置與特徵進行了實驗,發現最有幫助的評分特徵為 SY SScore、LMScore、R2Lscore、R2LSV 和 E2ZSV。這是非常令人驚奇的,因為組合系統關注於建模相似的特徵。這可能是由於這些模型學習互補特徵,它們有額外的能力相互補充。

表 3:WMT 2017 中英測試集上的組合系統結果。

5 人類評估結果

表 4 展示了我們的大規模人類評估結果。基於這些結果,我們認為,根據定義 2,我們在新聞領域中英翻譯方面已經達到了人類水平,因為我們的系統結果和人類譯文無顯著差別。

表 4:人類評估結果(每個系統至少有 n≥1827 個評估結果)表明我們的研究系統 Combo-4、Combo-5 和 Combo-6 達到了和人類相當的中英翻譯水平(根據定義 2),因為其翻譯結果和 Reference-HT(人類翻譯)無顯著差別。我們所有系統的譯文質量都顯著超越了 Reference-PE(基於機器翻譯輸出的譯後編輯結果),以及 Reference-WMT(也是人類翻譯)。# 表示集群的排名,Ave% 是平均原始分數 r ∈ [0,100],Ave Z 表示標準 z 分數。n≥x 表示我們為該系統收集了至少 x 份評估結果。在表 5g 中表示為 Meta-1。

上表中,根據 p-level(p ≤ 0.05)的 Wilcoxon 秩和檢測(和 WMT17 一樣),更高層集群的系統顯著優於更低集群的系統。相同集群中的系統通過 z 分數進行排序(z 分數即圍繞平均值的標準差),z 分數在標註者級別上進行計算,以避免不同標註行為的影響,同時保證質量。

表 5:我們在 Subset-1(5a、5b、5c)上實現三次迭代的完整結果,以及在 Subset2 (5d)、Subset-3 (5e) 和 Subset-4 (5f) 上的評估結果對比。我們還展示了 Meta-1(5g)的組合數據結果,它將 Subset-1 上所有迭代的標註組合在一起。# 表示集群的排名、Ave % 表示平均原始分數,r ∈ [0,100]、Ave z 為標準化的 z 分數。n ≥ x 表示我們為各系統及其評估活動收集了至少 x 份評估結果。所有活動涉及 a = 15 個標註者。根據 p-level(p ≤ 0.05)上的 Wilcoxon 秩和檢驗,更高層集群中的系統顯著地優於低層集群中的所有系統。同一集群中的系統根據 z 分數排序,但同時與質量有緊密聯繫。

6 人類分析

表 7 展示了標註出的錯誤的分布,即包含特定錯誤類別的句子片段所佔比例。

表 7:錯誤分布,即包含特定錯誤類別的句子片段所佔的比例。

相關焦點

  • 微軟「中譯英」機器翻譯水平媲美人類
    微軟亞洲研究院宣布,微軟研究團隊研發的機器翻譯系統在通用新聞報導測試集 newstest2017 中 – 英測試集達到了可以與人工翻譯媲美的水平。這是首個在新聞報導的翻譯質量和準確率上可以比肩人工翻譯的翻譯系統。微軟亞洲研究院表示,機器翻譯是自然語言處理領域最具挑戰性的研究任務之一,這一系統模型包括由微軟亞洲研究院研發的對偶學習、推敲網絡、聯合訓練和一致性規範技術。
  • 人工智慧再下一城:機器翻譯提前7年達到人類專業翻譯水平
    由微軟亞洲研究院與雷德蒙研究院的研究人員組成的團隊今天宣布,其研發的機器翻譯系統在通用新聞報導的中譯英測試集上,達到了人類專業譯者水平。這是首個在新聞報導的翻譯質量和準確率上媲美人類專業譯者的翻譯系統。
  • 媲美人類有何不可?深度解讀微軟新 AI 翻譯系統四大秘技
    《機器翻譯新突破,微軟中英新聞翻譯達人類水平》中,我們介紹了微軟亞洲研究院與雷德蒙研究院共同研發的新的機器翻譯系統,微軟稱它在 newstest2017 的中-英測試集上達到了與人工翻譯媲美的水平。畢竟,我們時常見到新模型在公開測試中刷榜,能夠和人類拿到同樣的分數,但不一定換一個數據集就還能和人類媲美,尤其是對於靈活多變的人類語言而言;另一面,谷歌、搜狗、百度等網際網路巨頭都有自己神經網絡翻譯系統,大家都或多或少體驗過,即便最新的模型都普遍使用了注意力機制,但翻譯質量不盡如人意的地方仍時常出現,繼續做出大跨步式的突破又談何容易呢?
  • 微軟宣布重大裡程碑:中英機器翻譯水平可「與人類媲美」
    PingWest品玩3月15日報導,根據微軟亞洲研究院消息,今天,微軟研究團隊宣布其研發的機器翻譯系統在通用新聞報導測試集newstest2017的中-英測試集上達到了人類水平,這是首個在新聞報導的翻譯質量和準確率上可以比肩人工翻譯的翻譯系統。
  • 微軟技術院士黃學東:以人為師,機器翻譯達人類專業水平
    今年是黃學東加入微軟的第25年,但這位微軟老將至今仍活躍在人工智慧領域科學研究的前線。2018年3月份,他帶領的團隊在機器翻譯領域拿下一項裡程碑式的成就:其研發的機器翻譯系統在通用新聞報導的newstest2017中譯英測試集上,達到了人工翻譯水平。這是首個在新聞報導的翻譯質量和準確率上媲美人工翻譯的翻譯系統。
  • 微軟AI翻譯突破 中譯英已接近人類水平
    機器翻譯是幾十年來研究的重要課題,而且不少專家認為機器永遠無法做到像人一樣對話。但微軟的機器翻譯在上周打破了這一現狀,他們研發出了首個可以將中文翻譯成英文的人工智慧翻譯系統,而且表現的像人類一樣自然。
  • 微軟AI 翻譯重大突破:近人類語言中譯英
    微軟自然語言和機器翻譯工作的技術專家黃學東(Xuedong Huang)稱,這是最具挑戰性的自然語言處理任務的重要裡程碑之一。機器翻譯是科學家和技術人員們數十年來研究的課題,在此前很多時間裡,專家們認為機器永遠無法做到像人那樣說話與對話。微軟機器翻譯團隊試圖證明當使用中文和英文語言對話時,AI 可以表現得像人一樣自然,目前他們獲得了初步的成果。
  • 劉和平、韓林濤:下「機器翻譯替代人類」結論為時尚早
    這是全球首次在真實交際環境下測試機器同聲傳譯!150多名與會者見證了這一事件。一個星期後,我們拿到了為本次大會提供技術支持的Mark Seligman博士撰寫的的微軟機器翻譯應用報告初稿,鑑於技術保密等原因,我們這裡只從人工翻譯和機器翻譯對比的角度對此次人機比拼作出以下觀察思考。2018年3月15日camel AI科技評論消息稱,「機器翻譯新突破,微軟中英新聞翻譯達人類水平」。
  • 微軟提出新型通用神經機器翻譯方法,挑戰低資源語言翻譯問題
    近日微軟發布博客,提出一種半監督通用神經機器翻譯方法,解決低資源語言機器翻譯的問題,幫助解決方言和口語機器翻譯難題。該研究相關論文已被 NAACL 2018 接收。機器翻譯已經成為促進全球交流的重要組成部分。
  • 網易有道上線神經網絡翻譯質量媲美英語八級
    NMT與SMT英譯中結果對比據悉,與傳統的基於短語的統計翻譯模型相比,此次在有道上線的NMT翻譯質量的提升是SMT過去十年累計提升的總和。新聞和口語翻譯出色質量可媲美英語八級從翻譯界通用的BLEU值評價指標來看,此次在有道上線的NMT在新聞文章、英語學習及口語等場景下的英文翻譯,做得比同類國際產品更加出色。
  • 百度機器翻譯五大領域實現新突破 獲WMT2019中英翻譯冠軍
    、競爭最為激烈的機器翻譯任務之一。今年中英方向參賽隊伍有來自微軟、字節跳動、金山、愛丁堡大學、東北大學、日本情報通信研究院等國內外知名機器翻譯團隊。本屆大賽,百度翻譯團隊憑藉在數據處理、模型架構、數據增強、模型集成等方面的創新性突破,最終力壓群雄,取得第一。
  • 網易有道上線神經網絡翻譯 質量可媲美英語八級
    新聞和口語翻譯出色質量可媲美英語八級從翻譯界通用的BLEU值評價指標來看,此次在有道上線的NMT在新聞文章、英語學習及口語等場景下的英文翻譯,做得比同類國際產品更加出色。而丁磊也曾在內部表示,新聞和口語是中國人接觸英語最常見的兩個領域,應在這兩方面加大研究。
  • ...招聘高級區塊鏈開發工程師;微軟翻譯軟體「中譯英」比「英譯中...
    需要能夠自覺主動學習新技術,且能夠承受一定的壓力。但並沒有透露該區塊鏈項目的具體信息。(來源:鎂客網)大眾中國將從 4 月 30 日開始召回部分進口途銳汽車今年的 315 晚會上,部分進口途銳汽車被曝存在發動機進水問題。
  • 巨頭扎堆的小市場:不學外語,機器翻譯搞定一切?
    隨著人工智慧的發展,一改傳統機器翻譯的格局,隨著LSTM、 RNN等技術的加入,新時期機器翻譯在翻譯質量上最大的變革就是從PBMT到NMT的轉變,而其中,谷歌神經機器翻譯(GNMT:Google Neural Machine Translation)系統實現了到目前為止機器翻譯質量的最大提升。
  • 翻譯行業的發展方向:機器翻譯VS人工翻譯
    近年來,機器翻譯技術有了很多新的突破,在實際的語言服務實踐中,機器翻譯有了很多成功的案例。機器翻譯必將深刻影響翻譯服務行業,將給人工翻譯帶來實際的威脅。另一方面,機器翻譯以其人工翻譯難以比擬的速度,將提高人類對於海量信息的處理能力,彌補人工翻譯在速度和成本方面的不足。不管你喜不喜歡,你都無法迴避機器翻譯的發展。如何利用機器翻譯技術成了翻譯服務行業的重要課題。
  • 英語聽力:微軟展示即時語音翻譯系統最新成果
    微軟首席研究官瑞克·拉希德(Rick Rashid)博士在會上展示了語音機器翻譯實時演示(Speech to Speech Translation),瑞克博士一邊講述英文,系統就將英文立即翻譯成中文。  這是目前微軟研究院所即時語音翻譯系統的最新研究成果,這一系統不僅可以達到即時語音識別、雙語翻譯,更牛的是可以做到即時發音,效果已經接近同聲傳譯。
  • 重磅| 谷歌神經機器翻譯再突破:實現高質量多語言翻譯和zero-shot...
    》,介紹了谷歌的神經機器翻譯系統(GNMT),該系統實現了機器翻譯領域的重大突破,參見報導《重磅 | 谷歌翻譯整合神經網絡:機器翻譯實現顛覆性突破》。昨日,谷歌再發論文宣布了其在多語言機器翻譯上的突破:實現了 zero-shot 翻譯!昨天,谷歌在其官方博客上宣布其在谷歌翻譯(Google Translate)上再次取得重大進展。
  • 將科幻變成現實,谷歌百度用神經機器翻譯踐行人類的「巴別塔之夢」
    變革性的神經機器翻譯去年,谷歌提出了GNMT,神經機器翻譯(NMT: Neural Machine Translation)是一種用於自動翻譯的端到端的學習方法,該方法有望克服傳統的基於短語的翻譯系統的缺點。但 NMT 系統的訓練和翻譯推理的計算成本非常高,同時也難以應對罕見詞,這些問題阻礙了 NMT 在實際部署和服務中的應用,因為在實際應用中,準確度和速度都很關鍵。
  • 微軟小英:讓人工智慧幫你學英語—新聞—科學網
    用戶只需搜索「微軟小英」並關注,即可與小英一起學習英語。利用每天十幾分鐘的碎片時間「撩一撩」小英,讓英語學習成為新日常。 據悉,微軟小英最為與眾不同的功能便是可以實現用戶與小英用英文「愉快的聊天」。在人機對話時,用戶往往會犯「尷尬症」,因為計算機的發音生澀,對話進行並不會像與真人交流那麼自然。然而, 「微軟小英」的發音卻聽上去標準且不帶「機器口音」。
  • 翻譯器可翻譯方言和文言文 超出谷歌微軟的翻譯軟體能力
    翻譯器可翻譯方言和文言文 超出谷歌微軟的翻譯軟體能力 站長之家(ChinaZ.com) 4月1日 消息:最近,一款名叫DeepL的在線機器翻譯軟體在日本大火