同聲翻譯要失業了!微軟剛剛宣布:中英機器翻譯可與人類媲美

2020-12-11 AI前沿資訊

3月14日微軟亞洲研究院官網對外宣布,最新研發的機器翻譯系統在通用新聞報導測試集newstest2017的中-英測試集上,達到了可與人工翻譯媲美的水平。

這是首個在新聞報導的翻譯質量和準確率上可以比肩人工翻譯的翻譯系統。

該系統模型包含了由微軟亞洲研究院研發的對偶學習、推敲網絡、聯合訓練和一致性規範技術。機器翻譯是自然語言處理領域最具挑戰性的研究任務之一。

跨時區跨領域合作

微軟技術院士,負責微軟語音、自然語言和機器翻譯工作的黃學東稱,「這是對自然語言處理領域最具挑戰性任務的一項重大突破。在機器翻譯方面達到與人類相同的水平是所有人的夢想,我們沒有想到這麼快就能實現。」

微軟技術院士黃學東

機器翻譯是科研人員攻堅了數十年的研究領域,曾經很多人都認為機器翻譯根本不可能達到人類翻譯的水平。雖然此次突破意義非凡,但研究人員也提醒大家,這並不代表人類已經完全解決了機器翻譯的問題,只能說明我們離終極目標又更近了一步。微軟亞洲研究院副院長、自然語言計算組負責人周明表示,在WMT17測試集上的翻譯結果達到人類水平很鼓舞人心,但仍有很多挑戰需要我們解決,比如在實時的新聞報導上測試系統等。

微軟機器翻譯團隊研究經理Arul Menezes表示,團隊想要證明的是:當一種語言對(比如中-英)擁有較多的訓練數據,且測試集中包含的是常見的大眾類新聞詞彙時,那麼在人工智慧技術的加持下機器翻譯系統的表現可以與人類媲美。

微軟機器翻譯團隊研究經理Arul Menezes

雖然學術界和產業界的科研人員致力於機器翻譯研究很多年,但近兩年深度神經網絡的使用讓機器翻譯的表現取得了很多實質性突破,翻譯結果相較於以往的統計機器翻譯結果更加自然流暢。為了能夠取得中-英翻譯的裡程碑式突破,來自微軟亞洲研究院和雷德蒙研究院的三個研究組,進行了跨越中美時區、跨越研究領域的聯合創新。

其中,微軟亞洲研究院機器學習組將他們的最新研究成果——對偶學習(Dual Learning)和推敲網絡(Deliberation Networks)應用在了此次取得突破的機器翻譯系統中。微軟亞洲研究院副院長、機器學習組負責人劉鐵巖介紹道,「這兩個技術的研究靈感其實都來自於我們人類的做事方式。」

微軟亞洲研究院副院長、機器學習組負責

周明帶領的自然語言計算組多年來一直致力於攻克機器翻譯,這一自然語言處理領域最具挑戰性的研究任務。周明表示,「由於翻譯沒有唯一的標準答案,它更像是一種藝術,因此需要更加複雜的算法和系統去應對。」自然語言計算組基於之前的研究積累,在此次的系統模型中增加了另外兩項新技術:聯合訓練(Joint Training)和一致性規範(Agreement Regularization),以提高翻譯的準確性。聯合訓練可以理解為用迭代的方式去改進翻譯系統,用中英翻譯的句子對去補充反向翻譯系統的訓練數據集,同樣的過程也可以反向進行。一致性規範則讓翻譯可以從左到右進行,也可以從右到左進行,最終讓兩個過程生成一致的翻譯結果。

微軟亞洲研究院副院長周明

四大技術為創新加持

該系統包含的四大技術:

對偶學習臺(Dual Learning)

對偶學習利用的是人工智慧任務的天然對稱性。其發現是由於現實中有意義、有實用價值的人工智慧任務往往會成對出現,兩個任務可以互相反饋,從而訓練出更好的深度學習模型。例如,在翻譯領域,我們關心從英文翻譯到中文,也同樣關心從中文翻譯回英文;在語音領域,我們既關心語音識別的問題,也關心語音合成的問題;在圖像領域,圖像識別與圖像生成也是成對出現。此外,在對話引擎、搜尋引擎等場景中都有對偶任務。

一方面,由於存在特殊的對偶結構,兩個任務可以互相提供反饋信息,而這些反饋信息可以用來訓練深度學習模型。也就是說,即便沒有人為標註的數據,有了對偶結構也可以做深度學習。另一方面,兩個對偶任務可以互相充當對方的環境,這樣就不必與真實的環境做交互,兩個對偶任務之間的交互就可以產生有效的反饋信號。因此,充分地利用對偶結構,就有望解決深度學習和增強學習的瓶頸,如「訓練數據從哪裡來、與環境的交互怎麼持續進行」等問題。

對偶無監督學習框架

推敲網絡(Deliberation Network)

「推敲」二字可以認為是來源於人類閱讀、寫文章以及做其他任務時候的一種行為方式,即任務完成之後,並不當即終止,而是會反覆推敲。微軟亞洲研究院機器學習組將這個過程沿用到了機器學習中。推敲網絡具有兩段解碼器,其中第一階段解碼器用於解碼生成原始序列,第二階段解碼器通過推敲的過程打磨和潤色原始語句。後者了解全局信息,在機器翻譯中看,它可以基於第一階段生成的語句,產生更好的翻譯結果。

推敲網絡的解碼過程

腦聯合訓練(Joint Training)

這個方法可以認為是從源語言到目標語言翻譯(Source to Target)的學習與從目標語言到源語言翻譯(Target to Source)的學習的結合。中英翻譯和英中翻譯都使用初始並行數據來訓練,在每次訓練的迭代過程中,中英翻譯系統將中文句子翻譯成英文句子,從而獲得新的句對,而該句對又可以反過來補充到英中翻譯系統的數據集中。同理,這個過程也可以反向進行。這樣雙向融合不僅使得兩個系統的訓練數據集大大增加,而且準確率也大幅提高。

從源語言到目標語言翻譯(Source to Target)P(y|x) 與從目標語言到源語言翻譯(Target to Source)P(x|y)

一致性規範(Agreement Regularization)

翻譯結果可以從左到右按順序產生,也可以從右到左進行生成。該規範對從左到右和從右到左的翻譯結果進行約束。如果這兩個過程生成的翻譯結果一樣,一般而言比結果不一樣的翻譯更加可信。這個約束,應用於神經機器翻譯訓練過程中,以鼓勵系統基於這兩個相反的過程生成一致的翻譯結果。

沒有「正確的」翻譯結果

newstest2017新聞報導測試集包括約2000個句子,由專業人員從在線報紙樣本翻譯而來。微軟團隊對測試集進行了多輪評估,每次評估會隨機挑選數百個句子翻譯。為了驗證微軟的機器翻譯是否與人類的翻譯同樣出色,微軟沒有停留在測試集本身的要求,而是從外部聘請了一群雙語語言顧問,將微軟的翻譯結果與人工翻譯進行比較。

驗證過程之複雜也從另一個側面體現了機器翻譯要做到準確所面臨的複雜性。對於語音識別等其它人工智慧任務來說,判斷系統的表現是否可與人類媲美相當簡單,因為理想結果對人和機器來說完全相同,研究人員也將這種任務稱為模式識別任務。;

然而,機器翻譯卻是另一種類型的人工智慧任務,即使是兩位專業的翻譯人員對於完全相同的句子也會有略微不同的翻譯,而且兩個人的翻譯都不是錯的。那是因為表達同一個句子的「正確的」方法不止一種。 周明表示:「這也是為什麼機器翻譯比純粹的模式識別任務複雜得多,人們可能用不同的詞語來表達完全相同的意思,但未必能準確判斷哪一個更好。」

複雜性讓機器翻譯成為一個極有挑戰性的問題,但也是一個極有意義的問題。劉鐵巖認為,我們不知道哪一天機器翻譯系統才能在翻譯任何語言、任何類型的文本時,都能在「信、達、雅」等多個維度上達到專業翻譯人員的水準。不過,他對技術的進展表示樂觀,因為每年微軟的研究團隊以及整個學術界都會發明大量的新技術、新模型和新算法,「我們可以預測的是,新技術的應用一定會讓機器翻譯的結果日臻完善。」

研究團隊還表示,此次技術突破將被應用到微軟的商用多語言翻譯系統產品中,從而幫助其它語言或詞彙更複雜、更專業的文本實現更準確、更地道的翻譯。此外,這些新技術還可以被應用在機器翻譯之外的其他領域,催生更多人工智慧技術和應用的突破。

相關焦點

  • 微軟宣布重大裡程碑:中英機器翻譯可與人類媲美
    【環球網科技 記者 林迪】日前,環球網科技記者從微軟亞洲研究院官網了解到,其研究團隊對外宣布,最新研發的機器翻譯系統在通用新聞報導測試集newstest2017的中-英測試集上,達到了可與人工翻譯媲美的水平。
  • 微軟宣布!中英機器翻譯水平媲美人類
    IT之家3月14日消息 根據微軟亞洲研究院消息,今天,微軟研究團隊宣布其研發的機器翻譯系統在通用新聞報導測試集newstest2017的中-英測試集上達到了人類水平,這是首個在新聞報導的翻譯質量和準確率上可以比肩人工翻譯的翻譯系統。
  • 又一裡程碑:微軟宣布中英機器翻譯達到人類水平
    【網易智能訊3月15日消息】昨天,由微軟亞洲研究院與雷德蒙研究院的研究人員組成的團隊宣布,其研發的機器翻譯系統在通用新聞報導測試集newstest2017的中-英測試集上,達到了可與人工翻譯媲美的水平,微軟稱這是首個在新聞報導的翻譯質量和準確率上可以比肩人工翻譯的翻譯系統。
  • 微軟宣布其中英機器翻譯水平可與人類相當
    網易科技訊3月14日消息,繼在語音識別和機器閱讀領域取得的「過人」成績,由微軟亞洲研究院與雷德蒙研究院的研究人員組成的團隊今天宣布,其研發的機器翻譯系統在通用新聞報導測試集newstest2017的中-英測試集上,達到了可與人工翻譯媲美的水平。這是首個在新聞報導的翻譯質量和準確率上可以比肩人工翻譯的翻譯系統。
  • 微軟宣布重大裡程碑:中英機器翻譯水平可「與人類媲美」
    PingWest品玩3月15日報導,根據微軟亞洲研究院消息,今天,微軟研究團隊宣布其研發的機器翻譯系統在通用新聞報導測試集newstest2017的中-英測試集上達到了人類水平,這是首個在新聞報導的翻譯質量和準確率上可以比肩人工翻譯的翻譯系統。
  • 微軟人工智慧又一裡程碑:微軟中-英機器翻譯水平可「與人類媲美」
    繼在語音識別和機器閱讀領域取得的「過人」成績,由微軟亞洲研究院與雷德蒙研究院的研究人員組成的團隊今天宣布,其研發的機器翻譯系統在通用新聞報導測試集newstest2017的中-英測試集上,達到了可與人工翻譯媲美的水平。這是首個在新聞報導的翻譯質量和準確率上可以比肩人工翻譯的翻譯系統。
  • 機器翻譯新突破,微軟中英新聞翻譯達人類水平
    雷鋒網AI科技評論消息:14日晚,微軟亞洲研究院與雷德蒙研究院的研究人員宣布,其研發的機器翻譯系統在通用新聞報導測試集newstest2017的中-英測試集上,達到了可與人工翻譯媲美的水平;這是首個在新聞報導的翻譯質量和準確率上可以比肩人工翻譯的翻譯系統。
  • 微軟「中譯英」機器翻譯水平媲美人類
    微軟亞洲研究院宣布,微軟研究團隊研發的機器翻譯系統在通用新聞報導測試集 newstest2017 中 – 英測試集達到了可以與人工翻譯媲美的水平。這是首個在新聞報導的翻譯質量和準確率上可以比肩人工翻譯的翻譯系統。
  • 微軟宣布中英機器翻譯水平媲美人類 可應用於整個AI研究...
    微軟亞洲和美國實驗室的研究人員表示,他們的系統在一套常用的新聞報導測試集上實現了達到了人類水平,測試集名為newstest2017。系統是由一群行業和學術合作夥伴開發的,去年秋天在WMT17研討會上發布。為確保結果既準確又符合人們的期望,團隊聘請了外部雙語人力評估人員,他們將微軟的結果與兩個獨立製作的人類參考翻譯進行了比較。
  • 中到英新聞翻譯媲美人類,微軟機器翻譯新突破
    今日,微軟研究團隊表示,微軟和微軟亞研創造了首個在質量與準確率上匹配人類水平的中英新聞機器翻譯系統。黃學東告訴機器之心,他們採用專業人類標註與盲測評分代替 BLEU 分值而具有更高的準確性,且新系統相比於現存的機器翻譯系統有非常大的提升。
  • 微軟機器翻譯新突破 中譯英水平可與人類相當
    繼在語音識別和機器閱讀領域取得的「過人」成績,由微軟亞洲研究院與雷德蒙研究院的研究人員組成的團隊今天宣布,其研發的機器翻譯系統在通用新聞報導測試集newstest2017的中-英測試集上,達到了可與人工翻譯媲美的水平。這是首個在新聞報導的翻譯質量和準確率上可以比肩人工翻譯的翻譯系統。
  • 微軟AI翻譯取得突破進展:準確率可與人類翻譯媲美
    3月15日早間消息,一組微軟研究人員在3月14日發表博客文章稱,在利用深層神經網絡人工智慧(AI)訓練技術翻譯文本方面取得了進展。他們發明了第一臺機器翻譯系統,可以將中文新聞的句子翻譯成英文,準確率與人類不相上下。
  • 微軟宣布在「機器中英雙語翻譯」領域取得突破性進展
    本周三,微軟的研究團隊宣布發明了第一個機器翻譯系統,可以自動將中文文章翻譯成英文,翻譯精度能和人類水平相當。研究團隊抽取並測試了在線新聞中近2000個中文句子的中譯英,這份樣本被稱為newstest2017,再和人工翻譯進行結果對比,還聘請了雙語專家來驗證機器翻譯的準確性。
  • 機器翻譯系統提前7年達到人類專業翻譯水平
    由微軟亞洲研究院與雷德蒙研究院的研究人員組成的團隊今天宣布,其研發的機器翻譯系統在通用新聞報導的中譯英測試集上,達到了人類專業譯者水平。   裡程碑式突破:首個媲美人類專業水平的機器翻譯系統   這次微軟的翻譯系統是在數據集 WMT-17 的新聞數據集 newstest2017 上取得了上述成果。WMT 是機器翻譯領域的國際頂級評測比賽之一。WMT 數據集也是機器翻譯領域一個公認的主流數據集。
  • 人工智慧再下一城:機器翻譯提前7年達到人類專業翻譯水平
    由微軟亞洲研究院與雷德蒙研究院的研究人員組成的團隊今天宣布,其研發的機器翻譯系統在通用新聞報導的中譯英測試集上,達到了人類專業譯者水平。這是首個在新聞報導的翻譯質量和準確率上媲美人類專業譯者的翻譯系統。
  • 微軟智能翻譯技術新突破:機器翻譯提前7年達到人類專業翻譯水平
    由微軟亞洲研究院與雷德蒙研究院的研究人員組成的團隊四月宣布稱,其研發的機器翻譯系統在通用新聞報導的中譯英測試中,達到了人類專業譯者水平。這是首個在新聞報導的翻譯質量和準確率上媲美人類專業譯者的翻譯系統。
  • 微軟的裡程碑式突破:AI中翻英效果媲美人類
    摘要:微軟周三稱,研發出了首個媲美人類水平的中翻英系統。這一翻譯目前已經開放,也在一定程度上顯示出了相對更高的翻譯水平,但目前全世界的英翻中水平,似乎都仍有待提高……微軟周三稱,機器翻譯取得重要進展,研發出了首個媲美人類水平的中翻英系統。
  • AI 翻譯能夠取代人類?微軟黃學東:我們仍在感知智能和認知智能的...
    自從谷歌推出神經網絡機器翻譯(NMT),將機器翻譯準確率大幅提高到87%,AI翻譯成了大眾關注的熱點。在3月29日新智元產業·躍遷技術峰會上,黃學東博士分享了微軟在語音、自然語言和機器翻譯研究中不斷「開掛」的歷程和技術細節。黃學東說,人類進化的長河中語音和語言起了決定性的作用,在人工智慧的進化當中語音和語言會起到同樣的作用。
  • AI同傳效果媲美人類,百度翻譯出品全球首個上下文感知機器同傳模型
    並且PK 3位經驗豐富的人類同傳譯員,最終結果極具競爭力,在評估所用的BLEU和人工評價雙重評價中,度同傳均達到與人類專員媲美的水平。  論文中還介紹,該系統已成功應用於百度2019開發者大會,將演講內容實時地翻譯給現場觀眾收聽。現場反饋,延時大多不到3秒。    與傳統的字幕投屏同傳相比,算得上是真正的沉浸式體驗,如同人工同傳一般。
  • 機器翻譯革命強勢來襲 人類翻譯將無路可走?
    這一切都源於一項近年來不斷取得突破的技術——機器翻譯。人工智慧推波助瀾全球知名翻譯公司「一小時翻譯」執行長奧弗·紹尚日前警告說,未來1至3年內,基於神經網絡翻譯技術的機器翻譯將會承擔價值400億美元翻譯市場上的近一半工作,預計會導致50萬名翻譯失業。