AI同傳效果媲美人類,百度翻譯出品全球首個上下文感知機器同傳模型

2020-12-24 和訊科技

　　魚羊發自凹非寺

　　量子位報導 | 公眾號 QbitAI

　　AI同傳領域又有新進展，這次突破來自百度。

　　百度機器翻譯團隊創新性地提出了全球首個感知上下文的機器同傳模型，並基於此發布了最新的語音到語音的機器同傳系統：DuTongChuan（度同傳）。

　　該系統基於百度飛槳PaddlePaddle平臺開發，可以實時地翻譯演講內容並以語音播報的形式傳遞給觀眾。

　　在最新提交的論文（見傳送門）結果中：

　　漢譯英準確率85.71%，英譯漢準確率86.36%。

　　並且PK 3位經驗豐富的人類同傳譯員，最終結果極具競爭力，在評估所用的BLEU和人工評價雙重評價中，度同傳均達到與人類專員媲美的水平。

　　論文中還介紹，該系統已成功應用於百度2019開發者大會，將演講內容實時地翻譯給現場觀眾收聽。現場反饋，延時大多不到3秒。

　　與傳統的字幕投屏同傳相比，算得上是真正的沉浸式體驗，如同人工同傳一般。

　　百度方面介紹，度同傳系統，能夠實現語音到語音的機器同傳，其中核心技術所在，是全球首個上下文感知機器同傳模型。

　　具體原理如何，我們結合論文解析一二。

　　三大秘籍

　　一個人類同聲傳譯人員，在進行翻譯的時候會把聽到的內容劃分成一個一個語義塊，對一段話進行理解翻譯，既不是逐字翻譯，也不是逐句翻譯，這樣既能保證語義不變，又能保證實時性。

　　百度翻譯團隊由此得到靈感，教給度同傳同聲傳譯秘籍第一招：

　　語義信息單元（Information Unit，IU）

　　傳統的機器同傳存在一個比較尷尬的問題是，它的翻譯並不流暢。

　　舉個例子：

　　對於「所以它會在畫布上面，自己創建一個虛擬的這個網格」這個句子，整句NMT（神經機器翻譯）模型能夠生成準確的翻譯。問題是，這樣的模型需要等到一個完整句子結束，才能開始翻譯。

　　這顯然不符合同聲傳譯的要求，時延太高了。

　　子句NMT模型倒是降低了延遲，因為它在讀取源文本中的逗號後就會開始翻譯，但是第二個子句翻譯的內容「創建你自己的虛擬網格（creat a virtual grid of your own）」不符合原意。

　　一個太慢，一個翻譯不通順，這時候，語義信息單元IU就派上用場了。

　　模型會不斷從自動語音識別（ASR）模型中讀取實時語音流，並確定其信息單元邊界，將語音流切分成一個一個翻譯單元。

　　這個切分的過程靠的是基於動態上下文的信息單元邊界檢測器。

　　它是這樣工作的：

　　當錨點在「姬」這個字上的時候，如果當前邊界決策的概率小於某個閾值，那麼就必須考慮更多的上下文（添加額外的上下文「這個」），得到更可靠的決策。這之後，「那個叫什麼什麼呃妖姬」這幾個字就被標記為一個信息單元。

　　也就是說，模型會學習確定當前錨點的潛在類別，一旦分類確定，它前面的序列就被標記為一個信息單元。

　　這個模型的一個顯著特點是被允許參考更多的上下文，所以它的預測也會更加可靠。

　　只有IU還不夠。

　　秘籍二：創新解碼算法

　　為了提升翻譯的流暢度和一致性，百度還提出了兩種創新解碼算法：部分解碼（Partial Decoding）和上下文感知解碼（Context-aware Decoding）。

　　部分解碼

　　在上下文感知翻譯模型中，需要翻譯的信息單元通常都是句子的一部分，並非完整的一個句子。而傳統的NMT模型通常在僅包含完整句子的雙語語料庫中進行訓練，如果用傳統訓練方式的NMT模型解碼信息單元，容易產生過度翻譯和漏譯等問題。

　　除了這個問題之外，還要考慮到人類同聲傳譯員通常都是會進行預判的，有些話講話的人還沒說出口，同聲傳譯員就已經翻譯出來了。

　　為了解決上述問題，度同傳設計了一個部分解碼模型，用於翻譯一個句子的第一個信息單元。

　　在訓練階過程中，在預測第一個信息單元翻譯內容時，通過掩蓋句子中其他信息單元的內容，可以讓模型同時學習預測目標譯文和部分原文信息，達到提前預測的功能。

　　上下文感知解碼

　　對於句子中其他的信息單元，則採用上下文感知解碼模型進行翻譯。

　　此模型的特點是：

　　? 在訓練過程中，強迫該模型學習如何在給定部分翻譯內容的情況下繼續翻譯。

　　? 在解碼過程中，丟棄一部分此前生成的翻譯，以便進行更流暢的翻譯。

　　就像這樣，在訓練期間，不屏蔽源輸入，但屏蔽與第一個信息單元對齊的翻譯內容。這種策略能迫使模型學會補全剩餘的翻譯內容，而不是聚焦於生成完整句子的翻譯。

　　此外，在解碼階段，上下文感知模型會丟棄已生成部分翻譯的最後k個符號，而後完成其餘的翻譯，以生成更為流暢的翻譯結果。其中的原理是，前序信息單元尾部的翻譯很大程度上會影響到後續信息單元的翻譯內容。

　　△k=1

　　如此一來，度同傳就能夠結合上下文信息，生成全局流暢的譯文，還克服了傳統模型以句子為翻譯單位，譯文不連貫、時延長等缺點。

　　這就完事了？並不。為了推動語音翻譯的研究，百度翻譯團隊還開源了一個寶庫。

　　秘籍三：BSTC

　　BSTC是全球首個中文-英文演講場景語音翻譯數據集，總共包含超過50小時的演講語音和對應的轉錄文本、時間軸、翻譯文本等數據資源。涉及IT、經濟、文化、生物、藝術等多個演講主題。

　　該數據集現已開源，下載連結可在文末自取。

　　媲美人類，機器與人類各有所長

　　為了驗證度同傳的本領，百度翻譯團隊邀請了3位具有3-7年工作經驗的同聲傳譯員S，A，B。

　　研究團隊模擬了一個真實的同傳場景，讓機器同傳和同聲傳譯員們對BSTC中的同一個演講進行同聲傳譯。

　　無論是傳統的BLEU自動評價指標（一種用於評估從一種自然語言機器翻譯到另一種自然語言的文本質量的算法），還是人工評價方法，機器同傳都表現出了極具競爭力的翻譯水平。

　　BLEU和人工評價均基於轉寫後的譯文文本，BLEU指標基於n-gram嚴格匹配計算得分，而人工評價更注重譯文的完整性和流暢度，類似於用筆譯的標準評價口譯。

　　△BAD：譯文不準確；OK：譯文不影響理解，允許有少許錯誤；GOOD：譯文準確

　　可以看到，在可接受度（Acceptability）上，機器同傳與表現最好的人類選手表現相當（73.91% VS 73.04%）。

　　而在漏譯率上，機器同傳則遠遠甩開了人類競爭對手（20% VS 47%）。

　　當然了，在漏譯率明顯高於機器的情況下，人類同傳譯員仍保持了高可接受度，說明人類在實時性要求高、腦力工作強度大的情況下，能夠靈活變通，突出重要信息的傳遞。而機器勝在不知疲倦，漏譯率低。

　　值得注意的是，剛公開論文的度同傳，實際已在2019百度AI開發者大會完成實戰檢驗。

　　從人工測評結果來看，度同傳的中英同傳可接受度達到了85.71%，英中同傳可接受度則達到了86.36%。根據現場使用體驗，合成語音的平均延遲在3秒以內。

　　總結來說：語音到語音，高質量，低時延。

　　不過眼見方為實，如果想要親自體驗一下百度翻譯AI同傳，現在百度翻譯也給出了開放平臺申請渠道。

　　此外，度同傳作為一項服務已經集成到了百度的AI平臺上，相信不久之後還能在更多產品、更多落地場景中應用。更多C端用戶，也能直接體驗。

　　傳送門

　　體驗申請連結：

　　https://fanyi-api.baidu.com/api/trans/product/simultaneous

　　BSTC數據集：

　　http://ai.baidu.com/broad/subordinate?dataset=bstc

　　論文連結：

　　https://arxiv.org/abs/1907.12984

本文首發於微信公眾號：量子位。文章內容屬作者個人觀點，不代表和訊網立場。投資者據此操作，風險請自擔。

（責任編輯：董雲龍）

相關焦點

百度大腦開放日召開機器翻譯專場百度AI同傳翻譯性能可媲美人類

自2010年以來，百度翻譯在大規模產業化機器翻譯模型、海量翻譯知識獲取、多語言翻譯統一框架、機器同聲傳譯等方面進行了系統而深入的研究，取得重大技術突破，研製了具有完全自主智慧財產權、技術先進、功能豐富的機器翻譯系統，實時準確地響應全球海量複雜多樣的翻譯請求。
百度發布AI同傳,有哪些核心技術?

百度AI技術生態部總經理喻友平在演講時，左右兩邊的屏幕上實時呈現了中英文字幕，從現場效果來看，語音識別的準確率很高，實時的機器翻譯也做得不錯，順利支持了整個演講。PZdednc1）高質量語音識別系統PZdednc百度語音識別是採用的基於Deep Peak 2的中英文混合建模，包1749個上下文無關中文音節和1868個上下文無關英文音節；區別於傳統的都採用上下文相關建模，基於Deep Peak 2的中英文混合建模採用的是上下文無關音素組合的建模單元
打破語言壁壘,百度翻譯同傳為智源大會構建跨國溝通橋梁

受疫情影響，本屆大會以在線直播的形式舉行，吸引了全球學術界、產業界超過2.5萬人報名參會。為了更好的幫助國內外觀眾理解報告內容，百度翻譯為本次大會提供了機器同傳服務。針對這些難題，百度翻譯團隊展開攻關，先後提出了集成預測與可控時延的翻譯模型、語義單元驅動的上下文感知翻譯模型、融合音節與文本的聯合編碼模型、基於知識蒸餾的端到端同傳模型、語音識別與翻譯交互解碼等一系列創新技術，在語音容錯、平衡質量與時延、語篇翻譯連貫性和端到端同傳模型等方面取得突破，研發了高質量、低時延的機器同傳系統。
小度真無線耳機+百度AI同傳解決方案打造耳邊"翻譯官"

（百度翻譯APP AI同傳效果）與此同時，AI同傳在各種國際大會中頻現，對會議信息的傳達、國內外參會者的交流起到了重要作用。2020年百度AI同傳支持了包括中國國際服務貿易交易會、北京智源大會、全球人工智慧大會等幾十個影響力深遠、專業性強的大型國際會議，幫助國內外觀眾實時準確地了解會議內容。
小度真無線耳機+百度AI同傳解決方案打造耳邊「翻譯官」

（小度真無線耳機媒體評價）經了解，小度真無線耳機的同傳模式背後是由百度自主研發的一套高質量、低時延的同傳解決方案，融合了百度領先的機器翻譯、語音處理等人工智慧技術。（百度翻譯APP AI同傳效果）（百度AI同傳助手效果）隨著全球化的發展和科技的進步，大量會議從單一的線下模式升級為了線上、線下並行，全球各地的嘉賓和觀眾可自由參會。與此同時，AI同傳在各種國際大會中頻現，對會議信息的傳達、國內外參會者的交流起到了重要作用。
AI同傳新突破:搜狗同傳3.0創語境引擎,PPT內容翻譯正確率提40%

機器之心報導機器之心編輯部這是第一款多模態人工智慧語音同傳產品，搜狗同傳 3.0 將智能同傳準確性帶到了新的高度。上周六，搜狗發布了業內首個多模態同傳產品——搜狗同傳 3.0 版。搜狗表示，同傳 3.0 主要帶來了三個方向上的提升：更加接近自然，從單純的語音識別到語音+圖像，新的方法模擬了人工同傳的工作方式，增加視覺和大腦擴散知識點的功能，擁有更為複雜的感知系統。
貫穿服貿會五天會期百度AI同傳打通語言交流壁壘

為了讓世界各地的觀眾能夠及時、準確地了解中國服務貿易與科研創新的最新進展，百度翻譯為服貿會「成果發布」環節提供了全程AI同傳服務。根據官網信息，在連續五天的成果發布環節，多達62家企業代表登臺演講，涵蓋人工智慧、網際網路、金融醫療、教育旅遊、物流餐飲等眾多領域。對中外觀眾而言，高質高效地傳遞會議內容是彼此交流的重要保障。
百度翻譯同傳頻現國際會議搭建中外溝通橋梁

7月25日-26日，2020全球人工智慧技術大會在杭州正式拉開帷幕，近160位國內外人工智慧領域的專家、學者匯聚杭州，圍繞AI學科前沿和尖端技術展開研討，共話AI未來。本次大會共吸引了超過1100萬人次在線觀看，為了讓國內外觀眾第一時間了解大會內容，百度翻譯為大會提供了機器同傳服務。
百度聯合谷歌主辦同傳學術講習班創新技術+產品助力跨語言交流

EMNLP由國際計算語言學學會（ACL）旗下SIGDAT組織，會議涵蓋語義理解、文本理解、信息提取、信息檢索和機器翻譯等主題。會上，由百度聯合Google舉辦的首次機器同聲傳譯學術講習班（Tutorial）召開，圍繞機器同傳的背景、挑戰、模型、數據集、實用系統和產品、未來研究方向等展開報告和研討，吸引了數百位國際學者參會。
2020服貿會:AI同傳打通語言交流壁壘

為了讓世界各地的觀眾能夠及時、準確地了解中國服務貿易與科研創新的最新進展，百度翻譯為服貿會「成果發布」環節提供了全程AI同傳服務。據悉，在連續五天的成果發布環節，多達62家企業代表登臺演講，涵蓋人工智慧、網際網路、金融醫療、教育旅遊、物流餐飲等眾多領域。對中外觀眾而言，高質高效地傳遞會議內容是彼此交流的重要保障。
百度翻譯打造定製化翻譯服務、AI同傳等全產品矩陣企業效率工具擔當

自2010年以來，百度翻譯在大規模產業化機器翻譯模型、海量翻譯知識獲取、多語言翻譯統一框架、機器同聲傳譯等方面進行了系統而深入的研究，取得重大技術突破，研製了具有完全自主智慧財產權、技術先進、功能豐富的機器翻譯系統，實時準確地響應全球海量複雜多樣的翻譯請求。
百度聽清亮相2018百度世界大會化身為李彥宏的「AI專屬翻譯」

這也是百度聽清第二次承擔起百度世界大會中英文「直播」工作，從現場可以看到，即使語速較快或混雜著英文、專業名詞，它也能準確識別並翻譯出來，伴隨演講者的演講節奏實時上屏，智能且精準，絲毫不遜色於專業同傳人員。據介紹，百度聽清搭載了百度全新推出的即時機器翻譯系統。
科大訊飛AI同傳造假?你以為是機器在同傳,其實是人工……

9月20日，一位同傳譯員在知乎上發文稱，在上海的一場會議中，訊飛的翻譯其實為人工同傳，並非機器智能翻譯，並且譯文由機器進行朗讀。這容易讓觀眾產生「都是人工智慧翻譯」的錯覺，而忽略背後同傳譯員們的勞動成果。對此，9月21日，科大訊飛的回覆是，「科大訊飛從來沒有把同傳翻譯包裝成機器翻譯。」
百度機器翻譯現在都能預測你未來幾秒要說的話了!

其實這是百度在機器同傳中研發的最新技術，有預測和可控延遲能力，能實現兩種語言之間的高質量、低延遲翻譯。它的出現讓機器同傳又有了新進展！在我們了解機器同傳之前，首先要知道人類同傳是什麼。而 AI 機器同傳就是把人類翻譯工作的過程用 AI 技術來代替。機器同傳運用語音識別技術自動識別演講者的講話內容，把語音轉化為文字，然後調用機器翻譯引擎，將文字翻譯為目標語言，顯示在大屏幕或者通過語音合成再播放出來。
百度發布即時翻譯「神器」突破自然語言處理重大難關

相比人類譯員，機器最大的優勢是不會因為疲倦而導致譯出率下降，能將所有「聽到」的句子全部翻譯出來，這使得機器的「譯出率」可以達到100%，遠高於人類譯員的60%-70%。同時，在價格上也佔有優勢。在機器同傳領域，百度聯合語音技術、機器翻譯技術，從語音識別、翻譯質量、時延、融合領域知識等方面推出了「一攬子」解決方案。
EMNLP 2020線上舉辦詳解機器同聲傳譯技術演進

EMNLP由國際計算語言學學會（ACL）旗下SIGDAT組織，會議涵蓋語義理解、文本理解、信息提取、信息檢索和機器翻譯等主題。會上，由百度聯合Google舉辦的首次機器同聲傳譯學術講習班（Tutorial）召開，圍繞機器同傳的背景、挑戰、模型、數據集、實用系統和產品、未來研究方向等展開報告和研討，吸引了數百位國際學者參會。
人工智慧真的可以取代同傳翻譯嗎?

前陣子，一位同傳翻譯員聲討科大訊飛「AI同傳造假」，在網上引起了軒然大波。人工智慧和同傳翻譯由此成為大家熱議的話題。今天，我們來談一談「人工智慧翻譯是否真的可以取代同傳翻譯員」？同聲傳譯有多難？機器翻譯如能代替同聲傳譯無疑具有巨大的價值。人工智慧翻譯的水平如何？那麼，人工智慧同傳翻譯的能力究竟怎樣？會不會搶走同傳翻譯員的飯碗呢？
全球首個突破200種語言互譯的翻譯引擎百度翻譯打破世界溝通壁壘

自2010年以來，百度翻譯在大規模產業化機器翻譯模型、海量翻譯知識獲取、多語言翻譯統一框架、機器同聲傳譯等方面進行了系統而深入的研究，取得重大技術突破，研製了具有完全自主智慧財產權、技術先進、功能豐富的機器翻譯系統，實時準確地響應全球海量複雜多樣的翻譯請求。
烏鎮網際網路大會官方首次使用AI同傳,搜狗為雷軍提供機器翻譯

為期三天的盛會圍繞著「創造共治的數字世界，攜手共建網絡空間命運共同體」主題，重點探討人工智慧、5G、大數據、網絡安全、數字絲路等熱點議題，展示全球網際網路領域的領先科技成果。值得一提的是，搜狗同傳作為本屆大會智慧化應用的重要組成部分，是世界網際網路大會有史以來，AI同傳首次服務官方主議程。
全球AI翻譯服務代表性提供商揭曉百度翻譯價值凸顯強勢入圍

近日，全球權威的技術研究與諮詢機構Gartner發布最新報告《Market Guide for AI-Enabled Translation Services》，百度憑藉在機器翻譯方面出色的表現強勢入圍全球AI翻譯服務代表性提供商（representative vendor）。

AI同傳效果媲美人類,百度翻譯出品全球首個上下文感知機器同傳模型

相關焦點

百度大腦開放日召開機器翻譯專場 百度AI同傳翻譯性能可媲美人類

百度發布AI同傳,有哪些核心技術?

打破語言壁壘,百度翻譯同傳為智源大會構建跨國溝通橋梁

小度真無線耳機+百度AI同傳解決方案 打造耳邊"翻譯官"

小度真無線耳機+百度AI同傳解決方案 打造耳邊「翻譯官」

AI同傳新突破:搜狗同傳3.0創語境引擎,PPT內容翻譯正確率提40%

貫穿服貿會五天會期 百度AI同傳打通語言交流壁壘

百度翻譯同傳頻現國際會議 搭建中外溝通橋梁

百度聯合谷歌主辦同傳學術講習班 創新技術+產品助力跨語言交流

2020服貿會:AI同傳打通語言交流壁壘

百度翻譯打造定製化翻譯服務、AI同傳等全產品矩陣 企業效率工具擔當

百度聽清亮相2018百度世界大會 化身為李彥宏的「AI專屬翻譯」

科大訊飛AI同傳造假?你以為是機器在同傳,其實是人工……

百度機器翻譯現在都能預測你未來幾秒要說的話了!

百度發布即時翻譯「神器」 突破自然語言處理重大難關

EMNLP 2020線上舉辦 詳解機器同聲傳譯技術演進

人工智慧真的可以取代同傳翻譯嗎?

全球首個突破200種語言互譯的翻譯引擎 百度翻譯打破世界溝通壁壘

烏鎮網際網路大會官方首次使用AI同傳,搜狗為雷軍提供機器翻譯

全球AI翻譯服務代表性提供商揭曉 百度翻譯價值凸顯強勢入圍

百度大腦開放日召開機器翻譯專場百度AI同傳翻譯性能可媲美人類

小度真無線耳機+百度AI同傳解決方案打造耳邊"翻譯官"

小度真無線耳機+百度AI同傳解決方案打造耳邊「翻譯官」

貫穿服貿會五天會期百度AI同傳打通語言交流壁壘

百度翻譯同傳頻現國際會議搭建中外溝通橋梁

百度聯合谷歌主辦同傳學術講習班創新技術+產品助力跨語言交流

百度翻譯打造定製化翻譯服務、AI同傳等全產品矩陣企業效率工具擔當

百度聽清亮相2018百度世界大會化身為李彥宏的「AI專屬翻譯」

百度發布即時翻譯「神器」突破自然語言處理重大難關

EMNLP 2020線上舉辦詳解機器同聲傳譯技術演進

全球首個突破200種語言互譯的翻譯引擎百度翻譯打破世界溝通壁壘

全球AI翻譯服務代表性提供商揭曉百度翻譯價值凸顯強勢入圍