魚羊 發自 凹非寺
量子位 報導 | 公眾號 QbitAI
AI同傳領域又有新進展,這次突破來自百度。
百度機器翻譯團隊創新性地提出了全球首個感知上下文的機器同傳模型,並基於此發布了最新的語音到語音的機器同傳系統:DuTongChuan(度同傳)。
該系統基於百度飛槳PaddlePaddle平臺開發,可以實時地翻譯演講內容並以語音播報的形式傳遞給觀眾。
在最新提交的論文(見傳送門)結果中:
漢譯英準確率85.71%,英譯漢準確率86.36%。
並且PK 3位經驗豐富的人類同傳譯員,最終結果極具競爭力,在評估所用的BLEU和人工評價雙重評價中,度同傳均達到與人類專員媲美的水平。
論文中還介紹,該系統已成功應用於百度2019開發者大會,將演講內容實時地翻譯給現場觀眾收聽。現場反饋,延時大多不到3秒。
與傳統的字幕投屏同傳相比,算得上是真正的沉浸式體驗,如同人工同傳一般。
百度方面介紹,度同傳系統,能夠實現語音到語音的機器同傳,其中核心技術所在,是全球首個上下文感知機器同傳模型。
具體原理如何,我們結合論文解析一二。
三大秘籍
一個人類同聲傳譯人員,在進行翻譯的時候會把聽到的內容劃分成一個一個語義塊,對一段話進行理解翻譯,既不是逐字翻譯,也不是逐句翻譯,這樣既能保證語義不變,又能保證實時性。
百度翻譯團隊由此得到靈感,教給度同傳同聲傳譯秘籍第一招:
語義信息單元(Information Unit,IU)
傳統的機器同傳存在一個比較尷尬的問題是,它的翻譯並不流暢。
舉個例子:
對於「所以它會在畫布上面,自己創建一個虛擬的這個網格」這個句子,整句NMT(神經機器翻譯)模型能夠生成準確的翻譯。問題是,這樣的模型需要等到一個完整句子結束,才能開始翻譯。
這顯然不符合同聲傳譯的要求,時延太高了。
子句NMT模型倒是降低了延遲,因為它在讀取源文本中的逗號後就會開始翻譯,但是第二個子句翻譯的內容「創建你自己的虛擬網格(creat a virtual grid of your own)」不符合原意。
一個太慢,一個翻譯不通順,這時候,語義信息單元IU就派上用場了。
模型會不斷從自動語音識別(ASR)模型中讀取實時語音流,並確定其信息單元邊界,將語音流切分成一個一個翻譯單元。
這個切分的過程靠的是基於動態上下文的信息單元邊界檢測器。
它是這樣工作的:
當錨點在「姬」這個字上的時候,如果當前邊界決策的概率小於某個閾值,那麼就必須考慮更多的上下文(添加額外的上下文「這個」),得到更可靠的決策。這之後,「那個叫什麼什麼呃妖姬」這幾個字就被標記為一個信息單元。
也就是說,模型會學習確定當前錨點的潛在類別,一旦分類確定,它前面的序列就被標記為一個信息單元。
這個模型的一個顯著特點是被允許參考更多的上下文,所以它的預測也會更加可靠。
只有IU還不夠。
秘籍二:創新解碼算法
為了提升翻譯的流暢度和一致性,百度還提出了兩種創新解碼算法:部分解碼(Partial Decoding)和上下文感知解碼(Context-aware Decoding)。
部分解碼
在上下文感知翻譯模型中,需要翻譯的信息單元通常都是句子的一部分,並非完整的一個句子。而傳統的NMT模型通常在僅包含完整句子的雙語語料庫中進行訓練,如果用傳統訓練方式的NMT模型解碼信息單元,容易產生過度翻譯和漏譯等問題。
除了這個問題之外,還要考慮到人類同聲傳譯員通常都是會進行預判的,有些話講話的人還沒說出口,同聲傳譯員就已經翻譯出來了。
為了解決上述問題,度同傳設計了一個部分解碼模型,用於翻譯一個句子的第一個信息單元。
在訓練階過程中,在預測第一個信息單元翻譯內容時,通過掩蓋句子中其他信息單元的內容,可以讓模型同時學習預測目標譯文和部分原文信息,達到提前預測的功能。
上下文感知解碼
對於句子中其他的信息單元,則採用上下文感知解碼模型進行翻譯。
此模型的特點是:
? 在訓練過程中,強迫該模型學習如何在給定部分翻譯內容的情況下繼續翻譯。
? 在解碼過程中,丟棄一部分此前生成的翻譯,以便進行更流暢的翻譯。
就像這樣,在訓練期間,不屏蔽源輸入,但屏蔽與第一個信息單元對齊的翻譯內容。這種策略能迫使模型學會補全剩餘的翻譯內容,而不是聚焦於生成完整句子的翻譯。
此外,在解碼階段,上下文感知模型會丟棄已生成部分翻譯的最後k個符號,而後完成其餘的翻譯,以生成更為流暢的翻譯結果。其中的原理是,前序信息單元尾部的翻譯很大程度上會影響到後續信息單元的翻譯內容。
△k=1
如此一來,度同傳就能夠結合上下文信息,生成全局流暢的譯文,還克服了傳統模型以句子為翻譯單位,譯文不連貫、時延長等缺點。
這就完事了?並不。為了推動語音翻譯的研究,百度翻譯團隊還開源了一個寶庫。
秘籍三:BSTC
BSTC是全球首個中文-英文演講場景語音翻譯數據集,總共包含超過50小時的演講語音和對應的轉錄文本、時間軸、翻譯文本等數據資源。涉及IT、經濟、文化、生物、藝術等多個演講主題。
該數據集現已開源,下載連結可在文末自取。
媲美人類,機器與人類各有所長
為了驗證度同傳的本領,百度翻譯團隊邀請了3位具有3-7年工作經驗的同聲傳譯員S,A,B。
研究團隊模擬了一個真實的同傳場景,讓機器同傳和同聲傳譯員們對BSTC中的同一個演講進行同聲傳譯。
無論是傳統的BLEU自動評價指標(一種用於評估從一種自然語言機器翻譯到另一種自然語言的文本質量的算法),還是人工評價方法,機器同傳都表現出了極具競爭力的翻譯水平。
BLEU和人工評價均基於轉寫後的譯文文本,BLEU指標基於n-gram嚴格匹配計算得分,而人工評價更注重譯文的完整性和流暢度,類似於用筆譯的標準評價口譯。
△BAD:譯文不準確;OK:譯文不影響理解,允許有少許錯誤;GOOD:譯文準確
可以看到,在可接受度(Acceptability)上,機器同傳與表現最好的人類選手表現相當(73.91% VS 73.04%)。
而在漏譯率上,機器同傳則遠遠甩開了人類競爭對手(20% VS 47%)。
當然了,在漏譯率明顯高於機器的情況下,人類同傳譯員仍保持了高可接受度,說明人類在實時性要求高、腦力工作強度大的情況下,能夠靈活變通,突出重要信息的傳遞。而機器勝在不知疲倦,漏譯率低。
值得注意的是,剛公開論文的度同傳,實際已在2019百度AI開發者大會完成實戰檢驗。
從人工測評結果來看,度同傳的中英同傳可接受度達到了85.71%,英中同傳可接受度則達到了86.36%。根據現場使用體驗,合成語音的平均延遲在3秒以內。
總結來說:語音到語音,高質量,低時延。
不過眼見方為實,如果想要親自體驗一下百度翻譯AI同傳,現在百度翻譯也給出了開放平臺申請渠道。
此外,度同傳作為一項服務已經集成到了百度的AI平臺上,相信不久之後還能在更多產品、更多落地場景中應用。更多C端用戶,也能直接體驗。
傳送門
體驗申請連結:
https://fanyi-api.baidu.com/api/trans/product/simultaneous
BSTC數據集:
http://ai.baidu.com/broad/subordinate?dataset=bstc
論文連結:
https://arxiv.org/abs/1907.12984
本文首發於微信公眾號:量子位。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。
(責任編輯:董雲龍 )