百度發布AI同傳,詳解人工同傳與機器同傳優劣勢

2020-12-11 雷鋒網

上個月,由於科大訊飛「AI同傳造假」事件,AI同傳被推上輿論的風口浪尖。不過,這件事顯然並沒有影響到AI同傳技術的發展,今天,百度正式公布自家的AI同傳。

在10月19日的百度大腦行業創新論壇上,雷鋒網(公眾號:雷鋒網)編輯在現場就發現了百度的AI同傳。百度AI技術生態部總經理喻友平在演講時,左右兩邊的屏幕上實時呈現了中英文字幕,從現場效果來看,語音識別的準確率很高,實時的機器翻譯也做得不錯,順利支持了整個演講。

人工同傳與機器同傳的優劣勢

近年來,AI的發展對人類的職業造成很大的影響,不少領域的從業者都面臨著被AI替代的風險。據雷鋒網了解,AI已經替代了一些工廠裡機械化的工作,AI同傳的推出使得原本門檻較高的同傳領域也感受到了危機。

科大訊飛「AI同傳造假」事件引發大量關於人工同傳與AI同傳的討論,不少言論抨擊AI同傳目前技術尚未達到同傳要求,要替代人類同傳還言之尚早。

AI同傳目前無法取代人工同傳,而推出AI同傳的公司也不會誇口自己要去取代人工同傳。從這場爭論中,我們其實更清楚地明白人工同傳和AI同傳各自的優劣勢。

同聲傳譯,簡稱「同傳」,是指在不打斷講話者的條件下,將講話內容不間斷的實時的翻譯給聽眾。其最大的特點在於效率高,譯文與原文間隔一般3-4秒,聽眾可以及時地獲取信息,被廣泛地應用於國際會議、外交談判等重要場合。在百度看來,目前機器同傳離人類專家的水平仍然有較大差距。尤其是在重要會議如外交、商務等場合,必須依靠人類同傳高質量、專業的翻譯完成。

不過人工同傳也有一些劣勢:

1)精力體力的挑戰:與交替傳譯不同的是,同傳需要邊聽、邊記、邊翻,同步進行,對譯員的要求極高。由於需要高度集中注意力,人類同傳一般兩人一組,且每隔20多分鐘就要換人休息,對人的精力、體力都是極大的挑戰。

2)譯出率不高:據統計,同傳譯員的譯出率一般在60%-70%左右。譯出率不高的原因,一般由於未聽清或者難翻譯,人類譯員通常會選擇性的忽略某些句子,保證總體上的準確率和實時性。(譯出率:指實際翻譯的句子個數佔演講者總句子個數的比例,比如演講者說了100個句子,同傳實際翻譯了60個句子,則譯出率為60%。)

3)全球同傳譯員稀缺:由於苛刻的要求,全球同傳譯員稀缺,只有幾千人。與巨大的市場需求相比,人才嚴重短缺。且由於同傳譯員的稀缺性,高級同傳譯員價格不菲,一般會議難以承受。

相比之下機器同聲傳譯的優勢有:機器最大的優勢是不會因為疲倦而導致譯出率下降,能將所有「聽到」的句子全部翻譯出來,這使得機器的「譯出率」可以達到100%,遠高於人類譯員的60%-70%。同時,在價格上也佔有優勢。

但是,機器同傳傳譯也有劣勢:受限於語音識別及機器翻譯技術,目前機器同傳的總體翻譯質量與人類相比還有較大差距。主要面臨以下挑戰:

1)語音識別錯誤:由於演講者的口音、語速以及會場的噪聲影響,語音識別通常會存在一定的錯誤率,這錯誤會在翻譯中進一步放大。例如「我們在酒店大堂見面吧」,如果「大堂」被錯誤的是別為「大唐」,雖然只是錯了一個字,但是就會導致翻譯完全錯誤。解決這一問題,需要從兩方面下功夫,一是高質量的語音識別系統,二是具有容錯能力、高魯棒性的翻譯模型。

2)質量與時延的平衡:同傳最具魅力的地方在於其低時延,這對於人類也是一個極具挑戰性的任務。高質量翻譯和低時延之間存在天然矛盾。要想獲得高質量的翻譯,需要等待演講者更多的信息,時延就會變長。如果追求低時延,需要在演講者還未說完一句話的情況下,就開始翻譯,會損失掉一些信息,造成翻譯質量不高。這在中英、中日等詞序差異較大的語種中體現更為明顯。

例如在漢語句子中「布希總統在莫斯科會見普京」,漢語動詞「會見」出現在句子末尾,而在翻譯為英語時,需要將動詞」meet」提前。

人類語言中詞序的這種差異一直是人類同聲傳譯員和可靠的同聲機器翻譯系統發展的主要障礙。目前,幾乎所有的「實時」翻譯系統仍然使用傳統的全句(即,非同時的)翻譯方法,造成至少一個句子的延遲,使得譯文與說話者不同步。

3)小語種覆蓋難題:目前絕大多數的翻譯硬體,都局限在幾個大語種範圍內。

4)讓實時語音翻譯或更大概念上的翻譯成為一種平臺化的資源:如何讓實時語音翻譯,或者更大概念上的翻譯,成為一種平臺化的資源,這既是各個公司產品商業化的考量,也是人工智慧普惠化的終極目的。

百度AI同傳核心技術

AI同傳的核心技術是語音技術和機器翻譯技術,機器同傳利用語音識別技術自動識別演講者的講話內容,將語音轉化為文字,然後調用機器翻譯引擎,將文字翻譯為目標語言,顯示在大屏幕或者通過語音合成播放出來。

在機器同傳領域,百度聯合語音技術、機器翻譯技術,從語音識別、翻譯質量、時延、融合領域知識等四大方面推出了「一攬子」解決方案。

1) 高質量語音識別系統

百度語音識別是採用的基於Deep Peak 2的中英文混合建模,包1749個上下文無關中文音節和1868個上下文無關英文音節;區別於傳統的都採用上下文相關建模,基於Deep Peak 2的中英文混合建模採用的是上下文無關音素組合的建模單元,該建模單元具有數量少、泛化性能好、對噪聲魯棒等特點。具體而言,百度採用如下三個步驟實現上下無關音素建模單元的構建:

1、基於「協同發音」的一級切分,發音和聽覺領域知識check,刻畫「協同發音」導致的音素黏連物理特性;

2、基於「統計共現」的二級切分,中文N-Gram的分詞方案,同等黏連下等價於中文分詞;

3、基於數據驅動的「中英文音節」綁定和多發音標註方案,解決「B超」和「必超」、「大地」和「大D」類的問題。在模型結構方面,我們採用底層CNN+多層LSTM+一層DNN的模型結構,並且採用CTC作為優化準則。該方案很好的解決了實際場景中遇到的中英文混合場景,同時能夠保持中文性能不降低,在國際化溝通日益頻繁引入的中文中混合有部分英文短語的場景得到良好解決。

據雷鋒網了解,目前,語音識別技術已經基本成熟,各家的語音識別能力相差不大。在雷鋒網看來,AI同傳的技術難點在於機器翻譯如何實現實時翻譯,以及當語音識別出現錯誤時,機器翻譯如何能夠容錯。

人工智慧領域,兩種語言的「即時互譯」是一項難以攻克的技術問題,其主要原因在於源語言和目標語言之間存在較大的詞序和語序差異。百度研發了具備預測能力和可控延遲的即時機器翻譯系統,可實現兩種語言之間的高質量、低延遲翻譯。這是自然語言處理方面的重大技術突破,將對機器即時筆譯和口譯的發展起到極大地推動作用。

2) 高魯棒性翻譯模型

百度提出了「語音容錯」的對抗訓練翻譯模型,大幅提高了翻譯系統的魯棒性。一般的翻譯模型訓練,數據質量越高越好。百度提出的模型反其道而行之,根據語音識別模型常犯的錯誤,在訓練數據中有針對性的加入噪聲數據,使得模型在接受到錯誤的語音識別結果時,也能夠在譯文中糾正過來。

與傳統的方法「偽造」噪音數據不同,百度模型的創新之處在於針對語音識別系統易犯的錯誤產生噪聲數據。比如,語音識別系統將「大堂」錯誤的識別為「大唐」,那麼這就作為一對噪聲詞放到訓練數據中,將源語言句子「我們在酒店大堂見面吧」替換為「我們在酒店大唐見面吧」,而保持目標語言翻譯不變「Let's meet at the lobby of the hotel.」。並將這兩個句子同時用於訓練。這樣得到的模型對於語音識別具有更強的容錯能力。 實驗結果表明,在中英方向上,該模型甚至達到與正確文本(意味著由語音識別造成的錯誤基本被修正相媲美的效果。

3) 質量與時延的平衡

為了降低時延,人類譯員通常對演講內容進行合理預測。百度團隊借鑑人類同聲傳譯員的靈感來應對這一挑戰。然而,與人類譯員不同,該模型並不預測說話人講話中的源語言單詞,而是直接預測翻譯中的目標語言單詞,更重要的是,它把翻譯和預測融合在一個統一的「wait-k words」模型中。在這個模型中,在等待講話者開始後的第K個字,就開始翻譯。模型在每個步驟使用源語句的可用前綴(以及到目前為止的翻譯)來決定翻譯中的下一個單詞。在上述例子中,考慮到漢語前綴「布希總統在莫斯科」和迄今為止的英譯「President Bush」在漢語後面k=2個詞,系統精確地預測下一個翻譯詞是「會見」。在演講者還沒有說出漢語動詞之前,系統預測到布希很可能在莫斯科「遇見」某人(例如普京)。正如人類口譯員需要事先熟悉說話者的話題和風格一樣,該模型也需要從大量的訓練數據中進行訓練,這些訓練數據具有相似的句子結構,以便以合理的準確性進行預測。

該模型一個顯著的優點是其具有可調節性,達到質量和時延的平衡。用戶可根據需要指定所需的延遲時間(比如,延遲一詞或延遲五詞)。如果是法語和西班牙語這種比較接近的語言,延遲可設置在比較低的水平,因為就算是逐詞翻譯的效果也很好。但是,對於英語和漢語這種差異較大的語言,以及英語和德語這種詞序不同的語言,延遲應當設置高一點,以獲得更高的翻譯質量。

4) 融合領域知識

人類同傳譯員在接到一個同傳任務時,都會做大量的功課,掌握所譯領域的術語詞彙、表達方式等。然而留給同傳譯員準備的時間卻很有限,一般僅有幾天的時間,在一些術語量大、晦澀難懂的領域,對人類譯員是一個極大的挑戰。

與人類同傳準備過程類似,如果能將所譯領域的資料提前教給自動同傳系統,那麼整體的翻譯質量將有非常大的提高。模仿人類同傳的準備過程,百度提出了快速融合領域知識策略。

該策略原理如下:依託百度海量的網際網路大數據,首先訓練得到通用的翻譯模型,該模型具有通用的翻譯能力;進一步的,如果接到某一個領域的同傳翻譯任務,該系統收集領域數據並在通用模型的基礎上進行增強訓練,得到領域增強模型,在該領域翻譯質量上超過通用模型;最後,將該領域術語庫加到解碼過程進行強制解碼,使得術語翻譯準確可靠。在多個領域的實驗表明,領域優化後的系統可以穩定的獲得6個百分點以上的BLEU值提升。(BLEU值是機器翻譯領域國際通用評估指標,通常1個百分點的提升即被認為是顯著提升)。

該方法模擬人類同傳準備過程,且優勢明顯, 準備過程短,只需要將領域數據在通用模型基礎上進行訓練,數小時即可得到優化後的模型,術語詞典生效時間更是縮小到秒級,大大提升了效率。

 AI同傳與人工同傳共存

在百度看來,在未來多年裡,機器和人類即時翻譯員將同時並存。人類翻譯員的專業服務仍將存在大量需求,特別是需要連貫、精準翻譯的高端場合。即時翻譯的需求很高,但人類翻譯員卻十分緊俏。因此機器的介入,能讓即時翻譯服務更加普及。該技術可打開實現會議即時翻譯、隱藏字幕等多種應用的大門,在即將到來的百度世界大會上也將現場展示。

目前的技術,機器同傳離人類專家的水平仍然有較大差距。尤其是在重要會議如外交、商務等場合,必須依靠人類同傳高質量、專業的翻譯完成。現階段,機器同傳可以作為人類同傳的輔助手段或者有效補充,例如有大量的會議,聘請專業同傳費用太高或者沒有相關領域的同傳譯員,此時可以藉助於機器同傳完成。會議舉辦方、演講者、聽眾充分認識到機器同傳的優勢和局限性,容忍機器犯錯,就可以達成共識,促進交流。



雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • AI同傳效果媲美人類,百度翻譯出品全球首個上下文感知機器同傳模型
    魚羊 發自 凹非寺  量子位 報導 | 公眾號 QbitAI  AI同傳領域又有新進展,這次突破來自百度。  百度機器翻譯團隊創新性地提出了全球首個感知上下文的機器同傳模型,並基於此發布了最新的語音到語音的機器同傳系統:DuTongChuan(度同傳)。
  • 科大訊飛AI同傳造假?你以為是機器在同傳,其實是人工……
    9月20日,一位同傳譯員在知乎上發文稱,在上海的一場會議中,訊飛的翻譯其實為人工同傳,並非機器智能翻譯,並且譯文由機器進行朗讀。這容易讓觀眾產生「都是人工智慧翻譯」的錯覺,而忽略背後同傳譯員們的勞動成果。對此,9月21日,科大訊飛的回覆是,「科大訊飛從來沒有把同傳翻譯包裝成機器翻譯。」
  • 百度發布AI同傳,有哪些核心技術?
    PZdednc24日下午,百度正式宣布推出了一款人工智慧工具,可以實時將英語翻譯成中文和德語,以挑戰谷歌的競爭產品。PZdednc百度AI同傳核心技術AI同傳的核心技術是語音技術和機器翻譯技術,機器同傳利用語音識別技術自動識別演講者的講話內容,將語音轉化為文字,然後調用機器翻譯引擎,將文字翻譯為目標語言,顯示在大屏幕或者通過語音合成播放出來。
  • 百度領銜舉辦首次機器同傳講習班 詳解機器同聲傳譯技術演進
    近年來,隨著語音處理、機器翻譯等人工智慧技術的快速進步,機器同傳成為學術研究前沿課題,既取得了很大進步,同時也仍然面臨諸多挑戰。基於此,由百度聯合Google主辦的前沿講習班圍繞機器同傳展開了深入剖析,從機器同傳的發展背景、面臨挑戰展開,詳細介紹了機器同傳的發展現狀和技術演進,同時介紹了實用系統研發麵臨的實際問題以及目前同傳的多種產品形式,最後對機器同傳未來的發展方向進行了探討。據悉,這是國際上首次舉辦的有關機器同聲傳譯的學術講習班。
  • 第二屆國際機器同傳評測開啟報名通道
    同聲傳譯是一種受時間嚴格限制、難度極高的翻譯方式,廣泛應用於國際會議、商務會談、新聞發布等場景。結合機器翻譯、語音等技術的機器同傳,是人工智慧領域重要的前沿課題。為推動技術進步,百度、谷歌、華為以及格勒諾布爾-阿爾卑斯大學將在自然語言處理權威會議 NAACL 聯合舉辦第二屆國際機器同傳研討會。作為本次大會的重要實踐環節,將繼續舉辦國際機器同傳評測。
  • 百度為AI界打造「同傳高手」或將緩解同傳人員稀缺問題
    (原標題:百度為AI界打造「同傳高手」或將緩解同傳人員稀缺問題)
  • 百度大腦開放日召開機器翻譯專場 百度AI同傳翻譯性能可媲美人類
    IDC中國副總裁兼首席分析師武連峰、百度AI技術生態部總經理劉倩、百度人工智慧技術委員會主席何中軍進行主題演講,同時與在場的40多位來自金融、製造、能源等行業企業信息化負責人聚焦機器翻譯的價值、企業應用需求、未來發展趨勢等話題展開深入的互動討論,分享最佳實踐經驗,助力企業更好的提升機器翻譯大規模產業化應用,推動企業智能化升級。會上,武連峰講到,企業具備全球化信息能力非常重要。
  • 小度真無線耳機+百度AI同傳解決方案 打造耳邊"翻譯官"
    (百度集團副總裁、百度智能生活事業群組總經理景鯤重磅發布小度真無線智能耳機)其中,由百度重磅發布的首款人工智慧"破圈"新品——小度真無線智能耳機,更是成為此次大會亮點,帶給觀眾很大驚喜。(小度真無線耳機媒體評價)經了解,小度真無線耳機的同傳模式背後是由百度自主研發的一套高質量、低時延的同傳解決方案,融合了百度領先的機器翻譯、語音處理等人工智慧技術。
  • 小度真無線耳機+百度AI同傳解決方案 打造耳邊「翻譯官」
    (百度集團副總裁、百度智能生活事業群組總經理景鯤重磅發布小度真無線智能耳機)其中,由百度重磅發布的首款人工智慧「破圈」新品——小度真無線智能耳機,更是成為此次大會亮點,帶給觀眾很大驚喜。該產品最大賣點之一就是支持AI同聲傳譯。
  • 百度世界2020小度新品亮相:AI同傳解決方案打造耳邊「翻譯官」
    其中,由百度重磅發布的首款人工智慧"破圈"新品——小度真無線智能耳機,更是成為此次大會亮點,帶給觀眾很大驚喜。該產品最大賣點之一就是支持AI同聲傳譯。當我們和外國友人交流時,可以開啟"流浪地球"模式,每人戴一隻耳機,對方使用英語說話,我們就能夠實時聽到翻譯過來的中文,輕鬆跨越語言鴻溝。
  • 學界| 百度機器同傳系統新突破:可預測譯文、延遲可控
    使用傳統的機器翻譯方法至少會出現一個句子的延遲,導致用戶無法與說話者同步。針對這一挑戰,百度推出了首個擁有預判能力和可控延遲的機器同傳翻譯系統——STACL,以很小的質量損失獲得了較小的延遲。百度的 STACL(Simultaneous Translation with Anticipation and Controllable Latency)是首個擁有預判能力和可控延遲的機器同傳翻譯系統。
  • 百度翻譯同傳服務2020全球人工智慧技術大會 搭建中外溝通橋梁
    本次大會共吸引了超過1100萬人次在線觀看,為了讓國內外觀眾第一時間了解大會內容,百度翻譯為大會提供了機器同傳服務。 在供需嚴重不平衡的情況下,能力日益增強的機器同傳在國際會議場景下身影頻現。 面對領域多樣、需求複雜、實時性高的會議場景,百度翻譯提供了全面高效的機器同傳解決方案。
  • AI界巴別塔,機器「謀殺」人類同傳了解一下? | 獵雲網
    但烏龍事件頻頻傳出,例如出現大面積單詞無意義重複、大小寫字符亂碼等情況,最終還需要人工同傳趕來「救場」。在人工智慧發展愈演愈烈的當下,AI同傳真的能剝奪人工同傳的工作嗎?還是企業營銷過分誇大,導致預期和結果不符?文章來源:AI星球(微信:ai_xingqiu),作者:呂夢。
  • 新基建風吹到同聲傳譯 百度AI為同傳提供革新動力
    本次大會共吸引了超過1100萬人次在線觀看,為了讓國內外觀眾第一時間了解大會內容,百度翻譯為大會提供了機器同傳服務。在供需嚴重不平衡的情況下,能力日益增強的機器同傳在國際會議場景下身影頻現。面對領域多樣、需求複雜、實時性高的會議場景,百度翻譯提供了全面高效的機器同傳解決方案。懂語義、觀全局,翻譯質量高、時間延遲小語義單元驅動的同傳模型,結合全局話題信息,兼顧質量與效率一直以來,如何平衡時延與準確度都是同聲傳譯的難點問題。
  • 透視科大訊飛「同傳造假」:機器翻譯之困
    儘管有深度學習技術在語音、翻譯等領域的快速突破以及大數據的紅利,但是相比於訓練有素的人工而言,機器實際上缺乏語音識別的穩定性、機器翻譯的穩定性、對語言理解和再創造的能力。  此外,機器同傳要與人工同傳媲美,就要聰明而靈活地結合前後內容進行「創作」。
  • 11篇論文、首屆同傳研討會、技術分享,百度AI閃耀ACL2020
    這次會議,百度共有11篇論文被錄用,覆蓋自然語言處理眾多前沿研究方向;百度聯合谷歌、Facebook、清華大學等全球頂尖機構,共同舉辦首屆同聲傳譯研討會;在線上展臺主題技術TALK環節,百度還就開放域人機對話技術、ERNIE核心技術等業內關注的話題展開分享,展現了中國企業在自然語言處理及人工智慧領域的技術創新與落地實踐能力。
  • 科大訊飛回應AI同傳造假:從未將人工翻譯包裝成機器,或因動了別人...
    打開APP 科大訊飛回應AI同傳造假:從未將人工翻譯包裝成機器,或因動了別人「奶酪」 李倩 發表於 2018-10-08 16:47:57
  • 科大訊飛陷AI同傳造假疑雲:機器翻譯還有多遠?
    9月20日,一位同傳譯員在知乎上發文稱,在上海的一場會議中,訊飛的翻譯其實為人工同傳,並非機器智能翻譯,並且譯文由機器進行朗讀。這容易讓觀眾產生「都是人工智慧翻譯」的錯覺,而忽略背後同傳譯員們的勞動成果。對此,9月21日,科大訊飛的回覆是,「科大訊飛從來沒有把同傳翻譯包裝成機器翻譯。」
  • 人工翻譯冒充AI同傳?科大訊飛:只是轉寫上屏服務
    一位美國加州大學伯克利分校的人工智慧方向博士向中證君表示,相當認可科大訊飛在語音識別領域的技術實力。但「語音識別」和「翻譯」是兩碼事。「給你一句中文古詩,讓機器作識別的話肯定差不多寫得下來,但要讓機器瞬間翻譯成信雅達的英文,這就很難做到。」  科大訊飛:只是提供轉寫上屏服務  21日下午,科大訊飛董秘江濤回應,科大訊飛從沒講過AI同傳的概念,始終強調是人機耦合模式。
  • 科大訊飛陷AI同傳造假疑雲:從機器朗讀到機器翻譯還有多遠?
    2018世界人工智慧大會剛落幕,科大訊飛卻陷入了「AI同傳造假」的風波。  9月20日,一位同傳譯員在知乎上發文稱,在上海的一場會議中,訊飛的翻譯其實為人工同傳,並非機器智能翻譯,並且譯文由機器進行朗讀。