堪稱「玄學」!百度機器翻譯現在都能預測你未來幾秒要說的話了!

2021-01-10 百度

先給大家看一張動圖:

上面的中文是人類說的話,下面的英文是百度 AI 給出的實時翻譯。可以看到,沒等說到「莫斯科」的時候,AI 自動翻譯的英語就已經出現了「meet」,也就是漢語句末的「會晤」。

難道現在 AI 已經掌握了讀心術?

其實這是百度在機器同傳中研發的最新技術,有預測和可控延遲能力,能實現兩種語言之間的高質量、低延遲翻譯。它的出現讓機器同傳又有了新進展!

在我們了解機器同傳之前,首先要知道人類同傳是什麼。

同聲傳譯是一項很重要的工作,在國際會議、外交談判、演講等場合,只要交流之間出現了兩種語言,就需要同聲翻譯的幫助,他們會在現場聽取演講,並實時翻譯成另一種語言。

在會場的同聲傳譯(圖片來自網絡)

同聲傳譯工作通常在一句話的話音剛落,2-3秒之內就要立即傳譯出來,是一份高壓力、高強度的職業。而 AI 機器同傳就是把人類翻譯工作的過程用 AI 技術來代替。

機器同傳運用語音識別技術自動識別演講者的講話內容,把語音轉化為文字,然後調用機器翻譯引擎,將文字翻譯為目標語言,顯示在大屏幕或者通過語音合成再播放出來。

並不是!在人工智慧領域,兩種語言的「即時互譯」是一項難以攻克的技術問題,主要原因在於源語言和目標語言之間存在較大的詞序和語序差異。

▲ 中文語序下,「香山」在前,「最美的時候」在後;而英文翻譯中,「香山」被後置,「最美的時候」被提前

這種語序的差異,讓同傳陷入一種「準確度與速度不可兼得」的尷尬境地:

百度工程師們針對同傳中遇到的難題,提出了「一攬子」解決方案,一起看看它有哪些亮點?

人類同傳譯員常用的一個技巧就是「合理預測」:在發言人話說到一半時,預測到後半句可能要講的內容,超前翻譯,這樣能使同傳又快又準。

百度的工程師們模仿這一點,研發出了「wait-k words」模型,讓機器同傳也擁有了「合理預測」的能力,一定程度上解決了上面所說的「準確度與速度不可兼得」的問題。

普通的 AI 同傳是一整句話說完之後才進行翻譯,而百度同傳沒等說完前半句,它的「大腦」就會瞬間做出反應,可以「邊聽邊腦補」!

▲ 這是百度同傳的腦補現場,當說到「百度在18年前」時,AI 就預測出了「started a business」

另外一點是!百度同傳可以個性化控制翻譯時的延遲速度,像法語和西班牙語這種比較接近的語言,延遲就設置在比較低的水平。

但是,英語和漢語這種差異較大的語言,以及英語和德語這種詞序不同的語言,延遲可以設置為較高水平,從而更好地應對差異。

人類同傳譯員在接到翻譯任務後,通常會提前很多天學習相關知識,進行「備課」,為的就是更好地應對陌生詞彙而臨危不懼。

於是,百度工程師們模仿了這一準備過程,讓機器同傳也能通過快速融合領域知識策略,快速學習專業知識,提前「備課」。

當 AI 同傳接到某一個領域的翻譯任務時,系統會收集該領域數據並在通用模型的基礎上進行增強訓練,最後對該領域術語庫進行強制解碼,使專業術語翻譯得準確可靠,且提升翻譯效率。

區別於傳統的上下文相關建模技術,百度推出了上下文無關音素組合的中英文混合建模單元,包含1749個上下文無關中文音節和1868個上下文無關英文音節。這個方法具有泛化性能好、對噪聲魯棒、中英文混合識別等特點。

根據語音識別模型常犯的錯誤,在訓練數據的時候加入噪聲數據,讓模型在接收到錯誤的語音識別結果時,也能在譯文中糾正過來。

比如,語音識別系統將「大堂」錯誤地識別為「大唐」,這一對噪聲詞被收錄到訓練數據裡,再把源語言句子「我們在酒店大堂見面吧」替換為「我們在酒店大唐見面吧」,而保持目標語言翻譯不變「Let's meet at the lobby of the hotel」,同時將這兩個中文句子存儲在它的「大腦」裡面,以後再出現類似的情況會更輕鬆地解決!

和咱們人類譯員相比,機器最大的優勢是不會因為疲倦而導致譯出率下降,能把所有「聽到」的句子全部翻譯出來,這讓機器的「譯出率」可以達到100%,遠高於人類譯員的60%-70%。

同聲傳譯被廣泛應用於政府間的峰會、多邊談判和其他商業場合,但是同傳人員稀缺也成為了當前的棘手問題。

研發百度同傳的目的,並不是取代人類譯員,而是為了降低同傳成本,讓同傳的應用範圍更加廣泛。我們希望世界各地的人在 AI 的幫助下早日實現「無障礙」的交流,用科技讓複雜的世界更簡單!

相關焦點

  • 百度何中軍:機器翻譯——從設想到大規模應用
    話不多說,快快看過來,希望這些優秀的青年學者、專家傑青的學術報告 ,能讓您在業餘時間的知識閱讀更有價值。人工智慧論壇如今浩如煙海,有硬貨、有乾貨的講座卻百裡挑一。「AI未來說·青年學術論壇」系列講座由中國科學院大學主辦,百度全力支持,讀芯術、paperweekly作為合作自媒體。
  • 百度大腦開放日召開機器翻譯專場 百度AI同傳翻譯性能可媲美人類
    IDC中國副總裁兼首席分析師武連峰、百度AI技術生態部總經理劉倩、百度人工智慧技術委員會主席何中軍進行主題演講,同時與在場的40多位來自金融、製造、能源等行業企業信息化負責人聚焦機器翻譯的價值、企業應用需求、未來發展趨勢等話題展開深入的互動討論,分享最佳實踐經驗,助力企業更好的提升機器翻譯大規模產業化應用,推動企業智能化升級。會上,武連峰講到,企業具備全球化信息能力非常重要。
  • 機器翻譯應用價值凸顯 百度翻譯豐富產品矩陣助力企業智能化升級
    IDC中國副總裁兼首席分析師武連峰、百度AI技術生態部總經理劉倩、百度人工智慧技術委員會主席何中軍進行主題演講,同時與在場的40多位來自金融、製造、能源等行業企業信息化負責人聚焦機器翻譯的價值、企業應用需求、未來發展趨勢等話題展開深入的互動討論,分享最佳實踐經驗,助力企業更好的提升機器翻譯大規模產業化應用,推動企業智能化升級。
  • 機器翻譯七十年:百度領跑神經網絡翻譯時代
    12月21日,在百度機器翻譯技術開放日上,百度技術委員會聯席主席、自然語言處理部技術負責人吳華博士表示,基於領先的人工智慧、神經網絡以及自然語言處理技術,百度早在1年多以前就率先發布了世界上首個網際網路NMT系統,引領機器翻譯進入神經網絡翻譯時代。先發制人:百度率先進入NMT時代眾所周知,一項新的技術從實驗室誕生到真正的工業化應用,往往需要很長時間。
  • 百度:目前機器翻譯準確率已經與人類水平相當
    [PConline資訊]12月1日,百度大腦開放日舉辦。IDC中國副總裁兼首席分析師武連峰表示,到2021年底,超過70%具有海外業務的中國企業將不同程度的採用機器翻譯,應用場景也將更為豐富。  據介紹,百度提出的語義單元驅動的AI同傳模型,翻譯準確率為80%,時間延遲約為3秒,與人類水平相當。
  • 百度:目前機器翻譯準確率已與人類水平相當
    12月1日,百度大腦開放日舉辦。IDC中國副總裁兼首席分析師武連峰表示,到2021年底,超過70%具有海外業務的中國企業將不同程度的採用機器翻譯,應用場景也將更為豐富。據介紹,百度提出的語義單元驅動的AI同傳模型,翻譯準確率為80%,時間延遲約為3秒,與人類水平相當。此外,百度方面還披露,百度翻譯可支持203語種互譯,現在每天響應超過千億字符的翻譯請求。截至目前,百度大腦開放了273項AI能力,230萬開發者創建了31萬模型。
  • 說中文實時翻譯外語 百度手機輸入法打破語言限制
    其中,語音輸入突破了傳統的打字輸入限制,讓所有人都能輕鬆進行線上交流,但若想實現全世界範圍內的自由交談,語言差異仍是一道屏障。因此,如何實現不同語言間的實時翻譯,也成為科技圈的重點研究領域。8月8日,百度手機輸入法Android v7.6正式上線,新增快捷翻譯功能,能夠滿足用戶在不同語言環境下的輸入需求。
  • 百度機器翻譯團隊獲得WMT2019中英翻譯冠軍
    8月1日,WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開。本屆大賽,百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍。今年中英方向參賽隊伍有來自微軟、字節跳動、金山、愛丁堡大學、東北大學、日本情報通信研究院等國內外知名機器翻譯團隊。本屆大賽,百度翻譯團隊憑藉在數據處理、模型架構、數據增強、模型集成等方面的創新性突破,最終力壓群雄,取得第一。
  • Gartner最新報告:百度翻譯整合多項AI能力 多模態翻譯助跨國交流
    據Gartner預測,到2025年,全球10%的企業將使用集成在IT運維中的企業翻譯服務,75%的翻譯工作將從專注於翻譯本身轉向對機器翻譯的結果進行審閱和編輯。未來,機器翻譯將是大中小企業增強全球化信息能力不可或缺的抓手;其中,百度是全球AI翻譯服務中的重要力量。
  • 百度翻譯再獲權威認可 入選Gartner全球AI翻譯服務代表企業
    據Gartner預測,到2025年,全球10%的企業將使用集成在IT運維中的企業翻譯服務,75%的翻譯工作將從專注於翻譯本身轉向對機器翻譯的結果進行審閱和編輯。未來,機器翻譯將是大中小企業增強全球化信息能力不可或缺的抓手;其中,百度是全球AI翻譯服務中的重要力量。
  • 百度翻譯同傳堪稱「超級翻譯官」
    為了更好地幫助國內外觀眾理解報告內容,百度翻譯為本次大會提供了機器同傳服務。除了深厚的語言能力外,還需要極強的反應能力,邊說邊聽,精力高度集中,對譯員的腦力和體力都是極高的挑戰。因此往往一場會需要兩個甚至多個譯員共同完成同傳。
  • 全球AI翻譯服務代表性提供商揭曉 百度翻譯價值凸顯強勢入圍
    據Gartner預測,到2025年,全球10%的企業將使用與IT運維集成的企業翻譯中心類型架構,75%的翻譯工作將從專注於創建翻譯的工作轉向對機器翻譯部分進行審閱和編輯的工作。未來,機器翻譯將是大中小企業增強全球化信息能力不可或缺的抓手,有效推動企業智能化升級;其中,百度是全球AI翻譯服務領域中不可或缺的一股重要力量。
  • 百度領銜舉辦首次機器同傳講習班 詳解機器同聲傳譯技術演進
    EMNLP由國際計算語言學學會(ACL)旗下SIGDAT組織,會議涵蓋語義理解、文本理解、信息提取、信息檢索和機器翻譯等主題。會上,由百度聯合Google舉辦的首次機器同聲傳譯學術講習班(Tutorial)召開,圍繞機器同傳的背景、挑戰、模型、數據集、實用系統和產品、未來研究方向等展開報告和研討,吸引了數百位國際學者參會。
  • Gartner發布最新報告 百度入圍全球AI翻譯服務代表企業
    據Gartner預測,到2025年,全球10%的企業將使用集成在IT運維中的企業翻譯服務,75%的翻譯工作將從專注於翻譯本身轉向對機器翻譯的結果進行審閱和編輯。未來,機器翻譯將是大中小企業增強全球化信息能力不可或缺的抓手;其中,百度是全球AI翻譯服務中的重要力量。
  • 機器翻譯能替代人工翻譯?翻譯公司會消失嗎?專家們這麼說
    以前做翻譯可能幾年內買一套房,而現在只能買幾平米,這讓翻譯從業者壓力倍增。」昨日在武漢舉行的2018首屆傳神者大會上,傳神語聯網董事長兼CEO何恩培說:在1分鐘時間內,目前機器的翻譯速度是50萬字每分鐘,而人工翻譯最快速度僅為300字每分鐘,頂級編輯閱讀速度為每分鐘1500字,機器翻譯速度已遠遠超過了人工速度。
  • 百度翻譯打造定製化翻譯服務、AI同傳等全產品矩陣 企業效率工具擔當
    IDC中國副總裁兼首席分析師武連峰、百度AI技術生態部總經理劉倩、百度人工智慧技術委員會主席何中軍進行主題演講,同時與在場的40多位來自金融、製造、能源等行業企業信息化負責人聚焦機器翻譯的價值、企業應用需求、未來發展趨勢等話題展開深入的互動討論,分享最佳實踐經驗,助力企業更好的提升機器翻譯大規模產業化應用,推動企業智能化升級。
  • 200種語言互譯,百度翻譯打破世界溝通壁壘
    IDC 中國副總裁兼首席分析師武連峰、百度 AI 技術生態部總經理劉倩、百度人工智慧技術委員會主席何中軍進行主題演講,同時與在場的40多位來自金融、製造、能源等行業企業信息化負責人聚焦機器翻譯的價值、企業應用需求、未來發展趨勢等話題展開深入的互動討論,分享最佳實踐經驗,助力企業更好的提升機器翻譯大規模產業化應用,推動企業智能化升級。
  • 全球首個突破200種語言互譯的翻譯引擎 百度翻譯打破世界溝通壁壘
    IDC中國副總裁兼首席分析師武連峰、百度AI技術生態部總經理劉倩、百度人工智慧技術委員會主席何中軍進行主題演講,同時與在場的40多位來自金融、製造、能源等行業企業信息化負責人聚焦機器翻譯的價值、企業應用需求、未來發展趨勢等話題展開深入的互動討論,分享最佳實踐經驗,助力企業更好的提升機器翻譯大規模產業化應用,推動企業智能化升級。
  • 百度翻譯版本更新 新增日韓語音實時翻譯功能
    如果碰上了要和外國人直接對話的情況,也不用驚慌,點擊「發現」板塊中的「會話翻譯」,選定雙方互譯的語種,百度翻譯將即刻告訴你日語的「你好」怎麼發音,對方所說的短語為日語中「謝謝」的意思等等,如同一位隨叫隨到的超能『同聲傳譯』員在身邊,可以及時提供專業、免費的翻譯服務。
  • 百度翻譯引擎突破了200種語言的翻譯,全球交流不再是問題
    近日,百度大腦開放日舉辦了以「機器翻譯溝通全世界」為主題的專場活動,該活動主要為了向大家展示百度翻譯已經突破了200種語言的互翻,也向大家說明了機器翻譯的重要性。眾所周知,語言是跨國交流的一大障礙。雖然說現在的英語是全世界通用的語言,但是畢竟還是有很大一部分並不會說外語。除了口語交流之外,一些文件的翻譯也非常困難,即使每個公司都會有專業的翻譯人員,但是人工翻譯不僅浪費時間而且效率還低,但是當擁有了智能翻譯之後呢?如果機翻可以發展到一定水平的時候,完全可以取代人為翻譯工作,而且比人工的效率更高。