堪稱「玄學」!百度機器翻譯現在都能預測你未來幾秒要說的話了!

2020-12-07 百度

先給大家看一張動圖:

上面的中文是人類說的話,下面的英文是百度 AI 給出的實時翻譯。可以看到,沒等說到「莫斯科」的時候,AI 自動翻譯的英語就已經出現了「meet」,也就是漢語句末的「會晤」。

難道現在 AI 已經掌握了讀心術?

其實這是百度在機器同傳中研發的最新技術,有預測和可控延遲能力,能實現兩種語言之間的高質量、低延遲翻譯。它的出現讓機器同傳又有了新進展!

在我們了解機器同傳之前,首先要知道人類同傳是什麼。

同聲傳譯是一項很重要的工作,在國際會議、外交談判、演講等場合,只要交流之間出現了兩種語言,就需要同聲翻譯的幫助,他們會在現場聽取演講,並實時翻譯成另一種語言。

在會場的同聲傳譯(圖片來自網絡)

同聲傳譯工作通常在一句話的話音剛落,2-3秒之內就要立即傳譯出來,是一份高壓力、高強度的職業。而 AI 機器同傳就是把人類翻譯工作的過程用 AI 技術來代替。

機器同傳運用語音識別技術自動識別演講者的講話內容,把語音轉化為文字,然後調用機器翻譯引擎,將文字翻譯為目標語言,顯示在大屏幕或者通過語音合成再播放出來。

並不是!在人工智慧領域,兩種語言的「即時互譯」是一項難以攻克的技術問題,主要原因在於源語言和目標語言之間存在較大的詞序和語序差異。

▲ 中文語序下,「香山」在前,「最美的時候」在後;而英文翻譯中,「香山」被後置,「最美的時候」被提前

這種語序的差異,讓同傳陷入一種「準確度與速度不可兼得」的尷尬境地:

百度工程師們針對同傳中遇到的難題,提出了「一攬子」解決方案,一起看看它有哪些亮點?

人類同傳譯員常用的一個技巧就是「合理預測」:在發言人話說到一半時,預測到後半句可能要講的內容,超前翻譯,這樣能使同傳又快又準。

百度的工程師們模仿這一點,研發出了「wait-k words」模型,讓機器同傳也擁有了「合理預測」的能力,一定程度上解決了上面所說的「準確度與速度不可兼得」的問題。

普通的 AI 同傳是一整句話說完之後才進行翻譯,而百度同傳沒等說完前半句,它的「大腦」就會瞬間做出反應,可以「邊聽邊腦補」!

▲ 這是百度同傳的腦補現場,當說到「百度在18年前」時,AI 就預測出了「started a business」

另外一點是!百度同傳可以個性化控制翻譯時的延遲速度,像法語和西班牙語這種比較接近的語言,延遲就設置在比較低的水平。

但是,英語和漢語這種差異較大的語言,以及英語和德語這種詞序不同的語言,延遲可以設置為較高水平,從而更好地應對差異。

人類同傳譯員在接到翻譯任務後,通常會提前很多天學習相關知識,進行「備課」,為的就是更好地應對陌生詞彙而臨危不懼。

於是,百度工程師們模仿了這一準備過程,讓機器同傳也能通過快速融合領域知識策略,快速學習專業知識,提前「備課」。

當 AI 同傳接到某一個領域的翻譯任務時,系統會收集該領域數據並在通用模型的基礎上進行增強訓練,最後對該領域術語庫進行強制解碼,使專業術語翻譯得準確可靠,且提升翻譯效率。

區別於傳統的上下文相關建模技術,百度推出了上下文無關音素組合的中英文混合建模單元,包含1749個上下文無關中文音節和1868個上下文無關英文音節。這個方法具有泛化性能好、對噪聲魯棒、中英文混合識別等特點。

根據語音識別模型常犯的錯誤,在訓練數據的時候加入噪聲數據,讓模型在接收到錯誤的語音識別結果時,也能在譯文中糾正過來。

比如,語音識別系統將「大堂」錯誤地識別為「大唐」,這一對噪聲詞被收錄到訓練數據裡,再把源語言句子「我們在酒店大堂見面吧」替換為「我們在酒店大唐見面吧」,而保持目標語言翻譯不變「Let's meet at the lobby of the hotel」,同時將這兩個中文句子存儲在它的「大腦」裡面,以後再出現類似的情況會更輕鬆地解決!

和咱們人類譯員相比,機器最大的優勢是不會因為疲倦而導致譯出率下降,能把所有「聽到」的句子全部翻譯出來,這讓機器的「譯出率」可以達到100%,遠高於人類譯員的60%-70%。

同聲傳譯被廣泛應用於政府間的峰會、多邊談判和其他商業場合,但是同傳人員稀缺也成為了當前的棘手問題。

研發百度同傳的目的,並不是取代人類譯員,而是為了降低同傳成本,讓同傳的應用範圍更加廣泛。我們希望世界各地的人在 AI 的幫助下早日實現「無障礙」的交流,用科技讓複雜的世界更簡單!

相關焦點

  • 百度大腦開放日召開機器翻譯專場 百度AI同傳翻譯性能可媲美人類
    IDC中國副總裁兼首席分析師武連峰、百度AI技術生態部總經理劉倩、百度人工智慧技術委員會主席何中軍進行主題演講,同時與在場的40多位來自金融、製造、能源等行業企業信息化負責人聚焦機器翻譯的價值、企業應用需求、未來發展趨勢等話題展開深入的互動討論,分享最佳實踐經驗,助力企業更好的提升機器翻譯大規模產業化應用,推動企業智能化升級。會上,武連峰講到,企業具備全球化信息能力非常重要。
  • 機器翻譯應用價值凸顯 百度翻譯豐富產品矩陣助力企業智能化升級
    IDC中國副總裁兼首席分析師武連峰、百度AI技術生態部總經理劉倩、百度人工智慧技術委員會主席何中軍進行主題演講,同時與在場的40多位來自金融、製造、能源等行業企業信息化負責人聚焦機器翻譯的價值、企業應用需求、未來發展趨勢等話題展開深入的互動討論,分享最佳實踐經驗,助力企業更好的提升機器翻譯大規模產業化應用,推動企業智能化升級。
  • 機器之心獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類
    答:百度 NLP 部門在公司內部是具有較長歷史的部門,從最初搜索誕生時,就已經有 NLP 方面的工作。2010 年,百度正式成立自然語言處理部。現在,這個團隊人員構成非常多元,有自然語言處理、機器學習、信息檢索、數據挖掘、機器翻譯等多領域的專業性人才,擅長工程實踐和擅長科學研究的人才都能夠在團隊中發揮重要作用。
  • 機器翻譯七十年:百度領跑神經網絡翻譯時代
    近兩年,神經網絡機器翻譯(Neural Machine Translation, NMT)技術異軍突起,取得了翻譯質量的大幅躍升。12月21日,在百度機器翻譯技術開放日上,百度技術委員會聯席主席、自然語言技術負責人吳華博士表示,基於領先的人工智慧、神經網絡以及自然語言處理技術,百度早在1年多以前就率先發布了世界上首個網際網路NMT系統,引領機器翻譯進入神經網絡翻譯時代。
  • 百度:目前機器翻譯準確率已經與人類水平相當
    [PConline資訊]12月1日,百度大腦開放日舉辦。IDC中國副總裁兼首席分析師武連峰表示,到2021年底,超過70%具有海外業務的中國企業將不同程度的採用機器翻譯,應用場景也將更為豐富。  據介紹,百度提出的語義單元驅動的AI同傳模型,翻譯準確率為80%,時間延遲約為3秒,與人類水平相當。
  • 神經機器翻譯系統上線500天 百度的英文說得越來越溜
    譬如,「給你點顏色看看」這句話,不具備NMT系統或技術不夠完善的機器翻譯往往會將其譯為「Give you some color to see see」,而上線了NMT系統的百度翻譯則可以非常地道地向老外講出漢語語境中「顏色」的深意了。
  • 百度機器翻譯獲國家科技進步獎
    1月8日,2015年度國家科學技術獎勵大會在人民大會堂舉行,百度機器翻譯項目獲頒國家科學技術進步獎二等獎,這是該獎項首次出現網際網路巨頭(BAT)的身影。   機器翻譯一直被公認為人工智慧領域最難的課題之一,百度機器翻譯的突破性成果,使我國掌握了網際網路機器翻譯的核心技術,佔領了技術制高點。
  • Gartner最新報告:百度翻譯整合多項AI能力 多模態翻譯助跨國交流
    據Gartner預測,到2025年,全球10%的企業將使用集成在IT運維中的企業翻譯服務,75%的翻譯工作將從專注於翻譯本身轉向對機器翻譯的結果進行審閱和編輯。未來,機器翻譯將是大中小企業增強全球化信息能力不可或缺的抓手;其中,百度是全球AI翻譯服務中的重要力量。
  • 百度機器翻譯團隊獲得WMT2019中英翻譯冠軍
    8月1日,WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開。本屆大賽,百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍。,其中中文-英文翻譯任務是歷年參賽隊伍最多、競爭最為激烈的機器翻譯任務之一。
  • 谷歌機器翻譯取得顛覆性突破 到底幾分真假?
    如果說IBM Model1是機器翻譯的牛頓定律,那麼Seq2Seq就是機器翻譯裡的愛因斯坦相對論,Seq2Seq是谷歌在機器學習頂會NIPS的一篇論文,模型簡單漂亮,為文本生成尤其是機器翻譯打下了良好的模型基礎,所有的NMT(神經機器翻譯)均在此模型上添磚加瓦,這篇也是一樣。
  • 百度翻譯打造定製化翻譯服務、AI同傳等全產品矩陣 企業效率工具擔當
    IDC中國副總裁兼首席分析師武連峰、百度AI技術生態部總經理劉倩、百度人工智慧技術委員會主席何中軍進行主題演講,同時與在場的40多位來自金融、製造、能源等行業企業信息化負責人聚焦機器翻譯的價值、企業應用需求、未來發展趨勢等話題展開深入的互動討論,分享最佳實踐經驗,助力企業更好的提升機器翻譯大規模產業化應用,推動企業智能化升級。
  • 全球首個突破200種語言互譯的翻譯引擎 百度翻譯打破世界溝通壁壘
    IDC中國副總裁兼首席分析師武連峰、百度AI技術生態部總經理劉倩、百度人工智慧技術委員會主席何中軍進行主題演講,同時與在場的40多位來自金融、製造、能源等行業企業信息化負責人聚焦機器翻譯的價值、企業應用需求、未來發展趨勢等話題展開深入的互動討論,分享最佳實踐經驗,助力企業更好的提升機器翻譯大規模產業化應用,推動企業智能化升級。
  • 百度領銜舉辦首次機器同傳講習班 詳解機器同聲傳譯技術演進
    EMNLP由國際計算語言學學會(ACL)旗下SIGDAT組織,會議涵蓋語義理解、文本理解、信息提取、信息檢索和機器翻譯等主題。會上,由百度聯合Google舉辦的首次機器同聲傳譯學術講習班(Tutorial)召開,圍繞機器同傳的背景、挑戰、模型、數據集、實用系統和產品、未來研究方向等展開報告和研討,吸引了數百位國際學者參會。
  • 機器翻譯正走入現實生活 未來還需要人工翻譯嗎?
    參考消息網2月21日報導 英國《泰晤士報》網站2月16日刊登了題為《科幻作品中的翻譯機器現在成為現實》的文章,作者為本·麥金太爾,文章摘編如下:本周,我讀了一本250頁的俄文書,儘管我連一個俄語單詞都不會說也看不懂。
  • 百度機器翻譯獲2015年度國家科技進步二等獎(圖)
    百度機器翻譯項目在大會上被授予國家科技進步獎,成為BAT中首個獲此獎項的企業。機器翻譯是人工智慧領域最難的課題之一。1947年,機器翻譯步入歷史舞臺,50年代機器翻譯研究持續升溫,美國、前蘇聯等國家均出現了研究熱潮。
  • 機器翻譯能解放生產力嗎?
    我們都知道只有技術革命才能解放生產力。在翻譯領域裡,基於自然語言「神經網絡模型」的機器翻譯的出現,終於讓大家看到了顛覆性的技術。從中,大家看到「神經網絡」的革命性和未來性,內心中對這項技術有了些憧憬和疑問,也就有了如此疑問。我們不講總的機器翻譯歷史和時間軸事件,僅從應用角度到來看,軟體翻譯可以有三個階段。
  • 重磅| 谷歌大腦養成記:從識別貓到突破性機器翻譯
    對於神經網絡的最簡單的描述是:基於發現數據中模式的能力來進行分類和預測。如果只有一層,你只能發現一個簡單模式;有更多的層時,你甚至能發現模式的模式。比如圖像識別,現在這項任務依賴於一種被稱為「卷積神經網絡」的技術(該技術是由 Yann LeCun 在其 1998 年的開創性論文中提出的,他是 Hinton 的博士後)。
  • 百度機器翻譯五大領域實現新突破 獲WMT2019中英翻譯冠軍
    8月1日,WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開。本屆大賽,百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍。、競爭最為激烈的機器翻譯任務之一。
  • 見人說人話,見鬼說鬼話,現在的機器翻譯怎麼比我還油膩?
    睜著眼睛說瞎話、腦內 YY 小黃片什麼的已經不新鮮了,最近,在達特茅斯大學專家的「言傳身教」下,機器又 get 了一項人類的油膩技能——兩面三刀,見人說人話,見鬼說鬼話。:「女神發微信說要去洗澡了」。你打了它一下,「說人話!」「女神讓你滾…」當然效果略有誇張。科學家們正在努力讓機器翻譯軟體學會的這個技能,學術上叫做文風轉換。
  • 將科幻變成現實,谷歌百度用神經機器翻譯踐行人類的「巴別塔之夢」
    可以說,百度翻譯是全球首個網際網路神經網絡翻譯系統。」機器翻譯在研究方面取得突破性進展,而如何將其大規模產品化,尤其是在手機這個終端上應用成為眾多科技公司都面臨的問題,而眾多公司也紛紛開始了嘗試。在去年的自然語言處理頂會ACL2016上,有個關於NMT的Tutorials 就提到,未來NMT的一個重要研究方向是手機端的NMT翻譯系統,需要克服模型大小、速度等多個重要問題。