百度發布即時翻譯「神器」 突破自然語言處理重大難關

2020-12-05 中國新聞網

中新網10月24日電 人工智慧領域,兩種語言的「即時互譯」是一項難以攻克的技術問題,其主要原因在於源語言和目標語言之間存在較大的詞序和語序差異。近日,百度研發了具備預測能力和可控延遲的即時機器翻譯系統,可實現兩種語言之間的高質量、低延遲翻譯。這是自然語言處理方面的重大技術突破,將對機器即時筆譯和口譯的發展起到極大地推動作用。

機器同傳利用語音識別技術自動識別演講者的講話內容,將語音轉化為文字,然後調用機器翻譯引擎,將文字翻譯為目標語言,顯示在大屏幕或者通過語音合成播放出來。相比人類譯員,機器最大的優勢是不會因為疲倦而導致譯出率下降,能將所有「聽到」的句子全部翻譯出來,這使得機器的「譯出率」可以達到100%,遠高於人類譯員的60%-70%。同時,在價格上也佔有優勢。

在機器同傳領域,百度聯合語音技術、機器翻譯技術,從語音識別、翻譯質量、時延、融合領域知識等方面推出了「一攬子」解決方案。

在語音識別方面,區別於傳統的上下文相關建模技術,百度提出了上下文無關音素組合的中英文混合建模單元,包含1749個上下文無關中文音節和1868個上下文無關英文音節。該方法具有泛化性能好、對噪聲魯棒、中英文混合識別等特點。

在翻譯質量方面,提出了「語音容錯」的對抗訓練翻譯模型,根據語音識別模型常犯的錯誤,在訓練數據中有針對性的加入噪聲數據,使得模型在接受到錯誤的語音識別結果時,也能夠在譯文中糾正過來。比如,語音識別系統將「大堂」錯誤的識別為「大唐」,這一對噪聲詞將被自動收錄到訓練數據中,並將源語言句子「我們在酒店大堂見面吧」替換為「我們在酒店大唐見面吧」,而保持目標語言翻譯不變「Let's meet at the lobby of the hotel」,同時將這兩個中文句子用於訓練,進而獲得具有更強的容錯能力模型。

為了降低時延提升翻譯質量,人類譯員通常對演講內容進行合理預測,百度開發人員從人類譯員身上獲得啟示,研發了「wait-k words」模型,可以根據歷史信息,直接預測翻譯中目標語言詞彙。該模型在翻譯質量和翻譯延遲之間做出了很好的平衡,用戶可通過根據實際需求設定延遲時間(例如延遲1(k=1)詞或延遲5(k=5)詞)。比如,法語和西班牙語這種較為接近的語言,延遲可設置在比較低的水平;但是,對於英語和漢語這種差異較大的語言,以及英語和德語這種詞序不同的語言,延遲應當設置為較高水平,以便於更好的應對差異。

在同聲傳譯時,經常會遇到不同領域的專業知識,這就要求同傳人員在短時間內吸收大量相關領域的內容,這對他們也是極大地挑戰。基於此,百度模仿人類同傳的準備過程,提出了快速融合領域知識策略。該策略依託百度海量的網際網路大數據,訓練得到的具有通用翻譯能力的模型;當它接到某一個領域的同傳翻譯任務時,系統會收集該領域數據並在通用模型的基礎上進行增強訓練,得到相應領域增的強模型;最後對該領域術語庫進行強制解碼,使專業術語翻譯得準確可靠,且提升翻譯效率。

作為對外開放和商業國際化的需求之一,同聲傳譯被廣泛應用於政府間的峰會、多邊談判和其他商業場合,但是同傳人員稀缺也成為了當前的棘手問題。為了解決全球範圍內同傳譯員人數少、費用高等難題,越來越多開發者專注於機器同傳的研發,百度也希望通過研發高質量機器同傳技術和系統解決即時翻譯難題。

雖然機器同傳有了新的突破,但它與經驗豐富的同傳人員相比,依然存在一定差距。百度翻譯技術負責人表示,同傳的目的並不在於取代人類譯員,而是為了降低同傳成本,讓同傳的應用範圍更加廣泛,也希望世界各地的人在AI的助力下早日實現「無障礙」交流。

相關焦點

  • 百度翻譯八周年 全新版本發布「YOUNG溝通,更多彩」
    「打破語言障礙,使人們隨時隨地與世界自由溝通」是百度翻譯一直以來的願景。2011年6月30日,百度正式推出web端百度翻譯,百度翻譯網頁版正式發布,無數使用百度搜索的網友開啟了網上翻譯的新時代。2013年2月28日,百度翻譯發布?
  • 百度大腦開放日釋放自然語言處理最新黑科技
    作為人工智慧理解信息的核心手段,近年來自然語言處理技術(NLP)突破頻頻,並開始往更多垂直場景落地應用。7月31日,百度大腦開放日NLP專場於中關村創業大街的百度大腦創新體驗中心舉行。開放日期間,百度自然語言處理部副總監忻舟分享了NLP領域的開放全景,並重點介紹了智能創作平臺2.0的新特性、PaddleNLP(NLP開源工具與預訓練模型集)、ERINE(知識增強的語義理解框架)等最新技術。活動現場,央視網、國美零售、縱橫文學的相關技術負責人也登臺演講,闡述企業如何借力百度大腦開放的NLP技術能力,實現自身業務的智能化演變。
  • Gartner最新報告:百度翻譯整合多項AI能力 多模態翻譯助跨國交流
    近日,全球權威的技術研究與諮詢機構Gartner發布最新報告《Market Guide for AI-Enabled Translation Services》,百度憑藉在機器翻譯方面出色的表現強勢入圍全球AI翻譯服務代表性提供商(representative vendor)。
  • 百度翻譯閃耀MIT年度科技大會,吳華現場展示百度WiFi翻譯機
    百度自然語言處理部首席科學家、技術委員會聯席主席吳華博士受邀發表題為「Breaking Barriers with Machine Translation」的報告,介紹了百度機器翻譯的最新技術進展及創新產品。百度是此次機器翻譯領域唯一被邀請出席的企業嗷!
  • 百度手機輸入法語音翻譯
    在此基礎上,突破地域限制、實現毫無障礙的自由交談成為了全人類的共同夙願,因此,實時翻譯成為了人工智慧領域一個新的突破點。  作為全球最早進軍人工智慧領域的公司之一,百度早在2014年就發布了第一代深度語音識別系統Deep Speech,該系統使用了端對端的深度學習技術,在噪音環境下,Deep Speech語音系統表現要比谷歌、微軟以及蘋果的語音系統更好。
  • 微軟AI 翻譯重大突破:近人類語言中譯英
    微軟研究團隊發布消息,他們已經研發出首個可將中文翻譯成英文的人工智慧翻譯系統,該系統完成的中譯英文章與語句,具有與人類自然語言相一致的準確性和協調性。
  • 對比人工翻譯及自然語言處理翻譯,ai翻譯存在哪些優勢?
    舉個簡單的例子,微博上一般都是這樣子對話的:這種對話很好「產生」,因為人的語言翻譯一般很難做出來,從整體上描述了人對話過程,這樣就完成了對話的設計和「模仿」。當然,單這麼說也不嚴謹,可能有的翻譯有點細節交流上的錯誤。另外,比如歌詞有時也可以通過一些對比的對話(bingquery)自動生成,原因在於歌詞是「不可編碼」的。這麼理解,也就沒問題了。
  • 百度入圍Gartner全球AI翻譯服務代表企業 打造企業智能升級新引擎
    近日,全球權威的技術研究與諮詢機構Gartner發布最新報告《Market Guide for AI-Enabled Translation Services》,百度憑藉在機器翻譯方面出色的表現強勢入圍全球AI翻譯服務代表性提供商。
  • 百度翻譯閃耀MIT年度科技大會 吳華現場展示翻譯機
    百度自然語言處理部首席科學家、技術委員會聯席主席吳華博士受邀發表題為「Breaking Barriers with Machine Translation」的報告,介紹了百度機器翻譯的最新技術進展及創新產品。據悉,百度是此次機器翻譯領域唯一被邀請出席的企業。MIT Technology Review隨後發文詳細報導了這次演講,稱讚百度作為中國網際網路巨頭在提高機器翻譯上取得的重大進展。
  • 百度翻譯上新!桌面端1.0讓工作學習「輕+快」
    但由於信息渠道多樣,在翻譯過程中需頻繁切換工具,導致信息翻譯速度和理解效率低下,這也成為當前電腦工作、學習時使用翻譯的痛點。近日,百度翻譯全新發布桌面端1.0,支持200多個語種互譯,內含海量中英詞典,並重磅推出「極簡模式」、「劃譯」與「快捷鍵發起翻譯」三大核心功能,盡顯其「輕·快」特性,幫助用戶即時翻譯陌生詞句,高效便捷地理解、獲取信息。
  • 國內自然語言處理(NLP)研究組
    中國大陸地區:微軟亞研自然語言計算組 Natural Language Computing (NLC) Grouphttps://www.microsoft.com/en-us/research/group/natural-language-computing/www.microsoft.com百度自然語言處理百度自然語言處理 - 理解語言,擁有智能,改變世界
  • Google拍照即時翻譯功能大升級:可自動識別語言
    60種語言,還能自動識別語言並進行翻譯,同時加入神經機器翻譯技術以帶來更好的翻譯質量。首先,拍照即時翻譯新增超過60種語言,新加入的語言包括阿拉伯文、印度文、馬來文、泰文、越南文等,目前支持88種語言。過去用戶只能在英文和其他語言之間進行互譯,但現在可以將原文翻譯為Google翻譯支持的超過100多種語言。
  • 百度翻譯開放API 提供免費多語言服務
    原標題:百度翻譯開放API 提供免費多語言服務   上帝為了阻止人類建成通往天堂的巴別塔,讓語言成為了交流的最大障礙之一。現在,百度翻譯憑藉網際網路的巨大優勢,為身處全球各地的人們提供機器翻譯服務,語言障礙的藩籬被逐漸打破。無論是從事外貿電商行業的職員,還是致力於東西方文化交流的學者,抑或是出國旅遊的普通民眾,交流都變得更加簡單。
  • 百度機器翻譯獲國家科技進步獎
    項目負責人、百度技術副總裁海峰從1993年初開始從事機器翻譯領域研究工作,最終藉助百度強大的海量計算平臺和豐富的海量網際網路數據處理經驗,讓機器翻譯從理論走向實踐。   據王海峰介紹,得益於百度在自然語言處理上的領先技術優勢與不懈的創新努力,此次由百度與中科院自動化所、計算所、浙江大學、哈爾濱工業大學、清華大學共同研發的「基於大數據的網際網路機器翻譯核心技術及產業化」項目,突破了機器翻譯領域內的四大世界難題:提出基於大數據的網際網路機器翻譯模型,快速響應高負荷翻譯需求; 基於大數據的翻譯知識獲取,克服語言數據噪聲問題; 通過深度語義分析和翻譯技術
  • 百度NLP十年:基於知識增強的語言技術,實現跨模態一體化理解
    作者 | 陳大鑫編輯 | 青 暮自然語言理解(NLP)素有「人工智慧皇冠上的明珠」盛譽,這也意味著語言與知識等認知層面的技術突破將進一步促進AI深入發展。那麼,十年足以使得NLP領域產生什麼樣的變化?ACL首任華人主席、百度CTO王海峰認為,過去的十年是NLP技術進步和產業發展交織並進的十年。
  • 機器翻譯七十年:百度領跑神經網絡翻譯時代
    12月21日,在百度機器翻譯技術開放日上,百度技術委員會聯席主席、自然語言處理部技術負責人吳華博士表示,基於領先的人工智慧、神經網絡以及自然語言處理技術,百度早在1年多以前就率先發布了世界上首個網際網路NMT系統,引領機器翻譯進入神經網絡翻譯時代。先發制人:百度率先進入NMT時代眾所周知,一項新的技術從實驗室誕生到真正的工業化應用,往往需要很長時間。
  • 百度翻譯iOS 4.0發布 實物翻譯命中率超八成
    作為2014年獻給廣大網友的開年大禮,百度翻譯在年初發布的Android 3.0 「實物翻譯」功能一經推出,就引發了巨大反響和廣泛傳播。網友們紛紛曬出各種驚呆小夥伴們的翻譯結果,在感嘆「太厲害了!」、「這是什麼黑科技!」之餘,也為百度翻譯產品勇於探索、顛覆傳統模式的精神所折服。
  • 百度大腦開放日召開機器翻譯專場 百度AI同傳翻譯性能可媲美人類
    自2010年以來,百度翻譯在大規模產業化機器翻譯模型、海量翻譯知識獲取、多語言翻譯統一框架、機器同聲傳譯等方面進行了系統而深入的研究,取得重大技術突破,研製了具有完全自主智慧財產權、技術先進、功能豐富的機器翻譯系統,實時準確地響應全球海量複雜多樣的翻譯請求。
  • 百度機器翻譯團隊獲得WMT2019中英翻譯冠軍
    今年中英方向參賽隊伍有來自微軟、字節跳動、金山、愛丁堡大學、東北大學、日本情報通信研究院等國內外知名機器翻譯團隊。本屆大賽,百度翻譯團隊憑藉在數據處理、模型架構、數據增強、模型集成等方面的創新性突破,最終力壓群雄,取得第一。
  • 百度翻譯背後的女科學家吳華博士訪談錄
    訪談的話題從吳華博士從事的自然語言處理技術切入,纖纖女子變身女科學家,高端精深的技術術語以溫軟的女聲娓娓道來,百度翻譯的技術藍圖,從技術推動產品到技術與產品完美結合,百度翻譯這款體現百度使命的技術型產品漸漸變得清晰生動,象牙塔裡的機器翻譯技術也漸漸變得熟悉易懂。吳華博士侃侃而談,思路流暢而活躍,眼睛裡閃著睿智的光。