邊聽邊看風光無限! 百度全新發布語音到語音的同傳AI小程序

2020-12-12 ITBear科技資訊

  翻譯為人類重新建立交流的巴別塔,機器翻譯則讓無障礙溝通的門檻降得更低。5月26日,2019自然語言處理前沿論壇上百度人工智慧技術委員會主席何中軍博士帶來「機器同傳:進展與展望」的主題演講,並現場使用了「百度翻譯AI同傳」這一語音到語音的全新同傳產品。

  據介紹,全新百度翻譯AI同傳小程序僅需掃碼即可使用,同傳直播頁支持邊聽邊看,體驗更實時、流暢。採用雲端接入方式,無需傳統的同傳設備,降低會議成本。此外,會後同傳記錄還可以一鍵同步網盤,方便隨時查看。

  機器同傳:機遇與挑戰並存

  機器同傳成為人工智慧領域前沿研究方向之一。隨著語音和機器翻譯技術的進步,機器同傳取得了較大進展,也面臨著一系列挑戰:

  挑戰一:語音識別錯誤。由於演講者的口音、語速以及會場的噪聲影響,語音識別通常會存在一定的錯誤率,這錯誤會在翻譯中進一步放大。解決這一問題,需要從兩方面下功夫,一是高質量的語音識別系統,二是具有容錯能力、高魯棒性的翻譯模型。

  挑戰二:質量與時延的平衡。同傳最具魅力的地方在於其低時延,但高質量翻譯和低時延之間存在天然矛盾。要想獲得高質量的翻譯,需要等待演講者更多的信息,時延就會變長。目前,幾乎所有的「實時」翻譯系統仍然使用傳統的全句(即,非同時的)翻譯方法,造成至少一個句子的延遲,使得譯文與說話者不同步。

  挑戰三:翻譯的連貫性和一致性。目前,幾乎所有的翻譯系統都是以句子為單位進行翻譯的,句子與句子之間連貫性較差。同傳的主要場景是對演講者的內容,進行實時翻譯,需要保證翻譯前後內容的連貫和一致。

  挑戰四:訓練數據不足。在語音領域,有數十萬小時的訓練數據;在機器翻譯領域,有數十億句對的訓練數據。然而,面向真實場景的同傳數據,只有幾十到幾百個小時,遠遠不足以訓練高質量的同傳系統。

  挑戰五:評價指標的挑戰。在文本翻譯任務中,一般根據翻譯句子的流利度(語序)和忠實度(完整翻譯)對結果進行評價。同傳不同於筆譯,可以有足夠的時間去構思、推敲,同聲傳譯要求譯員在極有限的時間內對接受到的信息進行重組,使目的語聽眾了解原語發言人的講話內容。因此,會採用「順句驅動」「合理簡約」等方法。傳統的評價文本翻譯的指標不適用於評價同傳的結果。

  百度翻譯AI同傳:多項創新技術取得突破進展

  百度翻譯AI同傳集成了百度在同傳上的最新技術,在語音容錯、可控時延、篇章翻譯、端到端模型等方面都提出了創新的解決方案。

  在語音容錯方面,為提高翻譯的準確度和魯棒性,百度提出了「聯合文本和拼音編碼」的語音翻譯模型(Robust Neural Machine Translation with Joint Textual and Phonetic Embedding)。這一模型的創新之處在於對文本和拼音進行聯合編碼,緩解語音識別帶來的錯誤。比如,發音都是「datang」的「大堂」和「大唐」很容易令語音識別系統混淆。傳統的翻譯模型只使用了文本信息進行編碼,百度提出的模型在編碼端加入了音節信息,使得模型具有容錯能力。

  在實時性方面,人工同傳可以很好的處理質量與時延的平衡。從人類譯員那裡獲得靈感,百度提出了具有預測和可控時延的翻譯模型(STACL: Simultaneous Translation with Integrated Anticipation and Controllable Latency)。在這個模型中,在等待講話者開始後的第K個詞,就開始翻譯。模型在每個步驟使用源語句的可用前綴,以及到目前為止的翻譯來決定翻譯中的下一個單詞。該模型一個顯著的優點是其具有可調節性,實際使用中可以根據需要調節K值,以平衡翻譯質量和時間延遲。

  在語篇翻譯方面,百度提出了基於多輪解碼校對網絡的篇章翻譯模型(Modeling Coherence for Discourse Neural Machine Translation),用於解決篇章翻譯過程中的一致性和連貫性問題。該模型首先進行第一輪解碼根據單個句子生成初步的翻譯結果,其後根據已經生成的上下文信息,對翻譯結果進行第二次解碼,重新調整翻譯內容。並且利用深度增強學習的技術,調整當前句子的譯文和已經生成的譯文保證良好的連貫性和一致性,在譯文的整體流暢性上取得顯著提高。

  在端到端機器同傳模型方面,百度提出基於知識蒸餾的同傳模型(End-to-End Speech Translation with Knowledge Distillation)。首先利用大規模文本翻譯語料訓練一個教師模型,然後利用端到端語音翻譯訓練語料中的源語言轉錄文本和目標語言翻譯文本對教師模型進行微調(fine-tune)。在微調的過程中,利用知識蒸餾技術(Knowledge Distillation)對端到端語音翻譯的學生模型(Student Model)進行預測分布修正。該模型可以有效克服數據稀疏問題,顯著提升翻譯質量。

  「未來,機器同傳可以從以下三個方面開展工作,在模型方面,研究高魯棒、低時延的同傳模型;在數據方面,建設大規模面向真實場景的同傳數據;在評價方面,建立面向同傳的評價體系和標準。」 何中軍表示。

  層出不窮的網絡新詞,難以理解的語境,讓機器翻譯還不能做到「信達雅」,但隨著技術的發展,機器翻譯也在不斷進化。為推動機器同傳技術發展,百度翻譯聯合CCMT2019(全國機器翻譯研討會)推出全球首個面向真實場景的中英同傳評測任務(http://ccmt2019.jxnu.edu.cn/page/main1923/pctz.htm),同時發布了首個真實演講場景的中英同傳數據集CCMT2019-BSTC(http://ai.baidu.com/broad),兩項工作都將極大地推動同聲傳譯的相關研究和發展。

  「有一天,當你在北京人民大會堂和世界各國友人聚會的時候,你會發現,無論哪個國家的人在臺上講話,與會者都能從耳機裡聽到自己國家的語言……」 這是54年前,劉湧泉、高祖舜、劉倬合著的《機器翻譯淺說》裡對未來的機器翻譯發展和應用的暢想和展望。而今天,隨著技術的進步,暢想正在逐步走向現實。百度翻譯AI同傳解決方案的提出,提供了一種更方便、成本更低的服務選擇,而未來,隨時隨地自由溝通的夢想也將離我們越來越近。

特別提醒:本網內容轉載自其他媒體,目的在於傳遞更多信息,並不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,並請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時聯繫我們,本站將會在24小時內處理完畢。

相關焦點

  • 百度手機輸入法語音翻譯
    文章原標題:百度手機輸入法語音翻譯 開啟人工智慧新紀元  談及語音識別,其實早已不是什麼新鮮技術了。TTS(Text To Speech)技術發展了幾十年,各種科技公司都相繼推出了語音搜索和語音助手功能,語音輸入類產品也是層出不窮。
  • 百度手機輸入法Android 5.1版—新增粵語語音輸入
    近日,百度手機輸入法發布了全新安卓5.1版,主打離線語音、粵語語音、智能英文、英文單詞手寫、全新皮膚等功能,獲得了不少用戶的好評。據了解,百度手機輸入法安卓5.1版在原5.0版簡約風格的基礎上更加專注輸入,帶來了語音、英文、手寫、聯想等基礎輸入的全面提升,追求最極致的用戶輸入體驗;而全新的默認皮膚,以及新上線的Android L風格皮膚,更為大家帶來了扁平視覺的全新體驗,不免讓人眼前一亮。
  • 中文語音合成最高水平,百度語音技術打造全球首款地圖語音定製產品
    9月19日,百度地圖「『音』為有你,更有『AI』」語音定製功能發布會召開,重磅推出全球首個地圖語音定製產品。該功能科技範兒十足,用戶只需在百度地圖App上錄製20句話,最快20分鐘,即可生成個人完整語音包。換句話說,當你之後出行使用地圖功能時,就可以用自己的家人甚至寶寶的定製化語音導航,十一旅遊還可以聽自己聲音的景區解讀。
  • 百度發布小度智能屏X10,支持聲紋識別!小度耳機上線語音筆記功能
    價格方面,小度智能屏X10售價999元。此外,針對今年9月發布的小度真無線智能耳機Xpods,百度還新推出了語音筆記功能,進一步豐富產品功能,增強實用性。百度副總裁兼SLG總經理景鯤談到,小度助手DuerOS經過六個版本的重大提升,已走進萬千家庭。
  • 百度手機輸入法語音翻譯 開啟人工智慧新紀元
    談及語音識別,其實早已不是什麼新鮮技術了。TTS(Text To Speech)技術發展了幾十年,各種科技公司都相繼推出了語音搜索和語音助手功能,語音輸入類產品也是層出不窮。在此基礎上,突破地域限制、實現毫無障礙的自由交談成為了全人類的共同夙願,因此,實時翻譯成為了人工智慧領域一個新的突破點。
  • AI技術全方位賦能,百度輸入法語音用戶規模穩居行業第一
    工作時,你有「微信語音恐懼症」嗎?一收到語音信息就頓感焦慮,不得不中斷手中工作,靠近聽筒一條條聽下去。若有一兩個字聽不清,或是碰上夾雜方言、英文的語音,還得反覆聽上好幾遍。想要解決這個在線交流的難題,其實對一款輸入法的AI能力考驗極強。
  • 最好用的語音輸入:百度輸入法不僅是輸入法,更是翻譯器!
    而在眾多輸入法中,百度卻憑藉著多年積累的AI語音技術實現了多語種混輸,更大的滿足了市場需求,百度語音輸入日均請求量早已突破了10億次,同時百度還斬獲了2020輸入法滿意度最高的殊榮,市場佔有率也已超搜狗、訊飛等其他主流輸入法位居市場第一位。百度輸入法如此優秀到底體現在哪?我們還是一起看看最新版百度輸入法擁有的那些黑科技吧!
  • 百度發布「愛說唱」智能小程序:全民變Rap歌手
    7月4日,在「Baidu Create 2018」百度AI開發者大會上,百度副總裁沈抖攜知名說唱歌手孫八一,發布了一款名為「愛說唱」的智能小程序:用戶只需選擇背景音樂,然後說出歌詞,就可自動生成一段堪比專業的RAP歌曲。
  • 第三方語音輸入法怎麼選?百度輸入法、搜狗、訊飛差距竟如此明顯...
    據全球領先的新經濟行業數據挖掘和分析機構iiMedia Research(艾媒諮詢)權威發布《2018-2019中國第三方手機輸入法市場監測報告》。手機輸入法作為移動終端的剛性需求,其產品屬性經歷了由單純的輸入工具到信息服務載體的轉變,並隨著AI、5G、物聯網、大數據、雲計算等新興技術的升級往多元化、智能化的方向發展。
  • 解放雙手,微軟讓Office套件能聽你語音指令,還可充當60多種語言的...
    當語音從扮演人與人間承接流轉的角色跳脫,轉而成為人與物間溝通交流的橋梁時,想像空間變也跟著拓寬了。如過去僅播放音樂的音箱,結合語音識別等技術,搖身轉變為家庭小助手。微軟就這樣做了,他們與本就做音箱的合作,推出搭載微軟人工智慧語音助手Cortana的智能音箱Invoke。
  • 白水縣倉頡廟全球語音導遊正式在線發布
    白水縣倉頡廟全球語音導遊正式在線發布 恢復窄屏 發布時間:2015-01-21 07:59:04
  • 馬鞍山市文化館智慧語音導覽系統正式上線!
    語音導覽作為展館宣教的重要窗口,對智慧展館的建設發展發揮著重要作用。手機掃碼即刻聆聽 無需下載方便快捷智慧語音導覽小程序暖心上線智能、精準、免費,超級好用的智能系統,只要手持一部手機。02「御姐女神」講解有趣、有溫度的語音講解,遊客朋友們可以邊走邊聽,隨時了解。03智慧便捷服務智慧語音導覽系統是居住在你手機裡的講解小精靈,實現「走到哪,聽到哪」的電子遊覽服務。如何獲取智能導覽?
  • 業界首個開啟車載音頻小程序,蜻蜓FM聯合百度智能車聯共探車場景...
    在這場面向行業、媒體、合作夥伴和廣大用戶的最高級別的行業盛事上,百度Apollo智能車聯在當天推出了全新車載小程序2.0,蜻蜓FM成為百度首個車載音頻小程序合作夥伴。蜻蜓FM創始人、董事長兼CEO張強出席了此次大會,與百度車聯網事業部總經理蘇坦共同探索車場景下的語音交互和音頻內容的應用。
  • AI語音賦能,百度坐穩輸入法頭把交椅
    雖說每個手機都自帶輸入法程序,但功能布局單一,並不足以滿足用戶多元多場景輸入需求,所以要想有事半功倍輸入體驗,最後落腳點還在第三方輸入法產品上。在經過多年激烈廝殺淘汰後,市面上第三方輸入法產品僅剩下寥寥幾個,被大家熟知最主流的輸入法產品也就百度輸入法,訊飛輸入法和搜狗輸入法三家,幾乎佔據整個行業九成九的市場份額,呈現寡頭壟斷局勢。
  • 用語音說 訊飛語音輸入法新版正式發布
    2011年3月18日,安徽科大訊飛信息科技股份有限公司正式發布訊飛語音輸入法v1.2.1048 beta版。訊飛語音輸入法v1.2.1048 beta版新增了文字編輯面板、手寫靈敏度設置、中英文混拼、功能欄面板等實用功能,優化了數字、符號面板布局,進一步強化了手寫及拼音鍵盤輸入功能,為用戶創造更加方便快捷的輸入體驗。
  • 看書APP標配的「聽書」功能火了 超七成背後是百度大腦語音技術支持
    2萬本小說14天實現音頻化,七貓小說用"聽小說"拓展閱讀場景以接入百度大腦語音技術的七貓小說為例,上線語音朗讀即聽書功能後,七貓小說的下載量直線上升。在花了不少時間研究如何將小說音頻化後,七貓小說最終決定接入百度大腦語音識別和語音合成技術,僅用了14天,實現2萬本有聲小說的"量產"上線。自此,每一位用戶都能通過七貓小說隨時隨地的聽書,朗讀時有磁性男聲、甜美女聲、萌萌童聲等9種音色供選擇,速度能從0.5倍速調到3倍速。七貓小說因此迅速拓展了通勤、運動、睡前、做家務、休息間隙等全新閱讀場景。
  • 疫情期聽書高漲,百度語音技術調用日增...
    市面上超過70%的泛閱讀類APP已經接入百度大腦的語音技術,讓用戶隨時隨地、隨心所欲切換「讀書」和「聽書」,解放雙手雙眼,沉浸書海不間斷。  2萬本小說14天實現音頻化,七貓小說用「聽小說」拓展閱讀場景  以接入百度大腦語音技術的七貓小說為例,上線語音朗讀即聽書功能後,七貓小說的下載量直線上升。
  • 日均調用量超100億次 百度大腦正在用語音喚醒一個AI時代
    在當天舉行的百度大腦語音能力引擎論壇上,百度大腦語音引擎全新發布和升級了14大產品內容,包括基於百度鴻鵠語音晶片的4款硬體模組、開發板及3大場景解決方案,升級了語音自訓練平臺、呼叫中心語音解決方案等。來自家電、農業、醫療等行業的合作夥伴代表也在現場分享了百度大腦語音技術賦能的成果。
  • 百度地圖新功能!能把女朋友的聲音設置為語音導航!趕緊學起來!
    只要打開百度地圖APP,呼喚「小度小度」,說出「錄製我的語音」,或點擊百度地圖首頁的「出行助手」後選擇「語音定製」便可進入語音定製頁面。完整版操作,請戳下方視頻↓↓錄製的個人語音包可以分享給親朋好友,無論是父母、朋友還是戀人,都能通過地圖語音包讓你與親人更「近」一步。大家也可以將自己錄製的語音包發布到模仿、鄉音、童聲等板塊中,讓更多人聽到你的聲音。
  • 百度語音交互持續迭代 打造端到端信號聲學一體化建模等前沿技術
    (百度世界2020央視新聞直播間)在當天的百度大腦分論壇上,百度語音首席架構師賈磊重點講解了百度端到端語音交互技術。他表示,百度語音交互技術持續迭代升級,已發展成為基於深度學習技術的端到端的語音識別和語音合成技術。在語音識別層面,百度推出端到端信號聲學一體化建模的技術,語音合成方面,最新的Meitron和單人千面合成個性化技術亮相。