6月21日至24日,2020北京智源大會盛大開幕,五位圖靈獎得主、十多位院士、一百多位專家學者齊聚一堂,共同探討人工智慧的下一個十年。受疫情影響,本屆大會以在線直播的形式舉行,吸引了全球學術界、產業界超過2.5萬人報名參會。為了更好地幫助國內外觀眾理解報告內容,百度翻譯為本次大會提供了機器同傳服務。
人工同傳專業性強,難度極高
同傳是一項專業性極強、難度極大、耗腦又耗嗓的工作。除了深厚的語言能力外,還需要極強的反應能力,邊說邊聽,精力高度集中,對譯員的腦力和體力都是極高的挑戰。因此往往一場會需要兩個甚至多個譯員共同完成同傳。
國際會議口譯員協會(International Association of Conference Interpreters,簡稱AIIC)作為會議口譯職業全球唯一專業協會,全球會員僅有約3000人,其中漢語普通話會員僅50人。而據不完全統計,僅中國每年需要同傳的國際會議就有上萬場。巨大的市場需求與譯員的稀缺形成強烈反差。
機器同傳成研究熱點,百度翻譯提出多項創新
近年來,得益於人工智慧技術的綜合進步,結合語音技術和機器翻譯技術的機器同聲傳譯成為國際前沿研究的熱點。機器同傳面臨一系列國際公認的難題,如語音識別錯誤傳遞、翻譯質量與時間延遲難以平衡等。
針對這些難題,百度翻譯團隊展開攻關,先後提出了集成預測與可控時延的翻譯模型、語義單元驅動的上下文感知翻譯模型、融合音節與文本的聯合編碼模型、基於知識蒸餾的端到端同傳模型、語音識別與翻譯交互解碼等一系列創新技術,在語音容錯、平衡質量與時延、語篇翻譯連貫性和端到端同傳模型等方面取得突破,研發了高質量、低時延的機器同傳系統。在2018《麻省理工科技評論》十大技術突破中,百度被列為語音翻譯領域"Key Player",成為國內唯一上榜單位。
遠程直播會議新形勢,百度同傳研發新方案
全球疫情使得大量會議改為了線上進行。此次智源大會採取演講人遠程接入,觀眾通過直播平臺觀看的形式舉行。這種形式進一步加重了同傳的難度:
一是語音識別難度增大。為了適應網絡帶寬,在線會議軟體對聲音信號進行壓縮編碼處理,同時傳輸過程中易受多種信號幹擾,原始聲音信號不穩定,對語音識別挑戰極大。
二十多場會議並行,對系統穩定性要求高。以往的會議往往都是一場會議發言人順序進行,而本次會議共有19個分論壇,最多的時候同時並行6場,系統部署難度超過以往。
三是領域龐雜,專業性強。本次大會涵蓋智能體系架構、智能晶片、認知神經、機器感知、人工智慧倫理、AI醫療、AI交通等多個領域,每一個領域都極具專業性,專業術語和領域知識翻譯難度大。
針對以上難題,百度研發了創新的機器同傳解決方案。搭載百度語音自研的SMLTA聲學建模技術,並通過對音頻信號的加強處理,提升了識別的魯棒性;採用雲端在線部署,極大降低了部署難度和成本,可根據需求迅速擴容,高效滿足不同形式的同傳需求;通過遷移學習、預訓練加精細化訓練等技術,可以迅速提升領域模型的翻譯效果,滿足多領域翻譯需求。
新機遇新挑戰促發展
目前,機器同傳已在許多國際會議上嶄露頭角,它的優勢在於可以藉助強大的AI技術和資料庫作為後盾,掌握並調取更多資料和專業領域的知識,持續工作,不知疲倦。
同時,也需要清醒地認識到,機器同傳仍面臨多項國際公認難題,如語音容錯、數據稀缺、評價困難等,需要多學科、多技術深入交叉融合,共同進步。基於此,在今年即將召開的領域頂級會議ACL上,百度聯合谷歌、臉書、賓夕法尼亞大學、清華大學等國內外著名公司和高校,舉辦首屆機器同傳研討會,邀請了多名人類同傳專家、機器翻譯專家共同探討機器同傳技術進展、面臨挑戰及未來發展。
未來,百度將持續進行技術創新,推動機器同傳技術邁向新的階段,構築跨語言溝通橋梁,促進全球協作。