近日,國際頂會ACL官網披露大會議程,由百度領銜,聯合Google、Facebook、Upenn、清華大學等海內外頂尖企業及高校專家們共同申辦的首屆同聲傳譯研討會(The 1st Workshop on Automatic Simultaneous Translation),將在自然語言處理領域國際頂級學術會議ACL 2020中召開。研討會期間,百度還將舉辦國際首屆同傳評測。
眾所周知,國際計算語言學協會(ACL,The Association for Computational Linguistics)成立於1962年,是自然語言處理領域影響力最大、最具活力的國際學術組織之一,自成立之日起,致力於推動計算語言學及自然語言處理相關研究的發展和國際學術交流。百度CTO王海峰博士則是ACL五十多年歷史上首位華人主席,ACL Fellow,並於2018年出任ACL亞太分會(AACL)創始主席。此次在ACL 2020由百度領銜舉辦首屆同傳Workshop。
同聲傳譯歷來是自然語言處理領域的經典課題。同聲傳譯是指在不打斷演講者的條件下,將講話內容不間斷地、實時地翻譯給聽眾的一種翻譯方式,廣泛應用於國際會議、外交談判、商務會談等重要場合。
近年來,隨著人工智慧相關技術的進步,結合了機器翻譯(MT)、語音識別(ASR)和語音合成(TTS)等技術的機器同傳(Simultaneous Translation,ST)成為領域前沿。其中,既有技術突破如集成預測和可控時延的同傳模型、語義信息單元驅動的上下文同傳模型等,也有廣泛的產品應用,如字幕投屏、語音到語音的同傳小程序等。然而,作為一個融合多種技術的前沿課題,機器同傳仍然面臨國際公認的諸多挑戰,如語音識別錯誤傳播、翻譯模型魯棒性差、數據稀缺、評價體系不健全等。
在本次研討會中,國際首屆同傳評測比賽也將同期舉辦,包含中英、英西3種語言、兩個翻譯方向。作為首屆針對同聲傳譯的頂級專業賽事,此次百度將行業首發超過70小時的高質量真實場景演講語音及標註結果供參賽者進行模型訓練,涵蓋信息技術、經濟、文化、生物、藝術等多個領域。眾所周知,高質量的數據是同聲傳譯研究中面臨的重要問題。參賽者經過報名審核後,百度將定向開放該數據集。此外,賽事共將提供4個賽道,綜合評估各參賽隊伍的翻譯質量和延時情況,當前賽事已開放報名。