今年的六級考試有位特殊的考生, 極短的時間內就將六級翻譯測試題全部解答完畢,來自上海交通大學外語學院兩位專家現場評分--優秀。六級考試每次通過率只有30%左右,這位特殊的考生正是訊飛翻譯機2.0搭載的科大訊飛機器翻譯系統。
特殊的六級考生,優秀的成績
回到今年的考試現場,12月18日下午,合肥師範學院一間特殊的考場內,考官分別打開三道考題,由人工將考題輸入電腦,隨後科大訊飛的機器翻譯系統進行作答,每道題不到2秒便作答完畢。
最終科大訊飛機器翻譯系統拿下13分的優秀成績。參考往年大學英語六級翻譯考題的表現,可達到優秀六級考生的水平。
面向不同領域的訊飛神經機器翻譯系統
機器翻譯系統何以在大學英語翻譯權威評測中獲得好成績?
「一是核心算法,二是大規模語料庫,三是高性能計算平臺。」研究人員介紹,機器翻譯技術是利用計算機把一種自然語言翻譯成另一種自然語言,從1933年正式被提出開始,目前已更新有三代技術、取得了長足的進步。
「最新一代技術是基於端到端的神經機器翻譯。」 神經機器翻譯算法的提出,是當前機器翻譯取得重大突破的關鍵。
大規模平行語料的積累則是基礎。目前對於漢語和英語等大語種,業界積累的類似漢語和英語對齊的翻譯句對已經達到千萬甚至數億級別,這成為機器翻譯學習的語料。
面對數億級的模型參數和訓練數據,以圖形處理器為代表的高性能計算硬體的提出和發展,也必不可少。
「六級翻譯題涉及文化、經濟、歷史、社會等多領域,還有不少專業表達或中國特色詞彙,在整個翻譯系統可供訓練的語料中是比較匱乏的。」科大訊飛為了破解這一難題,對神經機器翻譯進行若干改進,其中一項重要改進是領域翻譯技術,即在通用翻譯模型之上進行了領域定製。
其中一項技術是領域個性化。「傳統翻譯模型一般針對具體應用場景搜集該領域相關語料,但在實際應用中,由於『精力不夠』會導致其他領域的翻譯效果受影響。」這就好比學習中的「偏科」,從而影響了總分。為此,科大訊飛研發人員在保持原有翻譯系統不變的基礎上、引入額外的旁支模型,「可最大程度實現目標領域和其他領域翻譯性能的兼顧。」
方案內的另一項技術是術語詞典拼接融合。「翻譯中常會遇到行業術語,有的機器可能沒有見過、有的見過卻在不同行業有不同翻譯方式。」科大訊飛給出的解決方案是:提前將行業領域的關鍵詞彙融入翻譯模型,指導機器在平日訓練中自動學習術語,從而在翻譯過程中產生正確的譯文。
基於上述領域翻譯技術,科大訊飛推出了面向行業的翻譯解決方案。
專業領域的應用:「行業A.I.翻譯官」
今年12月,訊飛翻譯機重點推出A.I.行業翻譯功能,在通用翻譯模式下新增行業翻譯模式,金融,在醫療、計算機三大領域行業專業場景下都可以實現中文與英文的即時互譯。
更多機器翻譯的實用場景也正在到來——
在某跨國醫療技術峰會現場,你可以拿出最新升級的訊飛翻譯機2.0,和與會外賓專家暢聊。
環保論壇會前,你也不必忙著為聽見智能會議系統定製領域術語,或者在會上為翻譯效果提心弔膽;有了最新的機器翻譯技術,不僅領域和行業術語定製的又準又好,整體的翻譯效果也不會打折扣。
即便你是職場新人,當上司給你布置了厚厚一疊出口產品說明書的翻譯時,你也不必挑燈夜戰了。因為最新的機器翻譯技術可以輔助筆譯,「可讓機器先翻譯一遍、人工再精修。」
人類VS人工智慧:用人工智慧建設美好世界
值得說明的是,儘管機器翻譯技術已取得大幅進步,但由於語言本身的複雜性,機器翻譯還有很長的路要走。對翻譯技術的研究是為了更好地輔助人類進行語言溝通,幫助普通人達到一定的外語水平;但也需要人工來幫助機器完成無法處理的問題、更好的解決自身局限。
技術的發展並不是要取代人工,而是要讓人站在人工智慧的肩膀上去做更有意義的事。科大訊飛相信:未來比人類更強大的不是A.I.,而是掌控了A.I.的人類。機器翻譯技術的發展,也正在是實現著用人工智慧建設美好世界的願景。