【觀察者網文/趙玉琪】近日,在GMIC(全球移動網際網路大會)未來創新峰會上,網易有道首席科學家段亦濤發表了《機器翻譯皆有道》的主題演講,公布了一個激動人心的消息:由網易公司自主研發的神經網絡翻譯(NeuralMachineTranslation,以下簡稱NMT)技術正式上線了。
此次有道上線的NMT技術,由網易有道與網易杭州研究院歷時兩年合力研發,將服務於有道詞典、有道翻譯官、有道翻譯網頁版、有道e讀等產品,期待給用戶帶去超便捷的產品體驗。此外,有道翻譯官還推出了拍照翻譯,用戶只需要對文本進行拍照,就可實時展現出神經網絡翻譯的結果。
神經網絡翻譯模型是目前機器翻譯領域最前沿的技術,其核心是AI深度學習,它能模仿人腦的工作機制,採用獨到的神經網絡結構,對翻譯的全過程整體建模。整個模型由大量的「神經元」構成,一個「神經元」完成一些簡單的任務,然後通過對這些「神經元」的組合來協調工作,最終得到更出色的翻譯文本。
NMT不僅能對整個句子進行編碼,還能夠根據上下文語境來判斷多義詞的具體詞義,生成更高質更準確的譯文。
而以前的統計翻譯模型(以下簡稱SMT)更像一個機械系統,它由多個組件構成,包括短語條件、分詞條件、條序組件和原模型等等。每個模塊都有各自的功能和目標,之後再通過機械拼接輸出翻譯結果,其主要缺點在於模型中包含的句法、語義成分較低,因而在處理句法差別較大的語言時,如中文-英文時將遇到問題。有時翻譯結果雖然「詞詞都對」卻沒有可讀性。
和SMT相比,NMT模型更像一個有機體,模型裡面有很多可以調整和優化同一目標的參數,使得結合和交互更加有機,整體翻譯效果會更好。
NMT編碼-解碼結構
簡單來說,NMT更會說「人話」,而SMT則常常前言不搭後語。
但神經網絡翻譯NMT並不新鮮,谷歌早在2016年就推出了神經網絡翻譯,號稱其翻譯能力能夠匹敵真人。
網易表示,其NMT的亮點不僅在於從翻譯界通用的機器翻譯BLEU值評價指標來看,有道做得比同類國際產品更加出色。而且該產品是其深耕十年的力作,公司積累了大量的優質語料和技術,並且更關注中文和其他外語之間的翻譯,所以火力更加集中。針對中文特有的語言現象也做了非常多的優化,包括中文的分詞等等。
為了能讓大家有更加直觀的感受,段亦濤展示了兩個例子,第一個是英譯中,原文是隨機選取的一段關於巴黎恐怖事件的報導。
他表示,從上面的結果可以看出來,統計翻譯模型的結果拼湊感非常明顯,而且有些片斷翻譯還搞錯了,整體來看很不通順;有道的翻譯結果,可以看到是相當的準確和流暢的;第三個國外神經網絡翻譯模型的結果,可以看到不少的不準確的地方。
緊接著是一個中譯英的例子:
他表示:可以看到,有道上線的神經網絡翻譯的結果,仍然是通順和準確的,這裡面幾乎沒有任何語法錯誤。這個結果,即使是普通人中等英文水平,都很難達到,但是我們的神經網絡翻譯做到了。再來看另個國外神經網絡模型的翻譯結果,其實還是看出有明顯的不合適的地方,比如「起起伏伏」以及一些詞之間的關係搞錯。
這一波炫技吸引了不少目光和掌聲,更有人說其翻譯質量可媲美英語八級,那我們今天就拿專八真題來試試。小編選取了2016年的專八翻譯真題:
通過對比,我們可以發現,在這三個翻譯軟體開頭翻得都沒什麼問題,只是一到語義轉折和斷句的時候,就會出錯,小錯如動詞使用錯誤、時態不一致;大錯就直接語無倫次了,如句子的後半段「......流逝之際青年變成了老翁而綠草轉眼就枯黃,很自然有錯陰的緊迫感,」三個翻譯軟體集體撲街。
翻出來的東西小編也看不懂,所以就讓翻譯軟體把標紅部分回譯了一下,從上到下依次是有道、谷歌、百度:
要不我們再試試英到中翻譯?就選《傲慢與偏見》開篇第一句話吧!
有道和百度翻譯得都還說得過去,但是谷歌翻譯的有點兒太過分了啊......