繼阿爾法狗戰勝韓國職業棋手李世石沒多久,人工智慧再下一城。據澎湃新聞9月29日報導,27日,谷歌推出了新的翻譯系統,聲稱該套翻譯系統基於對人類神經思考的模仿,能夠與真人翻譯競相匹敵。
在谷歌發表的題為《規模生產中的神經網絡機器翻譯》(A Neural Network for Machine Translation, at Production Scale)的文章中,宣布將機器學習技術納入網頁和手機APP翻譯中,從前漢譯英的尷尬局面將大為扭轉。
翻譯系統面世後,根據用戶們的測試,發現漢譯英的準確率高得驚人。
眾所周知,將漢語恰切地譯介為英語是一件不易之事。輸入中文,翻譯系統給出的答案往往是「慘不忍睹」,簡單的機械翻譯對於那些谷歌翻譯的依賴者來說已遠遠不夠。谷歌公司稱,相較之前的算法,谷歌神經機器翻譯能減少80%的錯誤,與通過標準測試的真人翻譯所差無幾。
在之前的一項西班牙語譯為英語的測試中,設定滿分為6分,谷歌舊的翻譯系統得到3.6分,人類普遍得分為5.1分,而谷歌的新系統得到了5分的好成績。
三種譯介方式評估。滿分為6分,橘色為真人翻譯、綠色為谷歌神經網絡翻譯、藍色為短語式翻譯。
從前的譯介模式是短語式的,翻譯系統將一句話拆分成單詞或者詞組進行翻譯,往往得到一些狗屁不通的結果。而新的翻譯系統稱之為谷歌神經機器翻譯(GNMT),這項新的技術運用更少的機器設計選擇,它將一句話視為整體進行解碼,雖然仍是將一句話分割成若干獨立單元,但每個單元都放在句子的前後進行考量。這就像一個初中生進入高中大門,為完成作業,要嘗試在一本巨大的詞典中查找單詞和短語。神經機器翻譯與以往的翻譯模式用的是同樣一本大詞典,但舊的翻譯模式只是逐個查詞,而神經機器翻譯卻訓練出兩種神經網絡,可以生產出另一種語言的完整的文本。這對於漢語翻譯是極為重要的,因為漢語中由於搭配不同導致一個詞往往有不同的意思。
谷歌神經網絡翻譯為何能夠在準確性上有質的飛躍?
據悉,谷歌神經翻譯克服了之前神經機器翻譯在準確性和速度上的缺陷,帶有8個編碼層和8個解碼層的長短時記憶(LSTM)網絡用來增強注意以及記錄瞬間感覺殘留。注意力機制則連接下層解碼層和上層編碼層,以此來提高並行度從而降低耗時,推理計算中的低精度的算法則提升了最終的翻譯速度。
第一步,網絡將中文單詞編碼為一系列向量,每個向量代表整句話所有單詞的含義。一旦整個句子被神經網絡閱覽,解碼即開始,生成相應的英語句子。而解碼則是一個將已編碼的中文向量與相關的英語單詞生成的加權分布的過程。連接編碼解碼的曲線代表解碼過程中所考量到的編碼詞彙。
而為提高對生僻詞的處理,谷歌將詞語分成有限的子詞單元,從而方便輸入與輸出。而束搜索技術則使搜索長度規格化以及具有覆蓋性,這使得翻譯輸出的句型可大量覆蓋譯介語種的所有單詞。這一切都可歸為人工智慧,人工智慧算法不依賴於人類邏輯,比起人們從前使用的手工編寫的算法來說,人工智慧算法能找到更好的方式完成任務。人工智慧網絡自身會學習怎樣翻譯,它只專注於結果如何,而不受人類思維優先的幹擾。開發此項目的谷歌工程師麥克·舒斯特說,「你不必選擇,系統會全面進行翻譯。」
中譯英只是谷歌翻譯所支持的多種語言中的一種。谷歌表示,今後翻譯將更多依賴於人工智慧。在之後的幾個月時間裡,谷歌還會設計出適用於更多語言的谷歌神經機器翻譯。當然,此種神經機器翻譯還不能稱得上完美,固然基於神經的人工智慧表現不錯,但仍有很多細微之處機器算法不能夠真正領悟。比起人類翻譯,谷歌神經網絡翻譯仍會犯許多人類翻譯不會出現的錯誤,如掉詞、誤譯專有名詞、罕見術語,以及忽略上下文語境而孤立地翻譯某句話等等。不過,起碼這種新的翻譯模式只是讓意思流失在翻譯結果上,而非在翻譯過程中就面目全非。
舉例展示GNMT進行漢英翻譯的過程
首先,網絡將漢字(輸入)編碼成一串向量,每個向量代表了當前讀到它那裡的意思(即 e3代表「知識就是」,e5代表「知識就是力量」)。整句話讀完之後開始解碼,每次生成一個作為輸出的英語單詞(解碼器)。
要每一步生成一個翻譯好的英語單詞,解碼器需要注意被編碼中文向量的加權分布中,與生成英語單詞關係最為密切的那個(上圖中解碼器d上面多條透明藍線中顏色最深的那條),解碼器關注越多,藍色越深。
使用人類對比評分指標,GNMT系統生成的翻譯相比此前有了大幅提高。在幾種重要語言中,GNMT將翻譯錯誤降低了55%-58%。
短語式翻譯(藍色)、谷歌神經網絡翻譯(綠色)、真人翻譯(黃色)對比。
此外,該項目開發團隊還宣布GNMT漢英英漢試用版上線。現在,谷歌翻譯漢英語言的移動版和網頁版都率先使用GNMT,每天負責1800萬次翻譯任務。
該團隊表示,GNMT的上線得益於TensorFlow和深度學習專用加速器張量處理單元(TPU),尤其是後者,提供了足夠的計算能力來部署這些功能強大的GNMT系統,同時滿足谷歌產品嚴格的延遲要求。開發團隊表示,今後的幾個月裡將持續推出更多的語種服務用戶。
機器翻譯的挑戰仍然存在。GNMT還是可能會犯一些人類絕對不會犯的錯,總之,GNMT有待改善的地方還有很多,但無論如何,GNMT都代表了一座重大的裡程碑。
(觀察者網綜合澎湃新聞等)