新浪科技 姜軼群
春節假期已經過去幾天了,不知道大家有沒有吃好玩好?朋友圈這幾天幾乎被美食、萌娃視頻和景點照片刷屏了,讓人好生羨慕。
朋友圈(為保護隱私,一些信息打了碼)
不知道大家注意到沒有,上面四條朋友圈消息,有一條是在俄羅斯發出來的。實際上,在這個傳統上要回鄉團聚的日子裡,也有相當一部分人選擇全家出國旅遊。根據中國旅行研究院與攜程旅行統計,今年春節預計中國出境遊人數將達到650萬人次,中國人在春節假日出境旅遊幾乎可以「席捲全球」。
但出國旅遊就有個問題:如何在當地交流?這可不是光學會幾句英語就能解決的問題,如果你要去不以英語為母語的國家,可能就麻煩了,不是每個當地人都會講英語。這時候,手機上的翻譯軟體就有用處。
目前出國旅遊比較流行的是谷歌翻譯。對於中國大陸用戶來說,近期比較重要的更新是在去年的3月29日,谷歌更新後的翻譯App可以在中國大陸地區無障礙使用,經過一波宣傳,用的人越來越多。在知乎上「出國旅遊有什麼好的可攜式翻譯機或App可用?」這一問題中,得贊最多的回答首推谷歌翻譯App。
知乎上「出國旅遊有什麼好的可攜式翻譯機或App可用?」這一問題中,得贊最多的回答
但機器翻譯一向被專業譯員鄙視,即使谷歌為翻譯加持神經網絡技術也沒有改變很多人類譯員的看法。最近美國《大西洋月刊》上的一篇文章中,作者道格拉斯·霍夫施塔特(Douglas Hofstadter)對谷歌翻譯diss(侮辱)了一把。他通過英語、法語、德語和中文四種語言翻譯比對,論證出一個結果:谷歌翻譯即使應用人工智慧技術,也沒有真正理解語言。
他在文章中舉了中文翻譯英文的例子,文本是楊絳的《我們仨》中的一段。
原文:
鍾書到清華工作一年後,調任毛選翻譯委員會的工作,住在城裡,周末回校。 他仍兼管研究生。
毛選翻譯委員會的領導是徐永煐同志。介紹鍾書做這份工作的是清華同學喬冠華同志。
事定之日,晚飯後,有一位舊友特僱黃包車從城裡趕來祝賀。客去後,鍾書惶恐地對我說:
他以為我要做「南書房行走」了。這件事不是好做的,不求有功,但求無過。
谷歌翻譯版本:
After a year of work at Tsinghua, he was transferred to the Mao Translating Committee to live in the city and back to school on weekends。 He is still a graduate student。
The leadership of the Mao Tse Translation Committee is Comrade Xu Yongjian。 Introduction to the book to do this work is Tsinghua students Qiao Guanhua comrades。
On the day of the event, after dinner, an old friend hired a rickshaw from the city to congratulate。 Guest to go, the book of fear in the book said to me:
He thought I had to do 「South study walking。」 This is not a good thing to do, not for meritorious service, but for nothing。
作者翻譯版本:
After Zhongshu had worked at Tsinghua University for a year, he was transferred to the committee that was translating selected works of Chairman Mao。 He lived in the city, but each weekend he would return to school。 He also was still supervising his graduate students。
The leader of the translation committee of Mao’s works was Comrade Xu Yongying, and the person who had arranged for Zhongshu to do this work was his old Tsinghua schoolmate, Comrade Qiao Guanhua。
On the day this appointment was decided, after dinner, an old friend specially hired a rickshaw and came all the way from the city just to congratulate Zhongshu。 After our guest had left, Zhongshu turned to me uneasily and said:
「He thought I was going to become a 『South Study special aide。』 This kind of work is not easy。 You can’t hope for glory; all you can hope for is to do it without errors。」
作者在這裡指出了谷歌版本不少問題:
翻譯中一次也沒提到過人名「鍾書」,而是分別翻譯成了「he」、「the book」和「the book of fear in the book」。很明顯,谷歌翻譯沒有理解出這是個人名;
原文是「他仍兼管研究生」,但翻譯變成了「He is still a graduate student」(他仍是個研究生);
谷歌譯文中的「Mao Tse Translation Committee」這一短語,漏掉了毛澤東主席(Chairman Mao Tse Tung)名字的最後一個字,而且「毛選翻譯委員會」明顯也不是這麼翻譯;
原文的「徐永煐」(Xu Yongying)被翻譯成了「Xu Yongjian」。
「客去後」被翻譯成了「guest to go」(客人要走)。
「南書房行走」中的「行走「被翻譯成「walking」,這也是谷歌沒有理解原詞含義。
不光是這一段,作者從他當下看的書中選擇了好多個段落進行測試,幾乎每一段都會出現形式不一、大小各異的翻譯錯誤,其中也包括上文所述的無法理解的句子。
為什麼谷歌翻譯在上面的例子中還是不盡如人意?在作者看來,谷歌翻譯只是類似於處理密碼一樣處理語句,而沒有像人類一樣「閱讀「語句,它處理的符號和現實世界是分開的,沒有現實體驗,也就談不上理解。
谷歌翻譯不盡如人意,但它真的完全沒有用嗎?
既然谷歌翻譯在前面的例子中如此糟糕,那對於出國的遊客來說,谷歌翻譯還有用嗎?
前面diss谷歌翻譯的作者霍夫施塔特指出,谷歌翻譯目前還不能做到準確理解語句;但霍夫施塔特只分析了一類文本,那就是文學作品類。谷歌翻譯面對的可絕不僅僅是想了解文學作品的人,對於不同的需求,它的表現會不會有所變化?換句話說,對於出國遊客來說,谷歌翻譯的表現會不會更好一點?做一個簡單測試也許能看出來。
新浪科技以百度上各類「出國英語XXX句」中隨機挑選的10個出國常見語句為樣本,輸入到iOS版谷歌翻譯App中測試(這裡的測試語句除了常見的問路類型,還有相對比較複雜的),然後將這10句原文和翻譯分成三類,分別是「有歧義」、「不常用」和「正確」類型,結果如下:
分類結果
這裡要注意的是,這裡分類的依據是可理解的程度,而不是語法。這就意味著只要能夠被理解且不出現歧義,即使是有明顯語法錯誤的,也可以被分到「不常用」類別,比如「How to get to the subway station」這種有語法錯誤的句子,但還能通過單詞理解,就分到「不常用」類別中。
但即使按照這樣不太嚴格的標準來分類,可理解與有誤解的比例還是6:4,以下就來說說四個「有歧義」句子可能出現的誤解:
「我要退這張票」翻譯成「I want to withdraw this ticket」,可能會被誤解成「我要拿走這張票」,因為「withdraw」有「拿走」的意思,而沒有「退票」的含義;
「我想把這張50美元換開」中的「換開」不能翻譯成「swap」,因為這個英語單詞不能用於「換零錢」這個含義中;
「能給我張退稅表嗎?」的谷歌翻譯「Can you give me a tax return?」,把「表格」(form)這個含義在翻譯中丟失了,而且「tax return」是「報稅」的意思,而不是「退稅」的意思;
「這有免稅店嗎?」被谷歌翻譯錯譯了「Is this duty-free shop?」(這家店是免稅店嗎?),這是一個只要稍微學過英語的人都會看出來的錯誤。
從隨機的測試結果看來,谷歌翻譯的準確度離滿足遊客的需要還是差了一些距離。
為什麼有了人工智慧加持,谷歌翻譯還是不夠好?
前文中說過,谷歌近期比較重要的更新是可以在中國大陸地區無障礙使用。但實際上,谷歌在前年有一次更重要的更新,那就是將翻譯系統從原來的「基於詞組的機器翻譯」(PBMT)轉變為「神經機器翻譯」(NMT),也就是將神經網絡技術引入到機器翻譯中。谷歌宣稱,經過此次更新,翻譯結果更加通順,可用性更強。
按照百度百科的說法,神經網絡「是一種模仿動物神經網絡行為特徵,進行分布式並行信息處理的算法數學模型」。這個定義非專業人士不太好理解,沒關係,只要知道神經網絡是實現人工智慧的基礎性技術就好了。
人工智慧是這幾年的大熱新聞關鍵詞和最流行的技術,連今年的春節晚會上都展示了人工智慧技術加持的自動駕駛汽車。但新聞中常常被講的神乎其神的人工智慧怎麼在語言翻譯這方面都做不好?前文中那個diss谷歌翻譯的作者霍夫施塔特給了我們一個解釋。
霍夫施塔特認為,很多人其實對人工智慧的期待過高,從而「腦補過度」,這在心理學上被稱為「Eliza 效應」,大概意思是說人會過度解讀機器的結果。這裡的「Eliza」是上個世紀60年代的早期人工智慧項目,能通過腳本理解簡單的自然語言,並能進行類似於人類的互動,與它互動過的許多人都認為Eliza確實了解他們內心的感覺。在霍夫施塔特看來,即使是一些人工智慧領域的研究者,也難免落入「Eliza」效應的陷阱中。
霍夫施塔特認為,人類的翻譯是一個「閱讀-內化-表達」的過程,人類讀到文本之後,會聯想到相關的現實場景,然後基於場景給出另一種語言對於這種場景的表達。但谷歌翻譯只是一個「解碼」過程,即使是人工智慧加持,谷歌翻譯也沒有真正理解文本,它只是將原文看成被加密的譯文,只要解碼即可翻譯。這樣的過程缺乏現實體驗,談不上理解,當然就難免出現錯誤。
有人也許會問,神經網絡技術就不能模仿人類思維來翻譯嗎?霍夫施塔特也給出了自己的答案,他認為這類機器翻譯目前還沒有超越單詞和短語層面,這樣的人工智慧在「讀」到文本之後,只是聯想到對應語言的單詞,而不是聯想到現實場景,儘管用了複雜的統計詞語聚類算法,但這和人類的翻譯思維還是不一樣。這種技術加持下的谷歌翻譯,雖然能將原文和譯文的詞語對應起來,還有一定能力組織成句子,但還是難以理解。
霍夫施塔特的說法在新浪科技的測試中也得到驗證。此前的出國常用語句翻譯測試,從「退票」翻譯成「withdraw ticket」和「換開」翻譯成「swap」這兩個例子中,就能看出谷歌翻譯目前還停留在詞對詞或者短語對短語的層面,而不是聯想到實際場景,即使按照正確的語法組織起來,也難以讓人理解。借用一位翻譯學教授的話:「你每一個字看得懂,但連起來就不是人說的話。」
由此看出,谷歌翻譯距離完全無障礙的應用還有一定距離。在這種情況下,出國的遊客除了在手機裝上幾個翻譯App之外,最好還是多學點常用英語,再不濟也練一練畫圖技能,以備不時之需。當然,人工智慧的研究者還是要更深入的探究人類思維,並且開發出一款更好的翻譯App;如果真有這麼一天,專業譯員也會對機器肅然起敬了。
最後,新浪科技祝大家春節假期快樂,不管你是在國外還是國內。
新浪科技公眾號
「掌」握科技鮮聞 (微信搜索techsina或掃描左側二維碼關注)
加載中