4 月 10 日,可能是同聲傳譯從業者最開心的一天,因為他們的「競爭對手」機器翻譯又鬧出了大笑話。
這起「翻譯事故」發生在 4 月 9 日,但到了 4 月 10 日早上才火起來,火的這家是騰訊翻譯君,起因是一場發生在今年博鰲亞洲論壇的「同聲傳譯車禍」。
當然,這樣高規格的會議肯定是有人工同聲傳譯的。而在博鰲亞洲論壇分論壇「未來的生產」會場兩側的大屏幕上,各國嘉賓的演講內容被騰訊翻譯君實時識別、並翻譯成中英雙語字幕進行投屏展示。同時,現場觀眾不斷利用微信小程序對嘉賓演講的雙語同傳內容進行回看、收聽和記錄。
不少嘉賓在小程序上看到了這起翻譯事故,具體情況是這樣的:
其中人工翻譯肯定不會出現的「低級錯誤」是「Have」、「When」、「AND」這樣多次的無意義重複。
這樣的翻譯錯誤在另外一句英譯中的過程中再次出現,這次不僅沒有翻譯成很通順的中文,而且出現了英文單詞的大量重複,比如「for」。
這不是機器翻譯第一次鬧笑話。據中國新聞網報導,今年 2 月 4 日,在韓國平昌冬奧會上,為了給121名運動員備餐,挪威隊主廚用號稱是神經網絡翻譯的 Google 翻譯訂了1500 個雞蛋,卻因翻譯錯誤收到 15000 個雞蛋。收到這麼多雞蛋主廚心情應該是絕望的:這麼多雞蛋什麼時候能吃完?
中文科技圈最近也發現了 Google 翻譯的另外一個笑話。在中譯英的環節,輸入「安卓手機很卡頓」,你得到的英文翻譯卻是「Android phone is very fast」。
當然,更好玩的是 Google 一視同仁,不偏袒自家的 Android。輸入「蘋果手機很卡頓」,翻譯結果是「Apple phone is very fast」。
Google 的這個翻譯錯誤很容易破案,它不理解中文的卡頓是什麼意思,輸入「卡頓」。。。。。。
測試同樣的語句,在有道詞典中就可以翻譯成「Apple phone is very slow」。
不過騰訊翻譯君這次的「事故」還不止於此,在一個翻譯群裡還有人招募同聲傳譯去幫忙直播博鰲論壇,時間是下午一點半,地點正是騰訊北京的辦公地希格瑪大廈。
群裡的氣氛開始變得十分微妙了,同聲傳譯從業者「報仇」的機會終於來了:「他們還是需要人類」,「他們不是有自己的同傳機嗎?」。畫面不亞於落魄的孔乙己在酒館裡被眾人嘲弄的場景。
騰訊翻譯君隨後進行了闢謠:這是個烏龍事件,外界提及的邀請人工同傳,並非「騰訊同傳」團隊用於此次海南博鰲的現場AI同傳,而是用於服務騰訊新聞團隊北京直播間的專業報導。
至此,這個烏龍事件基本上已經收場了,但人工同傳們「驚弓之鳥」的心態暴露的很明顯了。
這就又回到了被討論了很長時間的話題:機器翻譯能否替代人工翻譯。按照目前各家同聲傳譯機的表現,機器翻譯的確無法替代人類。
但是人工同傳們也無法像以前那樣風光了,有了機器翻譯這個對手的存在,同聲傳譯這一行的競爭更加激烈了—簡單一些的翻譯場景機器已經可以勝任,人工同聲傳譯只有向高端化方向發展。
我的一位學語言的同學告訴我,現在學語言越來越難找工作了,不僅要求翻譯水平高,而且翻譯的相貌打扮也需要好看。「我們上課都需要化妝,老師在正式講課之前會逐一檢查我們妝化的這麼樣。」
在這樣的背景下,人工翻譯們在微信群裡集體 diss 騰訊翻譯君也就不難理解了。
最後,騰訊翻譯君也對這次博鰲論壇的翻譯錯誤進行了解釋和技術上的反思。
「面對博鰲亞洲論壇複雜的語言環境和高大上的專業內容,』騰訊同傳』確實出現了錯誤,答錯了幾道題。」
對於中譯英出現的大量重複的「Have」、「When」、「AND」,騰訊翻譯君稱之為「大面積單詞無意義重複、大小寫及字符混亂」現象。經過排查,騰訊翻譯君認為出現這個問題,主要是中英雙語切換頻率的問題。當聲源在兩種語言之間不斷轉換時,後臺中、英文識別引擎就會同時開始工作,這會導致兩種識別引擎互相「掐架」,而翻譯結果卻只能選擇一種語言進行輸出,再加上對嘉賓每個語氣詞也做了精準的「啊啊啊」翻譯,導致引發錯誤。
對於佔滿了幾乎一整頁的「for」,騰訊翻譯君承認包括神經網絡機器翻譯在內的深度學習算法,目前在原理上還有一定不確定性,在特定的情況下有一定的概率引發翻譯偏差。而且嘉賓演講內容中正好也包含「for for for for」、 」that’s that’s that」 等重複內容,翻譯引擎放大了這個重複,導致了翻譯錯誤。
總結一下,這次騰訊翻譯君的回應首先是闢謠,邀請的人工同傳是去負責騰訊新聞的專業報導。其次是承認機器翻譯出現的錯誤。
機器翻譯還遠未到替代人工翻譯的水平,我們也大可不必像舊時代那樣因為剛誕生的火車速度比馬車還慢就去嘲笑新技術。這屆 AI 翻譯到底行不行,時間會給出答案。
題圖來源:騰訊翻譯君官方微信、微博