號稱地表最強的神經機器翻譯,為什麼還是不盡如人意?

2020-12-12 鈦媒體APP

題圖來自：視覺中國

14年到16年，機器翻譯領域可以說是翻天覆地。

這期間發生的大事，是以神經網絡作為基礎的機器翻譯，開始在全面超越此前以統計模型為基礎的統計機器翻譯（SMT），並快速成為在線翻譯系統的主流標配。

在這場革命之後，機器翻譯徹底進入了Neural Machine Translation，即NWT神經機器翻譯時代。

很多人為此歡欣鼓舞。回想去年，谷歌在中英翻譯系統上部署了GNWT——谷歌神經機器翻譯之後，當時網上有一句廣為流傳的話：「作為翻譯，看到這個新聞的時候，我理解了18世紀紡織工人看到蒸汽機時的憂慮與恐懼。」

怎麼樣？是不是感受到了深深的絕望？

但是先讓咱們的小情緒平靜一下。時過一年，市面上的NWT系統越來越多。雖然翻譯質量確有提高，但遠沒到上述引文中描繪的發生「質變」的程度。這到底是為什麼？

於是，我們選取了目前最有代表性的谷歌GNWT和屢獲大獎的搜狗的SogouNWT，來摸索一下今天神經網絡機器翻譯的真實水平和進化空間。

進擊的神經機器翻譯

開始十分有趣的實驗之前（其實並不有趣），先來簡單了解一下神經機器翻譯在原理上強在哪裡，它的內部有哪些門類，以及為什麼幾年間成為了主流標配？

基於人工智慧命題下的神經網絡來構建機器翻譯系統，是一個早在1949年就提出了的想法，但是在此後的漫長時間裡都沒有工程化基礎，並且效率不高，一直沒有成為主流。

最早的機器翻譯，是根據不同語言的語法語序進行翻譯，被稱為規則機器翻譯（RBMT），這種機器翻譯應用範圍非常狹窄，只能算早期技術。之後統計學崛起，統計機器翻譯（SMT）成為主流。這種技術是通過平行語料進行統計分析，從而構建模型進行翻譯。

谷歌翻譯之所以很早就進入公眾視線，就是因為他們積累了大量的語料數據，可以讓翻譯系統通過在語聊文檔中查找對應因素來生成翻譯結果。堪稱SMT時代的代表。

這樣做的優點是翻譯效率很高，但缺點是翻譯結果太過零散，很難產生正確的語法和通順的語序。

用神經網絡來進行機器翻譯，首先解決的就是難以形成語句和必須依賴人工資料的問題。NMT的基本思想，是以每一個句子作為獨立的神經元，從而打破基於短語的翻譯障礙。並且翻譯系統可以實現監督訓練，不必完全依賴固定數據，這可以在專業領域等資料稀少的環節，獲得更好的翻譯結果。

相較於SMT，NMT可以獲得更好的語感，減少此前機器翻譯的形態、句法、詞序等錯誤。並且工程效率比較高。

從2014年，用循環神經網絡（RNN）來對語言向量進行編碼解碼，並且使用長短期記憶網絡（LSTM）來增強長句翻譯能力的NMT算法，開始在所謂「跑分」上超越了SMT。隨後二者差距開始拉開。

到了2016年，谷歌的GNWT開始全面部署在谷歌翻譯當中，隨後今年Facebook推出了基於卷積神經網絡（CNN）的翻譯模型，據說效率更高。而後在兩個月之前，谷歌推出了完全基於注意力（attention）的翻譯模型，是目前最優質的神經網絡機器翻譯模型。

除了這些美國巨頭，中國的搜狗、百度、阿里、騰訊等公司也都部署了NWT。其中搜狗的SogouNMT上個月獲得了第二屆機器翻譯大會（WMT 2017）「中譯英」組的冠軍。

至此，應該說神經網絡機器翻譯，這個剛剛工程化不久的技術，已經徹底成為了在線翻譯領域的標配。

而問題也來了，這個技術真的有傳說中那麼神奇嗎？

應用效果測試

其實，對不同在線翻譯系統的測試網上有很多。其中有一些非常專業，大家不妨找來與本文參考。這裡依舊要進行測試是為了後續推理的嚴謹性，並且限於篇幅，更多類似翻譯測試沒有展現，這裡留下幾個比較有代表性的例子。

考慮到要求連貫性、語句準確的在線翻譯技術，其應用場景無非兩種：一是海外旅遊、購物為代表的實時溝通場景；二是垂直領域的專業內容翻譯（畢竟日常翻譯需求查單詞就夠了），所以這裡選取了一些旅遊用語和專業論文，來檢測一下SogouNMT和GNMT的翻譯實力。

此外，今年6月搜狗在發布翻譯APP時表示SogouNMT的獨門秘籍之一是翻譯古詩詞，所以我們也找來了古詩詞與文言文來折磨兩個「小傢伙」。

首先是來看一句基本的旅遊用語：

英譯漢：What is the possibility of my getting a seat if I wait?

谷歌答案：如果我等待，我可以得到座位的可能性？

搜狗答案：如果我等待的話，我有座位的可能性是多少？

漢譯英：如果我等下去的話有多大機率有座位？

谷歌答案：What is the chance of having a seat if I wait？

搜狗答案：How often do I have a seat if I wait?

從中可以看出，英譯漢的語序調整大體正確，搜狗對漢語的語法理解更準確。但漢譯英卻沒有那麼樂觀，對於表述比較口語化的「機率」，兩個系統都沒有表現出對上下文的理解能力。

我們來找點論文裡的長句子虐一下。

英譯漢：

It seems anachronistic to talk about intertextuality in the beginning of the Twenty First Century, almost forty years since the term first appeared with Julia Kristeva’s introduction of Mikhail Bakhtin to the Western world.

谷歌答案：在二十一世紀初談論互文性似乎不合時宜，自從Julia Kristeva將Mikhail Bakhtin引入西方世界以來，已經有四十年了。

搜狗答案：在二十世紀初開始談論互文性似乎是不合時宜的，近四十年來，從Julia kristeva引進米哈伊爾·巴赫金到西方世界第一次出現。

漢譯英：

自四十年前朱麗婭·克裡斯蒂娃在介紹巴赫金思想時首次將"互文性"概念引進西方世界以來，到21世紀初的今天再針對「互文性」進行討論已經顯得有些不合時宜。

谷歌答案：Since the introduction of the "intertextuality" concept for the first time in the introduction of Bakhtin's thought forty years ago, the discussion of "intertextuality" at the beginning of the 21st century has become somewhat outdated.

搜狗答案：Since Julia Christie introduced the concept of " intertextuality" to the western world for the first time 40 years ago, it has become an anachronism to discuss the " intertextuality" in the early 21st century.

從長句子的翻譯上看，中英之間的語序調整還是大問題。而且語序引發的意義差別會影響整個翻譯的結果。另外漢譯英中，谷歌表現稍微好一點，搜狗出現了很嚴重的漏譯。值得肯定的是，二者對專有名詞的翻譯都比較準確，但是人名庫顯然還不夠大。

我們再來一點有意思的，杜甫的《石壕吏》：

暮投石壕村，有吏夜捉人。老翁逾牆走，老婦出門看。吏呼一何怒！婦啼一何苦！

谷歌翻譯版：

Twilight cast stone trench village, there are officials to catch the night.

The old man went over the wall and the old woman went out to see.

Official call an anger! Women cry one bitter!

搜狗翻譯版：

Twilight lapidation the village, there are officials and night catchers.

The guards cried so fiercely The old lady cried so sad.

參考巴頓·華茲生公認比較權威的譯文：

At evening I put up at Stone Moat Village;

that night an official came to round up people.

The old man at the inn scaled the wall and ran away; the old woman came to open the gate.

The official, how fiercely he shouted!

The old woman, how pitiful her cries!

可以看出谷歌對古詩詞的理解確實不如搜狗，比如婦啼一何苦搜狗翻譯長了「old women」應該是對應上了前文。再比如「夜捉人」變成了「catch the night」似乎不如搜狗的貼邊。當然了，兩邊對於「逾牆走」這類表達都無法準確理解，另外搜狗完全漏了石壕村。

再來一句最虐的，引自《文心雕龍·神思》：故思理為妙，神與物遊。神居胸臆，而志氣統其關鍵。

先來參考一下宇文所安的譯文，再看看機器翻譯會給出什麼答案：

When the basic principle of thought is at its most subtle，the sprit wanders with things.The spirit dwells in the breast；intent and qi control the bolt to its gate.

谷歌的翻譯：

So think for the wonderful, God and the tour. God in the chest, and the ambition of its key.

搜狗的翻譯：

So thinking for the good, god and the matter swim. God lives in the heart, and the ambition is the key.

當然了，這一題純屬娛樂，太難為人了。但還是可以看出，翻譯過程中根據詞的表面意義直翻的現象比較嚴重，並且應該是在算法的加持下強行組成句子。而這種翻譯模式下，漏翻現象會很嚴重。

問題在哪裡

從以上實驗似乎可以得出結論：神經網絡機器翻譯確實有很強的效果，尤其在短句的翻譯上比較出彩，但總的來說翻譯同學們的職位還是非常非常安全的。

無論英譯漢還是漢譯英，在翻譯複雜長句、專業術語，以及詩詞和古文時，現有的機器翻譯依舊會展現出無力的一面。

首先，中英文之間的語序對調，也就是機器翻譯中的對齊問題還是沒有得到妥善解決。僅從我們進行的測試來看，似乎搜狗在英譯漢時會妥帖一些，而谷歌在漢譯英時稍好。但無論哪種，整體上都保持著統計機器翻譯中的基本對應模式，很難根據實際預感調整。

再一個非常突出的問題，在於神經網絡翻譯應該會根據算法自己生成整句內容。這是因為算法把句子當做單獨的序列，所以無論短語和單詞是否正確，都必須生成句子。以翻譯《石壕吏》和《文心雕龍》為例，翻譯結果是在錯誤的單詞翻譯下翻譯出更錯誤的內容，有些甚至有點搞笑。並且複雜翻譯中，用戶可能難以逆推到出錯點。

並且，語位關係與動詞的翻譯經常出錯，搜狗翻譯的漏譯情況似乎很多。

當然以上只是根據我們的實驗得到的特徵，不一定全面和準確，但似乎確實說明了神經機器翻譯沒有那麼神，甚至有一些技術迭代後出現的新問題。

找鑰匙，搶鑰匙

那麼如此主流的機器翻譯系統，難道只能做到這一步嗎？答案應該是否定的，一方面我們可以觀察到學界完善神經網絡機器翻譯的方法在快速增長，這項技術的燃料充足；另一方面這項技術的工程化效率很高，無論谷歌、搜狗，還是Facebook、微軟等機器翻譯玩家，對於最新學術成果都會非常高效配置。

所以在目前來看，神經網絡機器翻譯未來很長時間都會處在主要位置。並且可能會短時間內不斷突破。而針對上面分析到的問題，有一些解決方案可以作為比較高效的補充，也許這些會成為神經網絡翻譯企業接下來的重點戰場。

這裡強調一下，我們不希望預測算法與技術線上的改進（當然也沒法預測），這裡探討的是以其他技術力量完善神經網絡機器翻譯的方式，說不定其中某項會成為促進真人翻譯進一步失業的「鑰匙」：

一、引進NMT以外的人工智慧技術：巧合的是，近兩年關於機器翻譯的技術突破往往來自其他人工智慧領域。比如注意力模型，是來自Deepmind在機器視覺領域的技術構想。主動引入其他領域的算法和模型，或許在翻譯領域有神奇的效果。

二、建立機器學習使用的用戶資料庫，激發互動：在機器學習的原理當中，對錯誤樣本糾錯往往是最好的學習途徑，但翻譯上的糾錯行為顯然是企業難以完成的。調動用戶主動糾錯翻譯結果，並以之建立資料庫，或許是非常便捷的辦法。現在的機器翻譯平臺當然都有糾錯功能，但用戶的參與熱情和參與方式是個問題。

三、嘗試優質訓練資料下的弱監督學習：目前的NMT體系，歸根結底是個有監督學習過程，很多所謂「莫名其妙」的翻譯結果都來自翻譯機制無法優化。嘗試一些深度學習架構讓翻譯系統自我優化，也許是個解決方案。

四、垂直領域語料資料庫&數據抽調系統：解決具體的專業領域，甚至文言文的中英互譯（當然也包括英文的詩歌和文學文本），其實也沒什麼特別的辦法，擁有強大的垂直領域資料庫是硬實力，當然好的數據抽調模型會事半功倍。搜狗此前投資UHT國際，構建語言垂直領域大數據，或許就是這個目的。

神經網絡機器學習，還是個標準的新生事物。業界願意選擇它只是因為它比此前的方案更優化，也更有發展潛力。絕不是因為它一出手就秒殺眾生，達到了取代人類同行的地步。

翻譯依舊是一個非常安全的工作，絕大多數工作其實都是——至少今天還是。

更多精彩內容，關注鈦媒體微信號（ID：taimeiti），或者下載鈦媒體App

號稱地表最強的神經機器翻譯,為什麼還是不盡如人意?

相關焦點

號稱地表最強的神經機器翻譯,為什麼還是差強人意?

號稱「地表最強抗氧化成分」蝦青素是何方「神仙」?

BAT、谷歌、Facebook都在搞的神經機器翻譯,真的就地表最強了嗎?

BAT、谷歌、Facebook都在搞的神經機器翻譯,真的就地表最強了嗎...

深度神經網絡機器翻譯

谷歌的神經翻譯系統意味著機器翻譯到盡頭了?

不靠譜翻譯大賽笑話頻出,機器翻譯依然任重而道遠

谷歌發布神經機器翻譯,翻譯質量接近筆譯人員

谷歌發布神經機器翻譯:翻譯質量接近筆譯人員

微軟翻譯正式發布新一代神經機器翻譯技術

神經網絡機器翻譯技術及應用(下)

谷歌翻譯高勤:神經網絡技術將主導機器翻譯的未來

谷歌神經機器翻譯之我見

谷歌的神經翻譯系統並不意味著機器翻譯到頭了,還有大把創新可做|...

機器翻譯七十年:百度領跑神經網絡翻譯時代

神經結構搜索在機器翻譯中的應用

如何評價Google神經機器翻譯(GNMT)系統?

深度:回顧Google神經網絡機器翻譯上線歷程

學界| 對比神經機器翻譯和統計機器翻譯:NMT的六大挑戰

Transformer新型神經網絡在機器翻譯中的應用|公開課筆記