號稱地表最強的神經機器翻譯,為什麼還是不盡如人意?

2021-01-20 鈦媒體APP

題圖來自:視覺中國

14年到16年,機器翻譯領域可以說是翻天覆地。

這期間發生的大事,是以神經網絡作為基礎的機器翻譯,開始在全面超越此前以統計模型為基礎的統計機器翻譯(SMT),並快速成為在線翻譯系統的主流標配。

在這場革命之後,機器翻譯徹底進入了Neural Machine Translation,即NWT神經機器翻譯時代。

很多人為此歡欣鼓舞。回想去年,谷歌在中英翻譯系統上部署了GNWT——谷歌神經機器翻譯之後,當時網上有一句廣為流傳的話:「作為翻譯,看到這個新聞的時候,我理解了18世紀紡織工人看到蒸汽機時的憂慮與恐懼。」

怎麼樣?是不是感受到了深深的絕望?

但是先讓咱們的小情緒平靜一下。時過一年,市面上的NWT系統越來越多。雖然翻譯質量確有提高,但遠沒到上述引文中描繪的發生「質變」的程度。這到底是為什麼?

於是,我們選取了目前最有代表性的谷歌GNWT和屢獲大獎的搜狗的SogouNWT,來摸索一下今天神經網絡機器翻譯的真實水平和進化空間。

進擊的神經機器翻譯

開始十分有趣的實驗之前(其實並不有趣),先來簡單了解一下神經機器翻譯在原理上強在哪裡,它的內部有哪些門類,以及為什麼幾年間成為了主流標配?

基於人工智慧命題下的神經網絡來構建機器翻譯系統,是一個早在1949年就提出了的想法,但是在此後的漫長時間裡都沒有工程化基礎,並且效率不高,一直沒有成為主流。

最早的機器翻譯,是根據不同語言的語法語序進行翻譯,被稱為規則機器翻譯(RBMT),這種機器翻譯應用範圍非常狹窄,只能算早期技術。之後統計學崛起,統計機器翻譯(SMT)成為主流。這種技術是通過平行語料進行統計分析,從而構建模型進行翻譯。

谷歌翻譯之所以很早就進入公眾視線,就是因為他們積累了大量的語料數據,可以讓翻譯系統通過在語聊文檔中查找對應因素來生成翻譯結果。堪稱SMT時代的代表。

這樣做的優點是翻譯效率很高,但缺點是翻譯結果太過零散,很難產生正確的語法和通順的語序。

用神經網絡來進行機器翻譯,首先解決的就是難以形成語句和必須依賴人工資料的問題。NMT的基本思想,是以每一個句子作為獨立的神經元,從而打破基於短語的翻譯障礙。並且翻譯系統可以實現監督訓練,不必完全依賴固定數據,這可以在專業領域等資料稀少的環節,獲得更好的翻譯結果 。

相較於SMT,NMT可以獲得更好的語感,減少此前機器翻譯的形態、句法、詞序等錯誤。並且工程效率比較高。

從2014年,用循環神經網絡(RNN)來對語言向量進行編碼解碼,並且使用長短期記憶網絡(LSTM)來增強長句翻譯能力的NMT算法,開始在所謂「跑分」上超越了SMT。隨後二者差距開始拉開。

到了2016年,谷歌的GNWT開始全面部署在谷歌翻譯當中,隨後今年Facebook推出了基於卷積神經網絡(CNN)的翻譯模型,據說效率更高。而後在兩個月之前,谷歌推出了完全基於注意力(attention)的翻譯模型,是目前最優質的神經網絡機器翻譯模型。

除了這些美國巨頭,中國的搜狗、百度、阿里、騰訊等公司也都部署了NWT。其中搜狗的SogouNMT上個月獲得了第二屆機器翻譯大會(WMT 2017)「中譯英」組的冠軍。

至此,應該說神經網絡機器翻譯,這個剛剛工程化不久的技術,已經徹底成為了在線翻譯領域的標配。

而問題也來了,這個技術真的有傳說中那麼神奇嗎?

應用效果測試

其實,對不同在線翻譯系統的測試網上有很多。其中有一些非常專業,大家不妨找來與本文參考。這裡依舊要進行測試是為了後續推理的嚴謹性,並且限於篇幅,更多類似翻譯測試沒有展現,這裡留下幾個比較有代表性的例子。

考慮到要求連貫性、語句準確的在線翻譯技術,其應用場景無非兩種:一是海外旅遊、購物為代表的實時溝通場景;二是垂直領域的專業內容翻譯(畢竟日常翻譯需求查單詞就夠了),所以這裡選取了一些旅遊用語和專業論文,來檢測一下SogouNMT和GNMT的翻譯實力。

此外,今年6月搜狗在發布翻譯APP時表示SogouNMT的獨門秘籍之一是翻譯古詩詞,所以我們也找來了古詩詞與文言文來折磨兩個「小傢伙」。

首先是來看一句基本的旅遊用語:

英譯漢:What is the possibility of my getting a seat if I wait?

谷歌答案:如果我等待,我可以得到座位的可能性?

搜狗答案:如果我等待的話,我有座位的可能性是多少?

漢譯英:如果我等下去的話有多大機率有座位?

谷歌答案:What is the chance of having a seat if I wait?

搜狗答案:How often do I have a seat if I wait?

從中可以看出,英譯漢的語序調整大體正確,搜狗對漢語的語法理解更準確。但漢譯英卻沒有那麼樂觀,對於表述比較口語化的「機率」,兩個系統都沒有表現出對上下文的理解能力。

我們來找點論文裡的長句子虐一下。

英譯漢:

It seems anachronistic to talk about intertextuality in the beginning of the Twenty First Century, almost forty years since the term first appeared with Julia Kristeva’s introduction of Mikhail Bakhtin to the Western world.

谷歌答案:在二十一世紀初談論互文性似乎不合時宜,自從Julia Kristeva將Mikhail Bakhtin引入西方世界以來,已經有四十年了。

搜狗答案:在二十世紀初開始談論互文性似乎是不合時宜的,近四十年來,從Julia kristeva引進米哈伊爾·巴赫金到西方世界第一次出現。

漢譯英:

自四十年前朱麗婭·克裡斯蒂娃在介紹巴赫金思想時首次將"互文性"概念引進西方世界以來,到21世紀初的今天再針對「互文性」進行討論已經顯得有些不合時宜。

谷歌答案:Since the introduction of the "intertextuality" concept for the first time in the introduction of Bakhtin's thought forty years ago, the discussion of "intertextuality" at the beginning of the 21st century has become somewhat outdated.

搜狗答案:Since Julia Christie introduced the concept of " intertextuality" to the western world for the first time 40 years ago, it has become an anachronism to discuss the " intertextuality" in the early 21st century.

從長句子的翻譯上看,中英之間的語序調整還是大問題。而且語序引發的意義差別會影響整個翻譯的結果。另外漢譯英中,谷歌表現稍微好一點,搜狗出現了很嚴重的漏譯。值得肯定的是,二者對專有名詞的翻譯都比較準確,但是人名庫顯然還不夠大。

我們再來一點有意思的,杜甫的《石壕吏》:

暮投石壕村,有吏夜捉人。老翁逾牆走,老婦出門看。 吏呼一何怒!婦啼一何苦!

谷歌翻譯版:

Twilight cast stone trench village, there are officials to catch the night.

The old man went over the wall and the old woman went out to see.

Official call an anger! Women cry one bitter!

搜狗翻譯版:

Twilight lapidation the village, there are officials and night catchers.

The guards cried so fiercely The old lady cried so sad.

參考巴頓·華茲生公認比較權威的譯文:

At evening I put up at Stone Moat Village;

that night an official came to round up people.

The old man at the inn scaled the wall and ran away; the old woman came to open the gate.

The official, how fiercely he shouted!

The old woman, how pitiful her cries!

可以看出谷歌對古詩詞的理解確實不如搜狗,比如婦啼一何苦搜狗翻譯長了「old women」應該是對應上了前文。再比如「夜捉人」變成了「catch the night」似乎不如搜狗的貼邊。當然了,兩邊對於「逾牆走」這類表達都無法準確理解,另外搜狗完全漏了石壕村。

再來一句最虐的,引自《文心雕龍·神思》:故思理為妙,神與物遊。神居胸臆,而志氣統其關鍵。

先來參考一下宇文所安的譯文,再看看機器翻譯會給出什麼答案:

When the basic principle of thought is at its most subtle,the sprit wanders with things.The spirit dwells in the breast;intent and qi control the bolt to its gate.

谷歌的翻譯:

So think for the wonderful, God and the tour. God in the chest, and the ambition of its key.

搜狗的翻譯:

So thinking for the good, god and the matter swim. God lives in the heart, and the ambition is the key.

當然了,這一題純屬娛樂,太難為人了。但還是可以看出,翻譯過程中根據詞的表面意義直翻的現象比較嚴重,並且應該是在算法的加持下強行組成句子。而這種翻譯模式下,漏翻現象會很嚴重。

問題在哪裡

從以上實驗似乎可以得出結論:神經網絡機器翻譯確實有很強的效果,尤其在短句的翻譯上比較出彩,但總的來說翻譯同學們的職位還是非常非常安全的。

無論英譯漢還是漢譯英,在翻譯複雜長句、專業術語,以及詩詞和古文時,現有的機器翻譯依舊會展現出無力的一面。

首先,中英文之間的語序對調,也就是機器翻譯中的對齊問題還是沒有得到妥善解決。僅從我們進行的測試來看,似乎搜狗在英譯漢時會妥帖一些,而谷歌在漢譯英時稍好。但無論哪種,整體上都保持著統計機器翻譯中的基本對應模式,很難根據實際預感調整。

再一個非常突出的問題,在於神經網絡翻譯應該會根據算法自己生成整句內容。這是因為算法把句子當做單獨的序列,所以無論短語和單詞是否正確,都必須生成句子。以翻譯《石壕吏》和《文心雕龍》為例,翻譯結果是在錯誤的單詞翻譯下翻譯出更錯誤的內容,有些甚至有點搞笑。並且複雜翻譯中,用戶可能難以逆推到出錯點。

並且,語位關係與動詞的翻譯經常出錯,搜狗翻譯的漏譯情況似乎很多。

當然以上只是根據我們的實驗得到的特徵,不一定全面和準確,但似乎確實說明了神經機器翻譯沒有那麼神,甚至有一些技術迭代後出現的新問題。

找鑰匙,搶鑰匙

那麼如此主流的機器翻譯系統,難道只能做到這一步嗎?答案應該是否定的,一方面我們可以觀察到學界完善神經網絡機器翻譯的方法在快速增長,這項技術的燃料充足;另一方面這項技術的工程化效率很高,無論谷歌、搜狗,還是Facebook、微軟等機器翻譯玩家,對於最新學術成果都會非常高效配置。

所以在目前來看,神經網絡機器翻譯未來很長時間都會處在主要位置。並且可能會短時間內不斷突破。而針對上面分析到的問題,有一些解決方案可以作為比較高效的補充,也許這些會成為神經網絡翻譯企業接下來的重點戰場。

這裡強調一下,我們不希望預測算法與技術線上的改進(當然也沒法預測),這裡探討的是以其他技術力量完善神經網絡機器翻譯的方式,說不定其中某項會成為促進真人翻譯進一步失業的「鑰匙」:

一、引進NMT以外的人工智慧技術:巧合的是,近兩年關於機器翻譯的技術突破往往來自其他人工智慧領域。比如注意力模型,是來自Deepmind在機器視覺領域的技術構想。主動引入其他領域的算法和模型,或許在翻譯領域有神奇的效果。

二、建立機器學習使用的用戶資料庫,激發互動:在機器學習的原理當中,對錯誤樣本糾錯往往是最好的學習途徑,但翻譯上的糾錯行為顯然是企業難以完成的。調動用戶主動糾錯翻譯結果,並以之建立資料庫,或許是非常便捷的辦法。現在的機器翻譯平臺當然都有糾錯功能,但用戶的參與熱情和參與方式是個問題。

三、嘗試優質訓練資料下的弱監督學習:目前的NMT體系,歸根結底是個有監督學習過程,很多所謂「莫名其妙」的翻譯結果都來自翻譯機制無法優化。嘗試一些深度學習架構讓翻譯系統自我優化,也許是個解決方案。

四、垂直領域語料資料庫&數據抽調系統:解決具體的專業領域,甚至文言文的中英互譯(當然也包括英文的詩歌和文學文本),其實也沒什麼特別的辦法,擁有強大的垂直領域資料庫是硬實力,當然好的數據抽調模型會事半功倍。搜狗此前投資UHT國際,構建語言垂直領域大數據,或許就是這個目的。

神經網絡機器學習,還是個標準的新生事物。業界願意選擇它只是因為它比此前的方案更優化,也更有發展潛力。絕不是因為它一出手就秒殺眾生,達到了取代人類同行的地步。

翻譯依舊是一個非常安全的工作,絕大多數工作其實都是——至少今天還是。

更多精彩內容,關注鈦媒體微信號(ID:taimeiti),或者下載鈦媒體App

相關焦點

  • BAT、谷歌、Facebook都在搞的神經機器翻譯,真的就地表最強了嗎?
    2014年到2016年,機器翻譯領域可以說是翻天覆地。這期間發生的大事,是以神經網絡作為基礎的機器翻譯,開始在全面超越此前以統計模型為基礎的統計機器翻譯(SMT),並快速成為在線翻譯系統的主流標配。在這場革命之後,機器翻譯徹底進入了Neural Machine Translation,即NMT神經機器翻譯時代。很多人為此歡欣鼓舞。
  • 號稱「地表最強抗氧化成分」蝦青素是何方「神仙」?
    結合各大成分黨的見解,我們一起來扒一扒,號稱「地表最強抗氧化成分」蝦青素究竟是何方「神仙」?01抗氧化是什麼?而抗氧化的「精英」成分還有VC、VE、白藜蘆醇等等,為什麼蝦青素卻聲稱是「地表最強抗氧化成分」,而且抗氧化能力還「高出VC 6000倍」?
  • 機器翻譯七十年:百度領跑神經網絡翻譯時代
    中新網12月22日電 機器翻譯距今已有70年的發展歷史。自上世紀40年代起,基於規則、實例以及統計的機器翻譯方法漸次登場,各領風騷。近兩年,神經網絡機器翻譯(Neural Machine Translation, NMT)技術異軍突起,取得了翻譯質量的大幅躍升。
  • Transformer新型神經網絡在機器翻譯中的應用|公開課筆記
    大家可以看到我PPT下面的幾個 LOGO,我們翻譯團隊是屬於阿里巴巴機器智能技術實驗室,中間是阿里翻譯的 Logo和我們的口號「Translate and Beyond」。這次分享的題目是「Transformer新型神經網絡在機器翻譯中的應用」。
  • 陽光學院打造「語用神經網絡機器翻譯」系統
    中國教育在線訊 隨意打開一個英文網頁,複製相關內容到「語用神經網絡機器翻譯」系統裡,不一會兒就能準確翻譯出中文,而且詞語和語法邏輯均順暢可讀。近日,在陽光學院外國語與海外教育學院召開的「語料庫與語用神經網絡機器翻譯研究」專家論證會上,陽光學院「語言與智能研究團隊」演示了該系統的操作,由該團隊自主打造的「語用神經網絡機器翻譯」系統得到了與會專家的高度評價。與會專家表示:「該系統在國內傳統語言學學界是首創,對處理專業性大批量快速翻譯項目等具有實踐應用和推廣價值」。
  • 微軟提出新型通用神經機器翻譯方法,挑戰低資源語言翻譯問題
    近日微軟發布博客,提出一種半監督通用神經機器翻譯方法,解決低資源語言機器翻譯的問題,幫助解決方言和口語機器翻譯難題。該研究相關論文已被 NAACL 2018 接收。機器翻譯已經成為促進全球交流的重要組成部分。數百萬人使用在線翻譯系統和移動應用進行跨越語言障礙的交流。在近幾年深度學習的浪潮中,機器翻譯取得了快速進步。
  • 機器翻譯能解放生產力嗎?
    在翻譯領域裡,基於自然語言「神經網絡模型」的機器翻譯的出現,終於讓大家看到了顛覆性的技術。從中,大家看到「神經網絡」的革命性和未來性,內心中對這項技術有了些憧憬和疑問,也就有了如此疑問。我們不講總的機器翻譯歷史和時間軸事件,僅從應用角度到來看,軟體翻譯可以有三個階段。
  • 機器翻譯應用價值凸顯 百度翻譯豐富產品矩陣助力企業智能化升級
    而基於神經網絡機器翻譯NMT( Neural Machine Translation )技術已成為主流,伴隨著翻譯規模化的需求,機器翻譯在保障流暢性和準確性的同時也將越來越實時化,並為大中小企業及個人提供不同的部署服務。  何中軍在會上詳解了機器翻譯技術的發展歷程,並通過一系列實際應用場景案例,詳解了百度翻譯全面的產品布局和服務方式。
  • 豐田86即將換代,僅售20多萬,號稱同級別中地表最強轎跑
    導讀:豐田86即將換代,僅售20多萬,號稱同級別中地表最強轎跑。車到山前必有路,有路必有豐田車,相信這句廣告詞大家都不陌生。豐田汽車品牌從紡織廠起步,歷經近百年發展,逐步成長為全球銷量最多的汽車品牌。講到豐田汽車,豐田86這款車肯定是繞不過去,因為它的經典,因為它的表現,一直被人們津津樂道。下面咱們一起具體來看看豐田86這款車。
  • 李沐、劉群、劉洋、朱靖波、張民:當前機器翻譯的瓶頸
    但到了第三代,也即神經機器翻譯出來以後,大家都能夠看到它翻譯的效果變好了,於是開始有人願意去使用,甚至願意去買單。這時候就有投資人覺得這裡能賺錢,開始往裡投錢。所以簡單來說,近幾年有越來越多的資源投入到機器翻譯這個領域。所以我覺得現在機器翻譯的應用是在往上走的。但有一點是,同樣作為剛需,為什麼機器翻譯的應用,並沒有像語音等領域突然爆發,出現一系列的獨角獸公司?
  • 百度大腦開放日召開機器翻譯專場 百度AI同傳翻譯性能可媲美人類
    機器翻譯作為人工智慧關鍵技術之一,正日益成為企業智能化升級的重要應用場景。12月1日,百度大腦開放日舉辦了以「機器翻譯 溝通全世界」為主題的專場活動。而基於神經網絡機器翻譯NMT( Neural Machine Translation )技術已成為主流,伴隨著翻譯規模化的需求,機器翻譯在保障流暢性和準確性的同時也將越來越實時化,並為大中小企業及個人提供不同的部署服務。何中軍在會上詳解了機器翻譯技術的發展歷程,並通過一系列實際應用場景案例,詳解了百度翻譯全面的產品布局和服務方式。
  • 機器翻譯和人工翻譯,該如何選擇?
    需要發表SCI論文的朋友一定會遇到論文翻譯的問題,如今智能翻譯領域發展迅速,但比起一些優秀的人工翻譯機構,似乎還是略顯不足。那麼究竟該選機器翻譯,還是人工呢?對比於人工翻譯,機器翻譯的主要優勢有兩方面:一是速度快,人工翻譯幾天才能完成的任務,翻譯軟體只需要幾分鐘就能完成,大大提高了文檔翻譯的效率;二是成本低,人工翻譯的收費不便宜,如果需要翻譯的文檔數量較多,價格就更不是個小數目,而目前機器翻譯的收費普遍會低很多。
  • 谷歌開放GNMT教程:如何使用TensorFlow構建自己的神經機器翻譯系統
    選自谷歌機器之心編譯參與:機器之心編輯部近日,谷歌官方在 Github 開放了一份神經機器翻譯教程,該教程從基本概念實現開始,首先搭建了一個簡單的NMT模型,隨後更進一步引進注意力機制和多層 LSTM 加強系統的性能,最後谷歌根據 GNMT 提供了更進一步改進的技巧和細節,這些技巧能令該NMT系統達到極其高的精度。
  • 百度機器翻譯團隊獲得WMT2019中英翻譯冠軍
    8月1日,WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開。本屆大賽,百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍。圖1 人工評價結果WMT全稱是Workshop on Machine Translation,是業界公認的國際頂級機器翻譯比賽之一,其中中文-英文翻譯任務是歷年參賽隊伍最多、競爭最為激烈的機器翻譯任務之一。
  • 多家翻譯軟體大型翻車現場?機器翻譯到底有哪些不確定性
    為此,AI科技評論專門諮詢了東北大學自然語言處理實驗室主任肖桐老師,他解釋道:「主要還是訓練數據的覆蓋度問題,數據中「銷」很多的時候被當作sell,對生僻一些的用法機器翻譯現在還無法處理。說到底,機器翻譯現在還是在「背」,沒見過的情況,不會像人一樣推理,缺乏對句子的真正理解能力。」
  • 重磅| 谷歌大腦養成記:從識別貓到突破性機器翻譯
    計算機科學領域對這些思想有如此大的牴觸的部分原因是其輸出只是基於模式的模式(patterns of patterns) 的預測,這不會是完美的,而且這樣的機器也不能為你定義到底什麼是一隻貓。只有當它看到一隻貓時,它才能知道那是貓。但這個方法的最主要缺點還是數據量。要讓神經網絡理解一隻貓是在懶洋洋曬太陽還是躲在陰影裡注視世界,我們需要給神經網絡送入大量大量的數據,需要大量大量的投票者。
  • 機器翻譯:谷歌翻譯是如何對幾乎所有語言進行翻譯的?
    第一部分簡單介紹神經網絡機器翻譯(NMT)和編碼器-解碼器(Encoder-Decoder)結構。第二部分提供了使用Python創建語言翻譯程序的詳細步驟。機器翻譯是計算語言學的一個分支,主要研究如何將一種語言的源文本自動轉換為另一種語言的文本。在機器翻譯領域,輸入已經由某種語言的一系列符號組成,而計算機必須將其轉換為另一種語言的一系列符號。神經網絡機器翻譯是針對機器翻譯領域所提出的主張。
  • 百度何中軍:機器翻譯——從設想到大規模應用
    報告內容:70多年前,第一臺計算機誕生後不久,科學家就提出了利用計算機進行翻譯的設想。此後,隨著技術不斷更迭,算力大幅提升,以及網際網路帶來的數據井噴式增長,機器翻譯質量持續提高。尤其近年來神經網絡機器翻譯的出現及快速發展,使得機器翻譯水平大幅躍升,在人們的生產生活中得到了廣泛應用。
  • 親測|Google翻譯內核升級:大型數據集神經機器翻譯加持 稱誤差再降...
    據Google官方提供的數據顯示,Google翻譯搭載的Google的神經機器翻譯(GNMT:Google Neural Machine Translation)系統使用了當前最先進的訓練技術,因而提升了機器翻譯水平,將翻譯誤差再度降低了55%-85%。
  • 號稱地表最強的豹2A7坦克,指標確實強悍,優勢顯而易見!
    據了解,被譽為地表最強坦克之稱的德國豹2A7可謂硬實力的絕對代表,其以豹2A6為基礎予以打造,在繼承原有特點的基礎上實施了創新升級,將其性能又提升到一個新的檔次。那麼其優勢主要在哪呢?