BAT、谷歌、Facebook都在搞的神經機器翻譯,真的就地表最強了嗎...

2020-12-22 虎嗅APP

2014年到2016年,機器翻譯領域可以說是翻天覆地。


這期間發生的大事,是以神經網絡作為基礎的機器翻譯,開始在全面超越此前以統計模型為基礎的統計機器翻譯,並快速成為在線翻譯系統的主流標配。


在這場革命之後,機器翻譯徹底進入了Neural Machine Translation,即NMT神經機器翻譯時代。


很多人為此歡欣鼓舞。回想去年,谷歌在中英翻譯系統上部署了GNMT——谷歌神經機器翻譯之後,當時網上有一句廣為流傳的話:「作為翻譯,看到這個新聞的時候,我理解了18世紀紡織工人看到蒸汽機時的憂慮與恐懼。」


怎麼樣?是不是感受到了深深的絕望?


但是先讓咱們的小情緒平靜一下。時過一年,市面上的NMT系統越來越多,國內的BAT、搜狗,國外的谷歌、Facebook、微軟等都在布局。雖然翻譯質量確有提高,但遠沒到上述引文中描繪的發生「質變」的程度。這到底是為什麼?


於是,我們選取了目前最有代表性的谷歌GNMT和屢獲大獎的搜狗的SogouNMT,來摸索一下今天神經網絡機器翻譯的真實水平和進化空間。


應用效果測試


考慮到要求連貫性、語句準確的在線翻譯技術,其應用場景無非兩種:一是海外旅遊、購物為代表的實時溝通場景;二是垂直領域的專業內容翻譯(畢竟日常翻譯需求查單詞就夠了),所以這裡選取了一些旅遊用語和專業論文,來檢測一下SogouNMT和GNMT的翻譯實力。


此外,今年6月搜狗在發布翻譯APP時表示SogouNMT的獨門秘籍之一是翻譯古詩詞,所以我們也找來了古詩詞與文言文來折磨兩個「小傢伙」。


首先是來看一句基本的旅遊用語:


英譯漢:What is the possibility of my getting a seat if I wait?

谷歌答案:如果我等待,我可以得到座位的可能性?

搜狗答案:如果我等待的話,我有座位的可能性是多少?

漢譯英:如果我等下去的話有多大機率有座位?

谷歌答案:What is the chance of having a seat if I wait?

搜狗答案:How often do I have a seat if I wait?


從中可以看出,英譯漢的語序調整大體正確,搜狗對漢語的語法理解更準確。但漢譯英卻沒有那麼樂觀,對於表述比較口語化的「機率」,兩個系統都沒有表現出對上下文的理解能力。


我們來找點論文裡的長句子虐一下。


英譯漢:

It seems anachronistic to talk about intertextuality in the beginning of the Twenty First Century, almost forty years since the term first appeared with Julia Kristeva’s introduction of Mikhail Bakhtin to the Western world. 


谷歌答案:

在二十一世紀初談論互文性似乎不合時宜,自從Julia Kristeva將Mikhail Bakhtin引入西方世界以來,已經有四十年了。


搜狗答案:

在二十世紀初開始談論互文性似乎是不合時宜的,近四十年來,從Julia kristeva引進米哈伊爾·巴赫金到西方世界第一次出現。


漢譯英:

自四十年前朱麗婭·克裡斯蒂娃在介紹巴赫金思想時首次將"互文性"概念引進西方世界以來,到21世紀初的今天再針對「互文性」進行討論已經顯得有些不合時宜。


谷歌答案:

Since the introduction of the "intertextuality" concept for the first time in the introduction of Bakhtin's thought forty years ago, the discussion of "intertextuality" at the beginning of the 21st century has become somewhat outdated.


搜狗答案:

Since Julia Christie introduced the concept of " intertextuality" to the western world for the first time 40 years ago, it has become an anachronism to discuss the " intertextuality" in the early 21st century.


從長句子的翻譯上看,中英之間的語序調整還是大問題。而且語序引發的意義差別會影響整個翻譯的結果。另外漢譯英中,谷歌表現稍微好一點,搜狗出現了很嚴重的漏譯。值得肯定的是,二者對專有名詞的翻譯都比較準確,但是人名庫顯然還不夠大。


我們再來一點有意思的,杜甫的《石壕吏》:

暮投石壕村,有吏夜捉人。老翁逾牆走,老婦出門看。 吏呼一何怒!婦啼一何苦!


谷歌翻譯版:

Twilight cast stone trench village, there are officials to catch the night.

The old man went over the wall and the old woman went out to see.

Official call an anger! Women cry one bitter!


搜狗翻譯版:

Twilight lapidation the village, there are officials and night catchers. 

The old man went over the wall and the old woman went out to see.

The guards cried so fiercely  The old lady cried so sad.


參考巴頓·華茲生公認比較權威的譯文:

At evening I put up at Stone Moat Village;
that night an official came to round up people.
The old man at the inn scaled the wall and ran away; the old woman came to open the gate.
The official, how fiercely he shouted!
The old woman, how pitiful her cries!


可以看出谷歌對古詩詞的理解確實不如搜狗,比如婦啼一何苦搜狗翻譯長了「old women」應該是對應上了前文。再比如「夜捉人」變成了「catch the night」似乎不如搜狗的貼邊。當然了,兩邊對於「逾牆走」這類表達都無法準確理解,另外搜狗完全漏了石壕村。


另外還有一種情況,翻譯過程中根據詞的表面意義直翻的現象比較嚴重,並且應該是在算法的加持下強行組成句子。而這種翻譯模式下,漏翻現象會很嚴重。


從以上測試可以得出以下兩個問題:



當然以上只是根據我們的實驗得到的特徵,不一定全面和準確,但似乎確實說明了神經機器翻譯沒有那麼神,甚至有一些技術迭代後出現的新問題。


找鑰匙,搶鑰匙


目前來看,神經網絡機器翻譯未來很長時間都會處在主要位置。並且可能會短時間內不斷突破。而針對上面分析到的問題,有一些解決方案可以作為比較高效的補充,也許這些會成為神經網絡翻譯企業接下來的重點戰場。


這裡探討的是以其他技術力量完善神經網絡機器翻譯的方式,說不定其中某項會成為促進真人翻譯進一步失業的「鑰匙」:


一、引進NMT以外的人工智慧技術:巧合的是,近兩年關於機器翻譯的技術突破往往來自其他人工智慧領域。比如注意力模型,是來自Deepmind在機器視覺領域的技術構想。主動引入其他領域的算法和模型,或許在翻譯領域有神奇的效果。


二、建立機器學習使用的用戶資料庫,激發互動:在機器學習的原理當中,對錯誤樣本糾錯往往是最好的學習途徑,但翻譯上的糾錯行為顯然是企業難以完成的。調動用戶主動糾錯翻譯結果,並以之建立資料庫,或許是非常便捷的辦法。


三、嘗試優質訓練資料下的弱監督學習:目前的NMT體系,歸根結底是個有監督學習過程,很多所謂「莫名其妙」的翻譯結果都來自翻譯機制無法優化。嘗試一些深度學習架構讓翻譯系統自我優化,也許是個解決方案。


四、垂直領域語料資料庫&數據抽調系統:解決具體的專業領域,甚至文言文的中英互譯(當然也包括英文的詩歌和文學文本),其實也沒什麼特別的辦法,擁有強大的垂直領域資料庫是硬實力,當然好的數據抽調模型會事半功倍。


神經網絡機器學習,還是個標準的新生事物。業界願意選擇它只是因為它比此前的方案更優化,也更有發展潛力。絕不是因為它一出手就秒殺眾生,達到了取代人類同行的地步。


翻譯依舊是一個非常安全的工作,至少今天還是。

相關焦點

  • BAT、谷歌、Facebook都在搞的神經機器翻譯,真的就地表最強了嗎?
    2014年到2016年,機器翻譯領域可以說是翻天覆地。這期間發生的大事,是以神經網絡作為基礎的機器翻譯,開始在全面超越此前以統計模型為基礎的統計機器翻譯(SMT),並快速成為在線翻譯系統的主流標配。在這場革命之後,機器翻譯徹底進入了Neural Machine Translation,即NMT神經機器翻譯時代。很多人為此歡欣鼓舞。
  • 谷歌發布神經機器翻譯,翻譯質量接近筆譯人員
    據外媒報導,谷歌於昨日發布了網頁版本和移動版本的谷歌翻譯。在漢譯英的過程中,谷歌翻譯會採用全新的神經機器翻譯機制,而這個App每天要進行一千八百萬次這樣的翻譯。此此外,谷歌針對這個神經機器翻譯系統的運作原理,專門發表了一篇學術論文。早前,谷歌就曾表示過,他們在谷歌翻譯中運用了神經網絡技術,但只限於實時視覺翻譯這個功能。前段時間,谷歌一名叫Jeff Dean的高級員工曾經告訴VentureBeat,谷歌已經在嘗試把越來越多的深度學習功能和機制融入到谷歌翻譯中。
  • 重磅| Facebook提出全新CNN機器翻譯:準確度超越谷歌而且還快九倍...
    選自code.facebook作者:Jonas Gehring、Michael Auli、David Grangier、Denis Yarats、Yann N. Dauphin機器之心編譯參與:吳攀、微胖、蔣思源去年穀歌在機器翻譯上取得了連續不斷的突破,谷歌的方法用到了文本處理慣用的循環神經網絡。
  • 谷歌發布神經機器翻譯:翻譯質量接近筆譯人員
    據外媒報導,谷歌於昨日發布了網頁版和移動版的谷歌翻譯。在漢譯英的過程中,會採用全新的神經機器翻譯,而這個App每天要進行一千八百萬次這樣的翻譯。此外,谷歌針對這個翻譯系統的運作原理,發表了一篇學術論文。早前,谷歌就曾表示它們在谷歌翻譯中運用了神經網絡技術,但只限於實時視覺翻譯這個功能。
  • 號稱地表最強的神經機器翻譯,為什麼還是差強人意?
    於是,我們選取了目前最有代表性的谷歌GNWT和屢獲大獎的搜狗的SogouNWT,來摸索一下今天神經網絡機器翻譯的真實水平和進化空間。進擊的神經機器翻譯開始十分有趣的實驗之前(其實並不有趣),先來簡單了解一下神經機器翻譯在原理上強在哪裡,它的內部有哪些門類,以及為什麼幾年間成為了主流標配?
  • 谷歌的神經翻譯系統意味著機器翻譯到盡頭了?
    整個的報告以機器翻譯為主線展開,大概分四部分:第一叫做機器翻譯的波瀾史,幾十年的發展一波三折,非常有意思;第二是機器翻譯現在主流的技術神經機器翻譯,還是可以改進的。我可以給大家看一些例子,並不是谷歌就做到頭了,還有很多的空間。
  • 谷歌翻譯高勤:神經網絡技術將主導機器翻譯的未來
    谷歌翻譯研發科學家高勤  中國網科技7月11日訊 谷歌翻譯研發科學家高勤在今天舉行的中國網際網路大會上介紹稱,谷歌翻譯在神經網絡機器翻譯技術上已經取得重要進展,並同時對機器翻譯技術在未來當中實際應用。他表示:「神經網絡機器翻譯和非專業人工翻譯已經相當接近,對於中英文互譯也取得最大提升。」  高勤在大會上稱,神經網絡翻譯技術與傳統翻譯技術有很大不同。傳統機器翻譯技術是基於短語統計機器翻譯拼圖過程,嘗試找出較好翻譯選項,而神經網絡機器學習屬於利用雲語言與目標語言信息,使整各翻譯過程變得連續且完整。
  • 號稱地表最強的神經機器翻譯,為什麼還是不盡如人意?
    於是,我們選取了目前最有代表性的谷歌GNWT和屢獲大獎的搜狗的SogouNWT,來摸索一下今天神經網絡機器翻譯的真實水平和進化空間。進擊的神經機器翻譯開始十分有趣的實驗之前(其實並不有趣),先來簡單了解一下神經機器翻譯在原理上強在哪裡,它的內部有哪些門類,以及為什麼幾年間成為了主流標配?
  • 谷歌申請神經網絡翻譯專利,專家表示淡定,Facebook呢?
    2015 年十月,谷歌提交了這份專利申請,名為「神經機器關鍵字處理翻譯系統「,在 2016 年四月 28 日發布,谷歌為這項技術的具體實現方式申請了專利。谷歌將這項神經網絡MT(機器翻譯)系統的技術定義為「一個將兩種自然語言相互映射的神經網絡系統」。這項專利的關注點主要集中在具體映射的方法上,然而,專利中包含了大量侵權索賠條款。
  • ...谷歌神經機器翻譯再突破:實現高質量多語言翻譯和zero-shot翻譯
    》,介紹了谷歌的神經機器翻譯系統(GNMT),該系統實現了機器翻譯領域的重大突破,參見報導《重磅 | 谷歌翻譯整合神經網絡:機器翻譯實現顛覆性突破》。這家搜索巨頭表示現在已經將神經機器翻譯(neural machine translation)集成到了其網頁版和移動版的翻譯應用之中,這意味著它可以一次性翻譯一整段句子,而不只是像之前一樣只能一個詞一個詞地翻譯。谷歌在其產品博客中表示,其產品的翻譯結果現在變得更加自然,能夠實現更好的句法和語法。
  • 谷歌神經機器翻譯之我見
    本文寫於2016年9月Google升級神經機器翻譯(GNMT)之際。
  • 谷歌的神經翻譯系統並不意味著機器翻譯到頭了,還有大把創新可做|...
    整個的報告以機器翻譯為主線展開,大概分四部分:第一叫做機器翻譯的波瀾史,幾十年的發展一波三折,非常有意思;第二是機器翻譯現在主流的技術神經機器翻譯,還是可以改進的。我可以給大家看一些例子,並不是谷歌就做到頭了,還有很多的空間。
  • 谷歌翻譯新技能 離線也可使用神經機器翻譯
    【TechWeb報導】6月13日消息,近日谷歌宣布將更新Android與iOS版本的Google Translate應用,此次更新最值得關注的一點便是,即使終端設備處於無法聯網的狀態,也可使用神經機器翻譯(NMT)技術進行翻譯,全新版本已於即日起陸續進行推送。
  • 谷歌用神經機器系統把漢語翻譯成英語 錯誤率最高下降85%
    新浪科技訊 北京時間9月28日上午消息,谷歌今天宣布,網絡和移動版的谷歌翻譯現在使用新的神經機器翻譯系統,並用於漢譯英,目前,谷歌翻譯應用每天翻譯約1800萬次。谷歌也在發布一篇關於該方法的學術論文。 此前谷歌也曾表示在谷歌翻譯中使用神經網絡,但具體用於實時視頻翻譯功能。
  • 谷歌開源神經機器翻譯技術,推出tf-seq2seq框架
    陳樺 編譯自 Google官方博客量子位 報導 | 公眾號 QbitAI谷歌研究軟體工程師、谷歌大腦團隊成員Anna Goldie和Denny Britz今天撰文,宣布在「谷歌神經機器翻譯」的基礎上推出開源框架tf-seq2seq,給外部研究人員提供幫助。
  • 將科幻變成現實,谷歌百度用神經機器翻譯踐行人類的「巴別塔之夢」
    變革性的神經機器翻譯去年,谷歌提出了GNMT,神經機器翻譯(NMT: Neural Machine Translation)是一種用於自動翻譯的端到端的學習方法,該方法有望克服傳統的基於短語的翻譯系統的缺點。但 NMT 系統的訓練和翻譯推理的計算成本非常高,同時也難以應對罕見詞,這些問題阻礙了 NMT 在實際部署和服務中的應用,因為在實際應用中,準確度和速度都很關鍵。
  • 深度| 逐層剖析,谷歌機器翻譯突破背後的神經網絡架構是怎樣的?
    選自SMERITY機器之心編譯谷歌神經機器翻譯(GNMT)論文《Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation》描述了一種將深度學習融入產品的有趣方法。該論文和架構是不標準的,在很多情況下偏離學術論文中的架構。
  • 最強的翻譯工具,比谷歌翻譯還厲害!
    正文---對於翻譯工具,由於是剛需,小編我也是在公眾號推薦過好幾款,有「複製翻譯」的CopyTranslator,也有聚合翻譯神器多譯,還有前幾天剛推薦的文獻翻譯神器知雲文獻翻譯。以上這三款軟體都是按照應用場景精心挑選的,各有各的特點。
  • 谷歌機器翻譯取得顛覆性突破 到底幾分真假?
    ,然後對它們的大部分進行獨立翻譯,而神經機器翻譯則將整個輸入句子視作翻譯的基本單元。所以重大突破並不僅僅是上了深度神經網絡,而是以句子為單元。最近,做機器翻譯的同志們一打開朋友圈,猛然發現好像飯碗沒了,谷歌爸爸大力出奇蹟,提高了機器翻譯87%的水平。結果打開人家原文一看,原來虛驚一場,只是現有工作的整合,一篇完美的工程論文,並沒有新的模型提出。不禁長舒一口氣,呼~飯碗還在。
  • 圖解谷歌神經機器翻譯核心部分:注意力機制
    最近,有一篇文章用圖解的方式,完整地介紹了「注意力機制」的原理邏輯,並以谷歌神經翻譯為例,解釋了它的運作機制。作者說,寫這篇文章的目的,是為了讓大家在不去看數學公式的情況下,掌握注意力的概念。他也會以人類譯者為例,將相關的概念形象化。神經機器翻譯為何需要注意力機制?