多家翻譯軟體大型翻車現場?機器翻譯到底有哪些不確定性

2021-01-07 AI 科技評論

作者 | 蔣寶尚

編輯 | 叢末

自然語言處理果真是人工智慧皇冠上的明珠,在走向摘取顆果實的路上,人類恐怕還只是走了一半。

具體表現是,在機器翻譯的世界裡,一直無法賦予機器足夠的「靈性」。例如,林則徐虎門銷煙被某度軟體翻譯成了「Lin Zexu sells cigarettes in Humen」 。

圖註:筆者後續對百度進行測試時,發現已經是正確翻譯:「Lin Zexu destructed opium at Humen」

顯然,機器把「銷」等同於「銷售」。其實,這種等同,對於其他人,在沒有上下文語境的情況下是完全可行的,例如,小李虎門銷煙=小李虎門賣(銷售)煙、小明虎門銷煙=小明虎門賣(銷售)煙。但是,對於林則徐,是無論如何不能做這種混淆,因為,這句話本身就包含了上下文語境。虎門銷煙是中國近代史上的重要事件,對於人工譯員來說,這是非常重要的背景知識,銷毀(銷)的是鴉片(煙),目前機器翻譯系統明顯缺乏對這種知識的理解能力,這也可能是導致翻譯錯誤的一個重要原因。

對此,AI科技評論還專門測試了其他幾個著名的翻譯軟體。其表現如下:

顯然,谷歌翻譯也沒能經受的得住考驗。

金山翻譯,仍然是sells,這動詞還用的是第三人稱單數!

有道翻譯:「銷煙=煙」。有道的整體翻譯,總感覺怪怪的,如果把smoke看成動詞「吸菸」也不怎麼通順!難道它把「林則徐虎門」看成了一個人?

騰訊翻譯爭氣了很多,「Lin Zexu destroys opium in Humen」點燃了希望之光~

我們試了試在日本大火的DeepL:譯文的內容相對完整一些,但也沒有正確翻譯「煙=鴉片」,譯文中包含一些多餘的單詞。

1

數據和算法雙重問題下的翻譯BUG

那麼,只是簡單的一句缺乏上下文語境就能解釋這麼多家翻譯軟體為什麼都出現BUG麼?為此,AI科技評論專門諮詢了東北大學自然語言處理實驗室主任肖桐老師,他解釋道:「主要還是訓練數據的覆蓋度問題,數據中「銷」很多的時候被當作sell,對生僻一些的用法機器翻譯現在還無法處理。說到底,機器翻譯現在還是在「背」,沒見過的情況,不會像人一樣推理,缺乏對句子的真正理解能力。」

小牛翻譯創始人、東北大學朱靖波老師將這種譯文與原文本意不同的現象,稱之為「跑飛」現象,他解釋到:「出現這種現象的原因是神經機器翻譯技術本質上沒有對句子進行真正的理解,所以有些時候無法保證譯文的忠實度。早期神經機器翻譯中這個問題比較嚴重,現在這個問題得到了緩解,偶爾會出現,但不常見。」

論文連結:https://arxiv.org/pdf/1803.00047.pdf

對於機器翻譯的這些BUG,2018年也有一篇論文詳細闡述了這些現象。這篇論文的第一作者是來自FAIR的Myle Ott,他在論文的引言部分就提到:當前大多數機器翻譯的模型都是基於神經網絡(NMT),而神經網絡機器翻譯明顯沒有給予生詞(rare words)足夠的重視,最明顯的表現是曝光誤差(exposure bias),簡單來講是因為文本生成在訓練和推斷時的不一致造成的。

在論文中,作者對於包括但不限於「生詞」的機器翻譯現象給予了一個總結:所有的機器翻譯問題的基本主題都是不確定性,即學習任務的一對多性質,換句話說給定一個句子,有多種翻譯結果。

然後,針對這種不確定性,作者分了兩類解釋原因,一類是數據的不確定性,另一類是模型解讀(搜索)信息的不確定性。

數據的不確定性來源與兩個方面:內在和外在。

內在不確定性的表現是:一句話會有幾種等價的翻譯。因為在翻譯的過程中或多或少是可以直譯的,即使字面上有很多表達相同意思的方法。句子的表達可以是主動的,也可以是被動的,對於某些語言來說,類似於「the」,「of」,或「their」也是可選擇的。除了一句話可以多種翻譯這種情況外,規範性不足同樣是翻譯不確定的來源。

另外,如果沒有背景輸入,模型通常無法預測翻譯語言的時態或數字,因此,簡化或增加相關背景也是翻譯不確定性的來源。

外在的不確定性表現在:使用低質量的網絡數據進行高質量的人工翻譯。這一過程容易出錯,並導致數據分配中出現其他的不確定性。目標句可能只是源句的部分翻譯,或者目標句裡面有源句中沒有的信息。

對模型輸出中的不確定性量化,作者在論文中先比較了集束搜索(Beam Search)和採樣兩種搜索策略,然後研究了數據中特定種類的外部不確定性對集束搜索的影響。得出的結論是集束搜索非常高效,而更大的波束寬度在尋找更高的似然輸出方面也更加高效,而外部不確定性通過影響波束寬度從而影響搜索的效果。

在論文的最後,作者採用更全面的觀點,將估計分布與真實數據分布進行比較。結論是與數據分布相比,模型在假設空間中傳播的概率過大,往往低估了個別假設的實際概率。換句話說,模型根據概率輸出翻譯結果,有時候會出現不靠譜的情況。

2

機器翻譯:如何讓機器不再死記硬背?

回顧機器翻譯技術的發展歷程,第一代是基於規則的機器翻譯技術RBMT,主要通過專家手工書寫翻譯規則來實現;第二代是統計機器翻譯技術SMT,第三代是目前主流的神經機器翻譯技術NMT。

第二代SMT和第三代NMT採用機器學習方法,數據驅動,基於大規模雙語句對來訓練構建機器翻譯系統。由於人工書寫規則的代價很高,構建大規模雙語句對的代價也非常高,很多語言對難以收集大規模的雙語句對,在上述例子中機器將「虎門銷煙」中的「銷」作為「銷售」處理,也正是因為語料稀缺所致。

朱靖波老師在去年9月AI Time的一場活動中曾經提到過當前的機器翻譯與我們在外語學習機制上的差異:我們學習外語的方法並不是通過閱讀大量雙語文章,而是背背單詞,學學語法,以及大量閱讀外文單語文章,在不知不覺中掌握了外語。但機器學習外語的方式就大不一樣,不管是上一代的統計機器翻譯,還是目前主流的神經機器翻譯,都是基於大量的雙語句對訓練構建機器翻譯系統。從這個角度上說,要緩解神經機器翻譯技術在稀缺用語上「翻車」的現狀,則需要引入新的學習機制,例如往人類學習外語的新範式方向發展,擺脫對大規模雙語句對的依賴。這就好像AlphaGo最初根據人類棋譜來學習,之後的AlphaGo Zero引入新的學習方式,不依賴於人類棋譜來學習,下棋水平反而更高一樣。

不過,要讓機器像人類一樣學習外語,當中有一個急需解決的問題:翻譯人員對於自己的母語具有非常強的語法,能夠準確判斷母語譯文是否符合母語說法,甚至人類的大腦對於不符合母語說法的錯誤會進行自動糾正,例如下面這句:

「研表究明,漢字序順並不定一影閱響讀。比如當你看完這句話後,才發這現裡的字全是都亂的。」

同樣,在翻譯的過程中,例如在英翻中的任務中,為了構建表達一個具體含義的中文句子,只要從英文原文句子中得到幾個中文譯文單詞。例如用「我 北京 去 明天」,我們也可以容易構建一個合法中文句子「明天我去北京」或者「我明天去北京」,不會說「我北京明天去」和「我去明天北京」等不合法的中文句子,在構建過程不需要過多依賴英文原文。這一能力被研究者稱為「生成能力」,如何讓機器具有可以與人媲美的「生成能力」,則是實現類似人類學習方式的「單語學習」第四代機器翻譯的關鍵。

據AI科技評論了解,這一工作的瓶頸在於有些源語言的句法語義分析技術還處於起步階段,相關研究成果如張嶽、朱靖波、劉群等人合作研究並在2014年EMNLP發表的論文《Syntactic SMT Using a Discriminative Text Generation Model》,論文先分析源語言的句法成分和語義成分,再根據部分翻譯的基本單元生成目標語言,近期類似工作也得到了一定的關注。

論文地址https://www.aclweb.org/anthology/D14-1021.pdf

毋庸置疑,目前的機器翻譯在對那些任務重複性較大、翻譯難度較低的低端翻譯上已經取得了一定的成績,但在實現翻譯「信、達、雅」的終極目標上還需時日。一個可喜的變化是,近年來機器翻譯和人工翻譯兩個領域的合作與交流日趨頻繁,機器翻譯技術目前正處在一個量變到質變的積累時期,下一代的機器翻譯技術也將更多的從模仿人類的學習機制、開展人機協作上開展研究,而且這個質變或許已經為時不遠。

3

OMT:微信、谷歌翻車小集錦

這種「生詞」處理不當,其實機器翻譯出現問題的一個方面,前段時間火邊B站的「谷歌翻譯20遍」,恰恰反映了把句子機翻成英文再翻回來之後譯文不一致的情況。以少年閏土為例,原文與翻譯二十遍之後的譯文為:

原文:深藍的天空中掛著一輪金黃的圓月,下面是海邊的沙地,都種著一望無際的碧綠的西瓜。其間有一個十一二歲的少年,項帶銀圈,手捏一柄鋼叉,向一匹猹用力地刺去。那猹卻將身一扭,反從他的胯下逃走了。

譯文:在綠色天空中幾乎到處都是無盡的金色月亮,沙灘上滿是沙子。那時,這個11歲的男孩儘可能地用金屬皮帶系住他的手,並將其放在金屬把手上。叔叔關上身體,逃離叔叔。

......看到這裡,怕是魯迅大叔的棺材板都壓不住了吧!

除了谷歌,【微信翻譯】之前也出現過誤翻情況,原因是無法有效應對沒經過訓練的非正式英文詞彙,不過,現在微信翻譯團隊已經通過添加特殊詞的copy機制初步解決了這個問題。當時的截圖如下:

當出現人名時候,【微信翻譯】會出現胡言亂語~~

招 聘

AI 科技評論希望能夠招聘 科技編輯/記者 一名

辦公地點:北京/深圳

職務:以參與學術頂會報導、人物專訪為主

工作內容:

1、參加各種人工智慧學術會議,並做會議內容報導;

2、採訪人工智慧領域學者或研發人員;

3、關注學術領域熱點事件,並及時跟蹤報導。

要求:

1、熱愛人工智慧學術研究內容,擅長與學者或企業工程人員打交道;

2、有一定的理工科背景,對人工智慧技術有所了解者更佳;

3、英語能力強(工作內容涉及大量英文資料);

4、學習能力強,對人工智慧前沿技術有一定的了解,並能夠逐漸形成自己的觀點。

感興趣者,可將簡歷發送到郵箱:cenfeng@leiphone.com

相關焦點

  • 微信翻譯大型翻車現場?機器翻譯到底有哪些不確定性
    另一方面,問題可能更多出現在語料庫上,現在業界所做的機器翻譯很大程度上靠語料「懟」,只要平行語料數量足夠多,質量足夠好, 其實一般的系統也可以訓練出很好的結果。 之前在知乎上就有一個問題詢問微信翻譯團隊如何設置,根據自稱團隊成員」LynnCui「的爆料,微信翻譯是由微信後臺一小撮不到10人的工程師團隊從零折騰出來的引擎完成翻譯的。
  • 「苟富貴勿相忘」翻譯後,谷歌:沒錢的人總會被遺忘
    其實不管是語種互譯,還是古文翻譯,都是機器翻譯的類別之一。 但是,如果機器翻譯翻車的情況持續發生,我們還能相信它嗎? 先別急,我們從NMT(neural machine translation,神經網絡機器翻譯)的誕生開始講起,看看機器翻譯到底是個什麼東西。
  • 翻譯行業的發展方向:機器翻譯VS人工翻譯
    近年來,機器翻譯技術有了很多新的突破,在實際的語言服務實踐中,機器翻譯有了很多成功的案例。機器翻譯必將深刻影響翻譯服務行業,將給人工翻譯帶來實際的威脅。另一方面,機器翻譯以其人工翻譯難以比擬的速度,將提高人類對於海量信息的處理能力,彌補人工翻譯在速度和成本方面的不足。不管你喜不喜歡,你都無法迴避機器翻譯的發展。如何利用機器翻譯技術成了翻譯服務行業的重要課題。
  • Memsource翻譯軟體,為你提供最佳機器翻譯引擎
    在人工智慧高速發展的今天,機器翻譯技術取得了突破性進展,市面上湧現了大量的商家提供機器翻譯服務,機器翻譯的質量在不同行業、語種下的差距越來越大。而在進行翻譯時,所選擇的機器翻譯引擎是影響翻譯效果的重要因素。因此,如何選擇翻譯引擎是我們面臨的重要任務。
  • 機器輔助翻譯之TRADOS知多少
    機器翻譯雖然簡單方便,但在翻譯準確性方面還有待提高。機器翻譯軟體是讓機器代替人進行翻譯,主要是針對外語基礎比較差的用戶,目的是幫助他們解決基本的語言障礙問題。機器輔助翻譯(Machine Aided Translation,簡稱「MAT」),通常我們又稱為計算機輔助翻譯(Computer-aidedTranslation,簡稱CAT)。
  • 英語四六級大型翻車現場!「獅子舞、燈籠、剪紙」面...
    英語四六級大型翻車現場!「獅子舞、燈籠、剪紙」面...:澎湃新聞·澎湃號·媒體 本文原標題:《英語四六級大型翻車現場
  • 機器翻譯能解放生產力嗎?
    在翻譯領域裡,基於自然語言「神經網絡模型」的機器翻譯的出現,終於讓大家看到了顛覆性的技術。從中,大家看到「神經網絡」的革命性和未來性,內心中對這項技術有了些憧憬和疑問,也就有了如此疑問。我們不講總的機器翻譯歷史和時間軸事件,僅從應用角度到來看,軟體翻譯可以有三個階段。
  • 劉和平、韓林濤:下「機器翻譯替代人類」結論為時尚早
    ......現場提供兩種同聲傳譯服務:人工同傳和機器同傳。這裡我們討論的不是機器性能和功能,而是談機器是不是可以代替人工做交替傳譯和同聲傳譯,或者說機器將在哪些方面代替譯員/譯者。最近有幸與清華大學機器自動翻譯專家劉洋博士長聊,因為我們有一個姊妹項目:「2022北京冬奧會術語平臺開發建設」和「面向冬奧的機器翻譯」。此次見面我期待能從這位專家嘴裡得到答案,翻譯是否真的很快就會被機器替代;他則希望聽我詳細講述人工翻譯的過程。
  • 機器翻譯什麼時候能取代人工翻譯?知行翻譯公司認為不可能
    機器翻譯是通過計算機將一種自然語言(源語言)轉換成另一種自然語言(目標語言)的過程。它是計算語言學的一個分支,是人工智慧的終極目標之一,具有重要的科學研究價值。機器翻譯具有很大的實用價值。隨著經濟全球化和網際網路的迅速發展,機器翻譯技術在促進政治、經濟和文化交流方面發揮著越來越重要的作用。
  • 未來的世界:機器翻譯VS人工翻譯
    二是對不按標準寫作的,在機器處理前,首先安排人工按標準對原語加工處理(這種處理還是比人工翻譯快多)。 筆者曾經讓學生做機器翻譯實驗,選擇的是漢語醫學期刊和物理期刊上的論文摘要(有中文和對應的英語摘要),使用的是我們學校引進的Google Translate。這個還是通用性神經機器翻譯,不是專門的醫學機器翻譯或材料機器語料庫。
  • B站「不靠譜」翻譯大賽:機器翻譯,還遠不能取代人工翻譯
    我們都期待著有一天,能有最理性的人工智慧翻譯軟體幫助我們解決語言的障礙,從而做到無礙的全球化交流。不過機器翻譯究竟能做到什麼地步,永遠是讓人質疑的。起碼就今天的技術水平來看,機翻幾乎是最不靠譜的選項。 除了單詞和語法,我們如何理解某句話在字面意義背後的情景?機器翻譯有可能達到理解文化背景的程度嗎?
  • 巨頭扎堆的小市場:不學外語,機器翻譯搞定一切?
    神經網絡翻譯(NMT)的前世今生20世紀初期,多位科學家與發明家陸續提出機器翻譯的理論與實作計劃或想法。但真正的機器翻譯研究要追溯到20世紀三四十年代。1949年,W.對於GNMT 是否已經到達了機器翻譯的極限,Google Brain 的軟體工程師陳智峰曾表示,現有的深度學習 RNN 模型還有很多可開發的空間,例如讓模型變得更大或者層數增加,同時在該領域每年也都有新的模型出現,深度學習的模型也會不斷迭代,所以 GNMT 目前的技術還遠未到極限,更加不會是機器翻譯的極限。
  • 搜狗機器翻譯團隊獲得 WMT 2017 中英機器翻譯冠軍
    搜狗語音交互技術中心代表搜狗參加了這次含金量極高的比賽,該中心研發的搜狗神經網絡機器翻譯(Sogou Neural Machine Translation)系統在「中文-英文」機器翻譯任務中獲得了冠軍。這個系統採用了哪些新方法、新結構,又為我們提供了哪些新思路?讓我們結合論文聊一聊 Sogou NMT。WMT 是機器翻譯領域的國際頂級評測比賽之一。
  • 谷歌機器翻譯取得顛覆性突破 到底幾分真假?
    最近,做機器翻譯的同志們一打開朋友圈,猛然發現好像飯碗沒了,谷歌爸爸大力出奇蹟,提高了機器翻譯87%的水平。結果打開人家原文一看,原來虛驚一場,只是現有工作的整合,一篇完美的工程論文,並沒有新的模型提出。不禁長舒一口氣,呼~飯碗還在。呼~到底火遍朋友圈的那篇文章「谷歌機器翻譯取得顛覆性突破,錯誤率下降87%」到底幾分真幾分假呢?
  • 翻譯軟體成出境遊「神器」?
    筆者體驗比對後發現,對外語很差的人來說,翻譯軟體確實是出境遊的好幫手,但只能應對簡單的短句翻譯,準確性不高,複雜交流完全無法勝任。因此,想靠小小翻譯軟體走天下的人,美夢還難以成真。  出境遊火,翻譯軟體受追捧  「天啊,沒想到連我學的那麼稀有的語種都有!」剛剛下載了谷歌翻譯的泰米爾語專業畢業生張琪頗為驚訝。
  • 翻譯器可翻譯方言和文言文 超出谷歌微軟的翻譯軟體能力
    翻譯器可翻譯方言和文言文 超出谷歌微軟的翻譯軟體能力 站長之家(ChinaZ.com) 4月1日 消息:最近,一款名叫DeepL的在線機器翻譯軟體在日本大火
  • 王維、楊絳與機器翻譯的本質
    其實,在這前後,他看了這首詩8個英語譯本,而每一個標題的翻譯都不一樣。每個譯本都有非常多的奇思妙想,譯者也非常有趣並絞盡腦汁地結合英文詩的傳統,中文詩的傳統,還有中國的道教、佛教,王維的生平、歷史都考慮到了,每一行詩都有非常多的主觀想法以及他們自己的思維在裡面,每一個作品都有他們的偉大之處。
  • 機器翻譯的最新進展與瓶頸所在
    你想過和異國人說話不需要再有翻譯,只需隨身攜帶一個輕巧的數碼機器嗎?目前來看這仍是奢望。不過,或許某一天,我們終於可以不再學習頭疼的外語就能實現和外國人的無縫交流。而網際網路的普遍應用則使在線翻譯成了當今機譯的重頭戲。  在這一領域,競爭正變得空前激烈。如今功能較強、方便易用的在線翻譯工具有谷歌翻譯、必應翻譯、臉譜翻譯、寶貝魚翻譯、巴比倫翻譯等,其中後起之秀的谷歌翻譯最具特色,同時最具代表性。
  • CAT翻譯軟體老大
    今天,給大家分享一些關於CAT翻譯軟體的知識。首先,我們來講Trados翻譯軟體。Trados:翻譯輔助工具(CAT)領域的老大,功能強大,起步時間早,快速佔領市場,成為主流。翻譯記憶庫:TM(Translation Memory) ,使用它的軟體被稱也被成為TMM(Translation Memory Managers),這類軟體的代表是Trados。塔多思其核心技術--翻譯記憶(Translation Memory)是專業翻譯領域最常用的計算機輔助翻譯技術。
  • 重築巴別塔:機器翻譯的夢想與現實
    引言:技術的新進展使人們對機器翻譯的關注與熱望達到前所未有的高度。本報記者採訪一線專家,為你全面解讀關於機器翻譯的那些事兒:  宇宙翻譯器:究竟要多久才能出現?現場觀眾看到其中一個屏幕把他講的話以英文文本的形式展示出來,速度大概只比他的聲音慢小半秒。而在另一個屏幕上,上半部把英文文本中的單詞提取出來,並對應中文單詞,而下半部則按照中文語序排列成中文句子。隨後,最令人激動的時刻到來了,翻譯完的中文句子以普通話的形式「說」了出來,聲音聽起來還與雷斯特本人挺像,速度基本上是他一說完英語,機器就「說」出仿真聲音的中文翻譯,聽起來就像雷斯特在給自己做同聲傳譯。