微信翻譯大型翻車現場?機器翻譯到底有哪些不確定性

2021-01-07 36kr

編者按:本文來自微信公眾號「大數據文摘」(ID:BigDataDigest),作者蔣寶尚、Andy,36氪經授權發布。

這兩天,微信翻譯團隊難得的上了次熱搜。

事情的發展是這樣的。有網友發現,當翻譯中帶有caixukun的人名拼音時,微信翻譯會出現一些奇怪的中文詞語,比如👇


之後,不僅人名測試開始一發不可收拾,網友們紛紛出動,想要尋找微信翻譯的其他彩蛋👇

網友們因此大為驚奇,玩得不亦樂乎,以至於這個話題被推上了熱搜。

針對相關問題,騰訊微信團隊昨天也做出了回應,強調這不是暖心的彩蛋,是翻譯引擎在翻譯一些沒有進行過訓練的非正式英文詞彙時出現誤翻。

文摘菌今天早上進行測試,發現微信團隊已經修復了bug,已無誤翻的情況,但是,帶有人名的句子在翻譯中會直接全句copy下來。


那麼,真的像微信翻譯團隊所說,這一翻譯車禍現場都是算法的鍋嗎?

文摘菌諮詢了自然語言處理領域的兩位專家,他們表示,算法上當然也有問題,但是,更大的問題可能在於訓練語料。

目前,機器翻譯領域主要使用的NMT架構都差不多,一方面問題出在解碼器語言模型,使用的語料讓它學習到了這些最大概率出現的詞。

微信團隊在處理的過程中似乎沒有對「特殊情況」進行處理,更準確來說,模型沒有添加copy機制,無論輸出的英文「單詞」多麼奇形怪狀,模型都會遵守最大概率原則對單詞進行翻譯。

如果添加了特殊詞的copy機制,完全可以把無法翻譯的單詞不進行翻譯,直接copy過去。

也就是說,一個聰明的模型應該知道哪些應該翻譯,哪些不應該翻譯,微信團隊做的這隻AI顯然不夠聰明。

從目前微信的修復結果全局copy來看,微信團隊似乎已經重新設置了這一機制,對於敏感詞「caixukun」或者句式「you are so……」進行原句返回。

另一方面,問題可能更多出現在語料庫上,現在業界所做的機器翻譯很大程度上靠語料「懟」,只要平行語料數量足夠多,質量足夠好, 其實一般的系統也可以訓練出很好的結果。

之前在知乎上就有一個問題詢問微信翻譯團隊如何設置,根據自稱團隊成員」LynnCui「的爆料,微信翻譯是由微信後臺一小撮不到10人的工程師團隊從零折騰出來的引擎完成翻譯的。

嗯~語料庫、算法、不到10人......根據這些線索,文摘菌猜測微信翻譯出現這種問題的原因是:訓練語料。如果訓練語料多來自相對便宜的電影字幕、多語言會議等材料,那麼模型最終呈現的翻譯內容也會相對應比較「活潑」和「口語化」。

而在面對庫中不存在的詞,比如caixunkun,算法會自動匹配最經常出現,或者在同語境下最容易匹配的內容,比如形容詞「帥哥」、「傻蛋」。

那麼,經過這一烏龍事件,微信團隊是否會真的重視起翻譯產品,然後重金重製語料庫呢?我們拭目以待。

其實相關翻譯烏龍並不只有微信出現過,翻譯領域的先驅谷歌也有過類似的事件。

之前外媒Motherboard有整理來自Reddit論壇的帖子發現,谷歌翻譯在學習的過程中可能受到了輸入來源的影響,竟將一些意味不明的語句翻譯成了如聖經一般的語言。

比如,若用戶將翻譯設置為從毛利語翻譯成英語,之後輸入一長串的「dog」(英文意為「狗」),最後會得出這樣的結果。

翻譯出來的英文大意為:

世界末日時鐘在12點3分鐘,我們正在經歷世界上的人物和戲劇性的發展,這表明我們越來越接近末日和耶穌的回歸。

哈佛大學助理教授,研究自然語言處理和計算機翻譯的Andrew Rush認為,這些神秘的翻譯結果可能和谷歌幾年前採用的「神經機器翻譯」技術有關。他表示,在神經機器翻譯中,系統訓練用了一種語言的大量文本來和另一種語言進行相應翻譯,以在兩者之間創建模型。但當輸入的是無意義內容時,系統就會出現「幻覺性」的輸出結果。

由於谷歌這一學習系統的原因,類似的翻譯結果層出不窮。據悉,在設置從索馬利亞語言翻譯成英語的時候,谷歌有時翻譯也會念起「聖經」,比如下面這個例子。


其大意為:

因為上帝的名字是用希伯來語寫的,所以用希伯來民族的語言寫成。

八卦歸八卦,熱搜歸熱搜。吃完瓜,文摘菌還是要跟各位強調,到底如何避免機器翻譯的車禍現場。

讓我們先從NMT的誕生講起。

2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一種用於機器翻譯的新型端到端編碼器-解碼器結構 。該模型可以使用卷積神經網絡(CNN)將給定的一段源文本編碼成一個連續的向量,然後再使用循環神經網絡(RNN)作為解碼器將該狀態向量轉換成目標語言。這一研究成果的發布可以說是神經機器翻譯(NMT)的誕生。雖然在那之後有無數的研究者進行改進模型,但是仍然缺乏對模型的理解。

具體遇到的問題包括:訓練和解碼過程相當慢;對同一個詞的翻譯風格可能不一致;在翻譯結果上還存在超出詞彙表(out-of-vocabulary)的問題;黑箱的神經網絡機制的可解釋性很差;訓練所用的參數大多數是根據經驗選擇的。

NMT和SMT對比

總的來說:不確定性是翻譯中的一個核心挑戰。我們需要知道不確定性的典型來源是什麼?為什麼會出現這種問題?

文摘菌在一篇論文《Analyzing Uncertainty in Neural Machine Translation》中找到了這個問題的答案。

論文下載地址:https://arxiv.org/pdf/1803.00047.pdf

根據論文,在構建翻譯的模型的時候,基本上有兩種不確定性,一種是任務本身固有的不確定性,另一種是數據收集過程中存在的不確定性。

內在的不確定性

不確定性的一個來源是一句話會有幾種等價的翻譯。因為在翻譯的過程中或多或少是可以直譯的,即使字面上有很多表達相同意思的方法。句子的表達可以是主動的,也可以是被動的,對於某些語言來說,類似於「the」,「of」,或「their」也是可選擇的。

除了一句話可以多種翻譯這種情況外,規範性不足同樣是翻譯不確定的來源。

另外,如果沒有背景輸入,模型通常無法預測翻譯語言的時態或數字,因此,簡化或增加相關背景也是翻譯不確定性的來源。

外在的不確定性

機器翻譯系統,特別是模型,需要大量的訓練數據才能表現良好。為了節省時間和精力,使用低質量的網絡數據進行高質量的人工翻譯是常見的。這一過程容易出錯,並導致數據分配中出現其他的不確定性。目標句可能只是源句的部分翻譯,或者目標句裡面有源句中沒有的信息。

在一些加了copy機制的翻譯模型中,對目標語言進行翻譯的時候可能會完全或部分複製源句子。論文作者經過研究發現,即使copy機制很小,也能對模型預測產生較大的影響。

除此之外,這篇論文主要探究了NMT模型的適用性以及搜索。雖然模型在token和句子方面有很好的校準,但是預測的概率分布太廣泛。這個問題的原因作者認為取決於函數是否是光滑的。

另外,論文研究了錯配的影響,過度的概率分布會把樣本在模型中的表現變差,而且。copy機制會更加突出。

其實微信翻譯裡面不僅僅有過翻車現場,也有一些隱形撩妹彩蛋!文章的最後,文摘菌也為大家送上這波福利。

有細心的網友會發現你在微信聊天裡面發送信息【ohh】,翻譯內容是:【留在我身邊】。

如今這個梗在知乎上廣為流傳,而且至今微信翻譯這個bug還在,微信翻譯也至今沒有進行補丁,可見微信團隊的程式設計師們不僅技術牛,也是很有愛的一波人呢!

既然沒被修補,我們就好好利用這個bug吧!抱著學習的態度,文摘菌從知乎上拔下來了另外一些表白朮語,分享給大家。

eed:誓言

sme:我們

ichliebe dich:我愛你

這裡應該是觸發了德語翻譯。

還有一些看起來不像正經文字的緬甸語可以拿去用。

註:可能在輸入框內會出現一連串的問號,只要複製點擊發送就好。這是因為手機上一般都不會安裝這些小語種的字體,於是微信無法正常顯示,出來就是連串的問號,但是微信翻譯系統卻能支持多種語言,所以當你在微信消息或者朋友圈中長按「翻譯」按鈕時,微信的翻譯系統會自動解碼,並翻譯為中文。

另一個微信翻譯的Bug是利用組成兔子手部的つ,這實際上是一個日語字符。有了它,整句話就會被當成日語來翻譯,由於日語語法,疑問句就會因此翻譯成肯定句。例如:

/つ 想不想...(我、出去浪)

/つ 要不要...(吃雞、去死)

/つ 你是不是...(一隻豬)

好啦,最後,祝大家表白順利。

相關焦點

  • 多家翻譯軟體大型翻車現場?機器翻譯到底有哪些不確定性
    在論文中,作者對於包括但不限於「生詞」的機器翻譯現象給予了一個總結:所有的機器翻譯問題的基本主題都是不確定性,即學習任務的一對多性質,換句話說給定一個句子,有多種翻譯結果。然後,針對這種不確定性,作者分了兩類解釋原因,一類是數據的不確定性,另一類是模型解讀(搜索)信息的不確定性。數據的不確定性來源與兩個方面:內在和外在。
  • 「苟富貴勿相忘」翻譯後,谷歌:沒錢的人總會被遺忘
    其實不管是語種互譯,還是古文翻譯,都是機器翻譯的類別之一。 但是,如果機器翻譯翻車的情況持續發生,我們還能相信它嗎? 先別急,我們從NMT(neural machine translation,神經網絡機器翻譯)的誕生開始講起,看看機器翻譯到底是個什麼東西。
  • 英語四六級大型翻車現場!「獅子舞、燈籠、剪紙」面...
    英語四六級大型翻車現場!「獅子舞、燈籠、剪紙」面...:澎湃新聞·澎湃號·媒體 本文原標題:《英語四六級大型翻車現場
  • 微信AI首次奪冠WMT2020國際機器翻譯大賽中英方向
    作為全球學術界最具權威的機器翻譯比賽,近日,WMT2020國際機器翻譯大賽的榜單停止提交結果並發布排名,其中騰訊微信AI團隊在「中文-英文」翻譯任務上奪得冠軍。在賽制上,組委會根據中英、英中、中日等不同翻譯任務提供測試集,參賽者在線提交機器翻譯結果,組委會將根據在國際上具有廣泛認可度的BLEU自動評估指標對參賽者提交的機器譯文和標準答案進行擬合計算,擬合程度高者排在前面。其中「中文-英文」翻譯任務是大賽歷年來競爭最激烈的領域,也是最大的看點之一,在歷屆冠軍中,微軟、騰訊翻譯君、搜狗都榜上有名。
  • 翻譯行業的發展方向:機器翻譯VS人工翻譯
    近年來,機器翻譯技術有了很多新的突破,在實際的語言服務實踐中,機器翻譯有了很多成功的案例。機器翻譯必將深刻影響翻譯服務行業,將給人工翻譯帶來實際的威脅。另一方面,機器翻譯以其人工翻譯難以比擬的速度,將提高人類對於海量信息的處理能力,彌補人工翻譯在速度和成本方面的不足。不管你喜不喜歡,你都無法迴避機器翻譯的發展。如何利用機器翻譯技術成了翻譯服務行業的重要課題。
  • 類似微信翻譯ohh詞語有哪些 盤點ilu ohhhh我愛你等翻譯代碼
    都有哪些類似微信ohh的詞語?近日,在微薄流傳的一條「在微信發一句「ohh」再點一下翻譯試試」(原因介紹),瞬間變成了一個撩妹新招數,微信上的ohh長按翻譯是「留在我身邊」,ohhh是「哦~~」還有哪些長按翻譯後會出現的有趣字符呢?下面就跟小編一起來看看吧!
  • 搜狗機器翻譯團隊獲得 WMT 2017 中英機器翻譯冠軍
    搜狗語音交互技術中心代表搜狗參加了這次含金量極高的比賽,該中心研發的搜狗神經網絡機器翻譯(Sogou Neural Machine Translation)系統在「中文-英文」機器翻譯任務中獲得了冠軍。這個系統採用了哪些新方法、新結構,又為我們提供了哪些新思路?讓我們結合論文聊一聊 Sogou NMT。WMT 是機器翻譯領域的國際頂級評測比賽之一。
  • 王維、楊絳與機器翻譯的本質
    這是一個非常哲學性的翻譯問題,到底有沒有完美的翻譯,翻譯到底能不能完美到讓你讀完這個東西之後,你立刻就能夠感受到原作的所有的附加內涵呢? 機器翻譯的發展之路 翻譯,是侯世達教授始終非常關注的一個研究課題。
  • 谷歌機器翻譯取得顛覆性突破 到底幾分真假?
    最近,做機器翻譯的同志們一打開朋友圈,猛然發現好像飯碗沒了,谷歌爸爸大力出奇蹟,提高了機器翻譯87%的水平。結果打開人家原文一看,原來虛驚一場,只是現有工作的整合,一篇完美的工程論文,並沒有新的模型提出。不禁長舒一口氣,呼~飯碗還在。呼~到底火遍朋友圈的那篇文章「谷歌機器翻譯取得顛覆性突破,錯誤率下降87%」到底幾分真幾分假呢?
  • 微信發個符號,就能知道誰把你刪了?大型翻車現場來了……
    當你打開微信或QQ時有沒有被一些莫名其妙的對話嚇到?不要在意那是因為你的朋友翻車了……早年微信出現了一種Bug在對話中加上「隱藏符號」就可以讓對方收不到信息不少文章在教大家那是因為這個Bug已經被修復了……看不見看不見該配合演出的我視而不見但是這位童鞋還容小編再笑笑吧……我看不到請繼續翻車
  • 未來的世界:機器翻譯VS人工翻譯
    一般說來在建立專門(如法律、醫學、石油)機器翻譯語料庫時,根據標準所開展的語料加工對齊(即詞彙和句法的調整)工作量比較大,如一個次語類往往需要幾十萬的平行句。但有了標準,可以組織目前的MTI翻碩學生進行。以後運用可以有兩種情況。
  • 機器輔助翻譯之TRADOS知多少
    然而,傳統的純人工翻譯方式因成本高、耗時長等原因似乎已經不能滿足翻譯市場某些客戶稿件數量大、時間緊的需求。於是,機器輔助翻譯應運而生。那麼,什麼是機器輔助翻譯呢?在說機器輔助翻譯之前,我先說下我對機器翻譯的理解。機器翻譯(Machine Translation,簡稱MT)是利用計算機把一種語言轉變成另一種語言的過程,是由機器自動完成的。
  • 機器翻譯什麼時候能取代人工翻譯?知行翻譯公司認為不可能
    機器翻譯是通過計算機將一種自然語言(源語言)轉換成另一種自然語言(目標語言)的過程。它是計算語言學的一個分支,是人工智慧的終極目標之一,具有重要的科學研究價值。機器翻譯具有很大的實用價值。隨著經濟全球化和網際網路的迅速發展,機器翻譯技術在促進政治、經濟和文化交流方面發揮著越來越重要的作用。
  • 微信翻譯軟體頻出Bug,為什麼迄今為止一直沒有準確的語言翻譯?
    昨天微信翻譯因為出Bug被網友送上熱搜,網友質疑微信在翻譯明星內容時,結果是近乎「惡搞」。 當輸入:「you play basketball like caixukun」時,微信翻譯為:「你的籃球打得真好。」
  • 「你打籃球像蔡徐坤」:微信翻譯這個bug是怎麼回事?
    矽星人認為,微信應該進一步、更加詳細地告知我們:這個 bug 為什麼會出現,由哪些因素所導致。一方面,微信翻譯背後的技術確實比較複雜。解釋它,有助於用戶去理解它的工作原理,明白這個翻譯結果的背後,可能有著十分複雜的技術原因。
  • 2019微信翻譯表白代碼大全 用微信翻譯我喜歡你
    微信翻譯表白代碼相信很多人都是想知道他是有哪些,又是怎麼製作的,其實這個表白的代碼在以前就曾經出來過,不過現在這個代碼又再次的火了起來!2019最新微信翻譯表白代碼分享。微信翻譯表白代碼是非常有意思的,通過阿拉伯文來翻譯,比如我喜歡你,我愛你,這是一種令人意想不到的表達愛意的方式。
  • 2020國際機器翻譯大賽:火山翻譯力奪五項冠軍
    39支隊伍角逐國際頂級機器翻譯大賽WMT國際機器翻譯大賽(WMT)由國際計算語言學協會 (ACL) 舉辦,是全球學術界公認的國際頂級機器翻譯比賽,也是各大科技公司、頂尖院校與學術機構展示自身機器翻譯實力的較量舞臺。
  • B站「不靠譜」翻譯大賽:機器翻譯,還遠不能取代人工翻譯
    我們都期待著有一天,能有最理性的人工智慧翻譯軟體幫助我們解決語言的障礙,從而做到無礙的全球化交流。不過機器翻譯究竟能做到什麼地步,永遠是讓人質疑的。起碼就今天的技術水平來看,機翻幾乎是最不靠譜的選項。 除了單詞和語法,我們如何理解某句話在字面意義背後的情景?機器翻譯有可能達到理解文化背景的程度嗎?
  • 劉和平、韓林濤:下「機器翻譯替代人類」結論為時尚早
    ......現場提供兩種同聲傳譯服務:人工同傳和機器同傳。這裡我們討論的不是機器性能和功能,而是談機器是不是可以代替人工做交替傳譯和同聲傳譯,或者說機器將在哪些方面代替譯員/譯者。最近有幸與清華大學機器自動翻譯專家劉洋博士長聊,因為我們有一個姊妹項目:「2022北京冬奧會術語平臺開發建設」和「面向冬奧的機器翻譯」。此次見面我期待能從這位專家嘴裡得到答案,翻譯是否真的很快就會被機器替代;他則希望聽我詳細講述人工翻譯的過程。
  • 微信翻譯有彩蛋?微信:翻譯引擎訓練不夠,正緊急修復
    最近,充當微信聊天當中翻譯的工具被挖出了諸如此類的有趣小細節。3 月 3 日消息,有網友發現,通過特殊句式 + 人名拼音在微信翻譯得出的結果有點讓人頗有些哭笑不得,例如:You are so Sunxiaochuan:你真是陽光明媚。