谷歌翻譯竟預言世界末日,專家解密神經翻譯6大難題

2021-01-10 多彩貴州網

  【新智元導讀】「世界末日時鐘是23點57分。我們正在經歷世界上的戲劇性的發展,這表明我們越來越接近末日和耶穌的回歸。」這段驚悚的「預言」來自谷歌翻譯。2016年,谷歌宣布機器翻譯「重大突破」——神經機器翻譯(GNMT),將翻譯質量提高到接近人類筆譯的水平。然而,它將無意義的文本翻譯成怪異的宗教預言引起了新的恐慌。這次,要怪AI是「黑盒」,還是拖出谷歌員工來背鍋?

  在Google Translate中鍵入「dog」一詞19次,然後選擇將這段無意義的文本從毛利語翻譯成英語,結果會怎樣?

  彈出來的是一段看似亂碼宗教預言:

  Doomsday Clock is three minutes at twelve We are experiencing characters and a dramatic developments in the world, which indicate that we are increasingly approaching the end times and Jesus』 return.

  「世界末日時鐘還差3分鐘到12點。我們正在經歷世界上的人物和戲劇性的發展,這表明我們越來越接近末日和耶穌的回歸。」

  這只是Reddit以及其他網站用戶從谷歌翻譯中挖掘出來的眾多怪異、有時甚至是不祥的翻譯的一個例子。將原文設為索馬利亞語,連續輸入「ag」一詞,這個字符串會被翻譯成「sons of Gershon」(革順的兒子),「name of the LORD」(上帝的名字),並且會引用聖經裡的術語,例如「cubits」(肘,聖經中的度量衡)和Deuteronomy(《申命記》)。谷歌翻譯是谷歌已經推出10年的服務,現在可以翻譯超過100種語言。

  在推特上,這些翻譯引起恐慌,有人甚至將這些奇怪的翻譯歸咎於鬼魂和惡魔。reddit上TranslateGate子論壇上有用戶推測,其中一些奇怪的翻譯輸出可能來自收集自電子郵件或私人消息的文本。

  谷歌發言人Justin Burr在一封電子郵件中表示:「Google Translate從網絡上的翻譯範例學習,不使用『私人信息』進行翻譯,系統甚至都無法訪問到這些內容。」 「這只是將無意義的話語輸入系統,導致產生的也是無意義的內容的一種功能。」

  對於這種怪異的輸出,有幾種可能的解釋。比如,這些惡意消息可能是心懷不滿的谷歌員工造成的,也可能是惡作劇用戶濫用「提供建議」按鈕造成的,該選項將接受用戶提供的有助於改善翻譯質量的建議。

  罪魁禍首可能是神經機器翻譯

  哈佛大學研究自然語言處理和計算機翻譯的助理教授Andrew Rush認為,內部的質量過濾器(quality filter)可能會捕捉到這種類型的惡意操作。Rush說,更有可能的是,這些奇怪的翻譯與2016年時谷歌翻譯的一個重大變化有關——它開始使用一種叫做「神經機器翻譯」的技術。

  在神經機器翻譯中,使用一種語言的大量文本和另一種語言的相應譯文來訓練系統,以創建一個能夠在兩種語言之間相互翻譯的模型。Rush說,當系統被輸入無意義的文本時,它就會「產生幻覺」,生成怪異的輸出——就像谷歌的DeepDream視覺系統會產生可怕的圖像一樣。

  谷歌DeepDream的作畫

  「這些模型都是黑盒,你能找到多少訓練實例,它就能學到多少。」 Rush說:「訓練實例中絕大部分看起來都像人類語言,因此當你給它一個新的實例時,它受到的訓練就是,不惜一切代價創造出一些看起來也像人類語言的東西。然而,如果你給它一些非常不同的東西,最好的翻譯將是一些看起來仍然流暢的文本,但根本與輸入無關。」

  BBN Technologies的資深科學家、從事機器翻譯工作的Sean Colbath也同意,奇怪的輸出可能是由於Google Translate的算法試圖在混亂中尋找秩序。他還指出,這些產生最奇怪結果的語言——索馬利亞語、夏威夷語和毛利語——它們用於訓練的翻譯文本比英語或漢語等更廣泛使用的語言要小得多。因此,Colbath說,谷歌可能會使用《聖經》這類的宗教文本(《聖經》已經被翻譯成多種語言),用這些文本來訓練它的模型,導致產生宗教內容。

  Rush也同意這種說法,如果谷歌使用《聖經》來訓練它的神經翻譯模型,那麼就可以解釋一些奇怪的輸出了。事實上,索馬利亞語的幾個奇怪的翻譯版本與《舊約》中的某些章節很相似。比如《出埃及記》27:18提到「a hundred cubits」(長一百肘),並且有幾節經文,包括《民數記》3:18討論了「sons of Gershon」(革順的兒子)。

  谷歌發言人Justin Burr拒絕回答Google Translate的訓練數據是否包含宗教文本。

  但有時候,確實感覺這個算法似乎在傳遞某種神秘的精神能量——它甚至會開笑話。

  你看,用Google Translate翻譯「w hy ar e th e tran stla tions so wei rd」在索馬利亞語中的意思,它的輸出是,「這是一個讓它變得更好的好辦法」。

  神經機器翻譯的主要問題

  Philipp Koehn和Rebecca Knowles在2017年就這一主題撰寫了一篇精彩的關於神經機器翻譯的論文(文末附論文地址),現在仍然具有現實意義。在這裡有必要總結一下:

  1.神經機器翻譯(NMT)在處理領域之外的數據時的表現很糟:當前的機器翻譯系統會生成非常流暢的輸出,這些輸出與領域外數據的輸入無關。因此像Google翻譯這樣的通用機器翻譯系統在法律或金融等專業領域的表現尤其糟糕。與基於短語的系統等傳統方法相比,NMT系統的效果更差。有多差呢?請參閱下面的圖表。非對角線上元素是是用領域外數據訓練後的結果,綠色條代表NMT,藍色條代表基於短語的系統。

  將機器翻譯系統在一個領域內(行)上訓練,並在另一個領域(列)上進行測試。

  藍色:基於短語的系統綠色:NMT

  2. NMT在小數據集上表現不佳:一般而言,大多數機器學習都是這樣,但這個問題在NMT上尤為突出。 NMT的優點在於,隨著數據量的增加,它的表現要(比基於短語的機器翻譯)更好,但在數據量很低的情況下,NMT的表現確實更差。事實上,正如作者所說,「在資源條件較差的情況下,NMT會產生與輸入內容無關的流暢輸出。」這可能是Motherboard的文章探討的一些關於NMT表現奇怪的另一個原因。

  3. NMT在罕見詞彙上的表現不佳:儘管比基於短語的翻譯的表現更好,但NMT對於罕見或未見過的詞語翻譯的表現不佳。對於存在大量變形詞的語言及大量命名實體的領域,這可能成為一個問題,因為變形詞和命名實體一般非常罕見。

  上圖是我們即將出版的書的第2章部分內容的摘錄。例如,在土耳其語中,時不時就會遇到變形形式的詞。

  如果單詞只被觀察到一次,就會被捨棄。字節成對編碼(byte-pair encoding)技術有助於解決這個問題,但有必要對此進行更詳細的研究。

  4.長句的翻譯問題:對長句編碼及生成長句仍然是一個沒有解決的問題。機器翻譯系統隨句子長度的增加,其表現會越來越糟,NMT系統尤其如此。使用注意力有幫助,但問題遠未「解決」。在許多領域,如法律領域,冗長複雜的句子是很常見的。

  5.注意力(Attention)機制不等於簡單對齊:這是一個非常微妙但重要的問題。在傳統的SMT系統(如基於短語的MT)中,對齊翻譯為模型的檢測提供了有用的調試信息。但是注意機制不能被視為傳統意義上的對齊,即使論文經常將注意力機製作為「軟對齊」引起注意。在NMT系統中,除了源語言中的動詞之外,目標語言中的動詞也可以作為主語和賓語成分。

  6.難以控制翻譯質量:每個單詞都有多種翻譯,典型的機器翻譯系統在源句的翻譯結構上表現很好。為了保持句子結構的大小合理,會使用集束搜索(beam search)。通過改變集束寬度,可以找到低概率但正確的平移。而對於NMT系統,調整集束的寬度似乎沒有任何影響,甚至可能會有不良影響。

  當數據量很大時,NMT系統仍然很難被擊敗。關於神經網絡模型的黑盒性的討論也在繼續,今天的NMT模型(不論是基於LSTM還是Transformer)都會受此影響。這是一個活躍的研究領域,如果時間允許,我期待參加EMNLP關於該主題的研討會。

  參考連結:

  http://deliprao.com/archives/301

  論文地址:

  http://www.aclweb.org/anthology/W/W17/W17-3204.pdf

  (來源:motherboard,deliprao.com編譯:肖琴、大明)

相關焦點

  • 谷歌翻譯預言世界末日 神經機器翻譯或是故障原因
    圖片來源:百度圖片谷歌翻譯中新發現了一個小故障,導致在線工具將一些亂七八糟的詞句翻譯成耶穌關於世界末日的警告和預言。當被要求將「dog dog dog dog dog dog dog dog dog」這個短語從夏威夷語翻譯成英語時,支持谷歌翻譯的人工智慧開始產生關於世界末日的荒謬警告。這個無意義的句子在翻譯時,會提及對世界末日和耶穌基督第二次降臨。一旦發現故障,谷歌翻譯的粉絲很快就會在社交媒體上大量使用這個短語,模仿人工智慧引發的怪異結果。
  • 抽了風的谷歌翻譯,居然開始預告世界末日!
    谷歌翻譯現在兼職「神棍」。最近有Reddit用戶發現,在谷歌翻譯中輸入「dog」19次,選擇從毛利語翻譯成英語,然後就會彈出一段非常詭異的宗教預言。宗教預言翻譯成中文的意思是:「世界末日時鐘在十二點零三分。我們正在經歷世界的人物和戲劇性的發展,這表明我們越來越接近末日和耶穌的回歸。」
  • 谷歌翻譯裡程碑:工智能神經網絡翻譯支持103種語言,翻譯字詞超過...
    OFwek機器人網訊:在過去的十年裡,谷歌翻譯(Google Translate)從最初僅支持幾種語言發展到今天的103種,每天翻譯的字詞超過1400億個。為了做到這一點,在任意兩種語言之間,谷歌翻譯都要運行多個翻譯系統,這帶來巨大的計算成本。如今,許多領域都正在被神經網絡技術顛覆。
  • 谷歌申請神經網絡翻譯專利,專家表示淡定,Facebook呢?
    2015 年十月,谷歌提交了這份專利申請,名為「神經機器關鍵字處理翻譯系統「,在 2016 年四月 28 日發布,谷歌為這項技術的具體實現方式申請了專利。谷歌將這項神經網絡MT(機器翻譯)系統的技術定義為「一個將兩種自然語言相互映射的神經網絡系統」。這項專利的關注點主要集中在具體映射的方法上,然而,專利中包含了大量侵權索賠條款。
  • 谷歌正式推出神經翻譯 翻譯水平遠超過去十年
    用谷歌翻譯常出錯,譬如......完全不懂怎麼會這樣,雖然我大天朝的文字遊戲的確複雜。 谷歌的工程師面臨很大的麻煩,畢竟它需要覆蓋100中語言,相互間排列組合能達到上萬種。Google也一直在研究更準確的翻譯方式,最近Google正式啟用「神經網絡機器翻譯系統」。
  • 谷歌推出Zero-Shot翻譯技術 解決一對多難題
    (原標題:谷歌推出Zero-Shot翻譯技術 解決一對多難題)
  • 谷歌翻譯竟然讀起了「聖經」
    IT之家7月21日消息 谷歌翻譯是一個方便的工具,其背後也有著基於人工智慧的學習技術。但是日前外媒Motherboard整理了來自Reddit論壇的帖子發現,谷歌翻譯在學習的過程中可能受到了輸入來源的影響,竟將一些意味不明的語句翻譯成了如聖經一般的語言。
  • 谷歌的神經翻譯系統意味著機器翻譯到盡頭了?
    整個的報告以機器翻譯為主線展開,大概分四部分:第一叫做機器翻譯的波瀾史,幾十年的發展一波三折,非常有意思;第二是機器翻譯現在主流的技術神經機器翻譯,還是可以改進的。我可以給大家看一些例子,並不是谷歌就做到頭了,還有很多的空間。
  • 谷歌的神經翻譯系統並不意味著機器翻譯到頭了,還有大把創新可做|...
    在MIFS 2016上,孫教授的演講回顧了機器翻譯波折的發展歷程,同時分享了在神經翻譯系統之後他們在提升機器翻譯上的實踐。「算法+大數據+計算力」這是我的題目,《當巧婦遇到「大米」——機器翻譯啟示錄》。大家一看就知道來自中國的一句成語,叫巧婦難為無米之炊。巧婦指好的算法,大米是大數據的意思,好的算法遇上了大數據,當然還得有一個灶臺,灶臺就是強大的計算能力。
  • 谷歌發布神經機器翻譯,翻譯質量接近筆譯人員
    據外媒報導,谷歌於昨日發布了網頁版本和移動版本的谷歌翻譯。在漢譯英的過程中,谷歌翻譯會採用全新的神經機器翻譯機制,而這個App每天要進行一千八百萬次這樣的翻譯。此此外,谷歌針對這個神經機器翻譯系統的運作原理,專門發表了一篇學術論文。早前,谷歌就曾表示過,他們在谷歌翻譯中運用了神經網絡技術,但只限於實時視覺翻譯這個功能。前段時間,谷歌一名叫Jeff Dean的高級員工曾經告訴VentureBeat,谷歌已經在嘗試把越來越多的深度學習功能和機制融入到谷歌翻譯中。
  • 谷歌發布神經機器翻譯:翻譯質量接近筆譯人員
    據外媒報導,谷歌於昨日發布了網頁版和移動版的谷歌翻譯。在漢譯英的過程中,會採用全新的神經機器翻譯,而這個App每天要進行一千八百萬次這樣的翻譯。此外,谷歌針對這個翻譯系統的運作原理,發表了一篇學術論文。早前,谷歌就曾表示它們在谷歌翻譯中運用了神經網絡技術,但只限於實時視覺翻譯這個功能。
  • 神經網絡加持!有它出國不再找翻譯 谷歌翻譯上手體驗
    一、前言:這不是幻覺 谷歌翻譯APP真的能用了2017年3月30日,谷歌翻譯APP正式登陸中國。自從2010年穀歌退出中國市場後,許多用戶就一直期待這個家世界科技巨頭可以重返中國,尤其是百度魏則西事件後,這種呼聲愈發強烈。
  • ...谷歌神經機器翻譯再突破:實現高質量多語言翻譯和zero-shot翻譯
    》,介紹了谷歌的神經機器翻譯系統(GNMT),該系統實現了機器翻譯領域的重大突破,參見報導《重磅 | 谷歌翻譯整合神經網絡:機器翻譯實現顛覆性突破》。這家搜索巨頭表示現在已經將神經機器翻譯(neural machine translation)集成到了其網頁版和移動版的翻譯應用之中,這意味著它可以一次性翻譯一整段句子,而不只是像之前一樣只能一個詞一個詞地翻譯。谷歌在其產品博客中表示,其產品的翻譯結果現在變得更加自然,能夠實現更好的句法和語法。
  • 微信翻譯出 Bug 上熱搜,程式設計師又背鍋?!
    與微信翻譯浪漫的Bug相反的事,谷歌翻譯的Bug顯得很「詭異」了。去年七月,有人發現在谷歌線上翻譯輸入18個英文字「dog」,選擇將其從毛利文翻譯成英文時,結果竟是末日正在接近的預言:「Doomsday Clock is three minutes at twelve We are experiencing characters and a dramatic developments
  • 谷歌翻譯高勤:神經網絡技術將主導機器翻譯的未來
    谷歌翻譯研發科學家高勤  中國網科技7月11日訊 谷歌翻譯研發科學家高勤在今天舉行的中國網際網路大會上介紹稱,谷歌翻譯在神經網絡機器翻譯技術上已經取得重要進展,並同時對機器翻譯技術在未來當中實際應用。他表示:「神經網絡機器翻譯和非專業人工翻譯已經相當接近,對於中英文互譯也取得最大提升。」  高勤在大會上稱,神經網絡翻譯技術與傳統翻譯技術有很大不同。傳統機器翻譯技術是基於短語統計機器翻譯拼圖過程,嘗試找出較好翻譯選項,而神經網絡機器學習屬於利用雲語言與目標語言信息,使整各翻譯過程變得連續且完整。
  • 微信翻譯軟體頻出Bug,為什麼迄今為止一直沒有準確的語言翻譯?
    去年七月,有人發現在谷歌線上翻譯輸入18個英文字「dog」,選擇將其從毛利文翻譯成英文時,結果竟是末日正在接近的預言: (末日時鐘指向12點3分,我們正在經歷世界上的人物和戲劇性的發展,這表明我們越來越接近終結的時間和耶穌的回歸。) 這是翻譯嗎?感覺是在通暗號呢?是不是覺得這機器翻譯訓練來訓練去,都快成精了!不僅會撩妹,還會吐預言! 幸好後來谷歌公司回應道,「這只是將無意義的話放進系統,再產生無意義的話的一種功能。」 潛臺詞是大家別那麼無聊,都散了吧。
  • 人工智慧翻譯大比拼 有道翻譯戰勝谷歌奪得冠軍
    在其中的人工智慧翻譯大賽中,谷歌翻譯、有道翻譯官、搜狗翻譯三款翻譯軟體同臺競技,實測翻譯效果。最終,有道翻譯官憑藉著突出的對話翻譯和拍照翻譯功能,以及幾乎無短板的優勢,在比賽中拔得頭籌。  比賽規則是三局兩勝,第一局是「溝通大挑戰」,挑戰對話翻譯。第二局是「口音大評測」,挑戰產品的識別翻譯。第三局是「拍照大 PK」,挑戰圖像翻譯。
  • 翻譯界的重大突破——谷歌翻譯整合神經網絡,翻譯質量接近人工筆譯...
    System: Bridging the Gap between Human and Machine Translation》介紹谷歌的神經機器翻譯系統(GNMT),當日機器之心就對該論文進行了摘要翻譯並推薦到網站(www.jiqizhixin.com)上。
  • 谷歌推神經網絡翻譯 中譯英水平匹敵真人
    據澎湃新聞9月29日報導,27日,谷歌推出了新的翻譯系統,聲稱該套翻譯系統基於對人類神經思考的模仿,能夠與真人翻譯競相匹敵。在谷歌發表的題為《規模生產中的神經網絡機器翻譯》(A Neural Network for Machine Translation, at Production Scale)的文章中,宣布將機器學習技術納入網頁和手機APP翻譯中,從前漢譯英的尷尬局面將大為扭轉。
  • 谷歌翻譯新技能 離線也可使用神經機器翻譯
    【TechWeb報導】6月13日消息,近日谷歌宣布將更新Android與iOS版本的Google Translate應用,此次更新最值得關注的一點便是,即使終端設備處於無法聯網的狀態,也可使用神經機器翻譯(NMT)技術進行翻譯,全新版本已於即日起陸續進行推送。