谷歌揭秘自家翻譯系統:如何利用AI技術提高翻譯質量

2020-12-24 家電消費網

  對於機器翻譯來說,如果一門語言可用的文字資料越多,經過人工智慧模型訓練出來的翻譯效果就越好。但並不是所有語言都具備豐富可用訓練的文字資料,這樣一來,如何在數據不多的情況下,訓練出更好的翻譯器,成為機器翻譯領域裡需要解決的問題之一。

  近日,谷歌在自己的博客上介紹了公司最新的翻譯創新技術,這些技術提升了谷歌翻譯的用戶體驗。目前谷歌翻譯可支持108種語言,平均每天翻譯1500億個單詞。

  谷歌翻譯最早亮相於2006年,在過去的13年間,翻譯水平有了重大飛躍。谷歌表示,其翻譯突破並不是由單一技術推動的,而是針對低資源語言、高資源語言、總體質量、推理速度等一系列技術組合的突破。在2019年5月到2020年5月之間,根據人工評估和BLEU(基於翻譯系統翻譯和人工參考翻譯之間相似性的衡量標準),谷歌翻譯在所有語言中平均提高了5分以上,在50種語料資源最少的語言中平均提高了7分以上。

  混合模型和數據挖掘器

  在這系列技術突破中,谷歌首先提到了混合模型和數據挖掘器。

  混合模型指的是由Transformer編碼器和遞歸神經網絡(RNN)解碼器構成的模型。在機器翻譯中,編碼器通常將單詞和短語編碼為內部表徵,解碼器將其生成為所需要的語言文本。谷歌的研究人員在2017年稱首次提出,翻譯質量的提高主要依靠編碼器。谷歌團隊稱這可能是因為RNN和Transformer都設計為處理有序數據序列,但Transformers並不需要按順序處理序列。換句話說,如果所討論的數據是自然語言,則Transformer無需在處理結尾之前先處理句子的開頭。

  儘管如此,RNN解碼器在推理時間上仍然比Transformer中的解碼器要「快得多」。谷歌翻譯團隊認識到這一點,於是在將RNN解碼器與Transformer編碼器耦合之前,對RNN解碼器進行了優化,以創建低延遲、質量及穩定性均比此前所使用的RNN神經機器翻譯模型更勝一籌的混合模型。

  除了新穎的混合模型體系結構之外,谷歌還升級了爬蟲工具,爬蟲工具可以從數以百萬計的示例翻譯中收集編譯訓練數據。升級後,谷歌嵌入了14 種大語言對,而不是單純基於字典數據。也就是說它是使用實數向量來表示單詞和短語,更多地聚焦於精確性(檢索數據中的相關數據部分),而非檢索(實際檢索的相關數據總量)。產出效果方面,谷歌說這使得該數據挖掘器提取到的句子數量平均增加了29%。

  「嘈雜」的數據和遷移學習

  谷歌翻譯性能提升的另一個技術突破來自更好地處理訓練數據中的「噪聲」。「噪聲」即嘈雜的數據,因含有大量無法正確理解或解釋的信息數據,從而會損害語料資源豐富的語言翻譯。因此谷歌翻譯團隊部署了一個系統,該系統使用經過訓練的模型為翻譯示例分配分數,進而篩選出「純淨」的數據。實際上,這些模型一開始基於所有的數據進行訓練,然後逐漸基於更小、更純淨的數據子集進行訓練,這種方法在人工智慧研究領域被稱為課程學習。

  對於機器翻譯來說,傳統上依賴於源語言和目標語言中成對句子的語料統計。對於資源較少的語言,谷歌在谷歌翻譯中採用了一個回譯機制,來強化並行訓練數據,即語言中的每個句子都與其譯文相配對。在該機制中,訓練數據與合成的並行數據自動對齊,目標文本為自然語言,而源文本則由神經翻譯模型生成。結果是,谷歌翻譯充分利用更豐富的單語文本數據來訓練模型,谷歌稱這對提高翻譯流暢性特別有幫助。

  此外,谷歌翻譯團隊還建了一個M4模型。M4模型由團隊在2019年提出,該模型對100多種語言的250億對句子進行訓練後,提高了30多種低資源語言的翻譯質量。這一模型也證明了在機器翻譯過程中可以使用遷移學習技術。這也意味著收集包括法語、德語和西班牙語,這些有數十億個並行示例的高資源語言,並進行訓練後,可以應用於翻譯諸如約魯巴語,信德語和夏威夷語,這些僅有數萬個示例的低資源語言。

  機器翻譯的未來

  谷歌稱,自2010年以來,翻譯質量每年都在提高,但是機器翻譯絕不是翻譯問題的「終結者」。 谷歌承認,即使是增強後的模型也容易出錯,包括將一種語言的不同方言混合在一起,產生過多的直譯,以及在特定主題,非正式或口語上的表現不佳。

  谷歌嘗試用不同的方法來解決上述的問題。公司曾發布一項計劃旨在招募志願者,通過檢查翻譯單詞和短語是否正確來幫助提高低資源語言的翻譯性能。 今年2月份,谷歌翻譯與新興的機器學習技術相結合後就完成了進步,他們提供了僅有7500萬人使用的五種語言翻譯,例如Kinyarwanda(盧安達語),Odia(奧裡亞語),Tatar(韃靼語),Turkmen(土庫曼語)和Uyghur(維吾爾語)。

  追求真正通用翻譯的並不只有谷歌一家。在2018年8月,Facebook發布了一種AI模型,該模型結合了逐詞翻譯,語言模型和反向翻譯,在語言配對方面表現優異。最近,麻省理工學院計算機科學與人工智慧實驗室的研究人員提出了一種無監督模型,即可以從未經明確標記或分類的測試數據中學習的模型,該模型可以在兩種語言的文本之間進行翻譯,而無需在兩種語言之間直接進行翻譯。

相關焦點

  • 微信翻譯鬧笑話蔡徐坤躺槍,AI翻譯為何總「翻車」?
    更多優質內容請關注微信公眾號「AI 前線」(ID:ai-front) 昨天,有細心的網友發現,微信翻譯出現故障,得出了很多讓人啼笑皆非的翻譯結果。比如明星們的名字被翻譯成各種風馬牛不相及的字眼,Cai Xukun 被翻譯成「傻蛋」也真是非常尷尬了。
  • 谷歌翻譯竟預言世界末日,專家解密神經翻譯6大難題
    這段驚悚的「預言」來自谷歌翻譯。2016年,谷歌宣布機器翻譯「重大突破」——神經機器翻譯(GNMT),將翻譯質量提高到接近人類筆譯的水平。然而,它將無意義的文本翻譯成怪異的宗教預言引起了新的恐慌。這次,要怪AI是「黑盒」,還是拖出谷歌員工來背鍋?
  • 巴別魚雛形,谷歌推出端到端語音翻譯技術,還能模仿你說話
    自小說誕生,巴別魚便成為了即時語音翻譯的代名詞。但在當時,人類的翻譯技術距離這一目標仍遙不可及。神經網絡的出現,讓優質高效的機器翻譯不再遙遙無期。每次技術的突破都讓我們離巴別魚更近一步,直到今天,谷歌的發布了一項新研究Translatotron,這是一種可以實現端到端的語音轉語音的翻譯技術。
  • AI翻譯如何與傳統翻譯並存共贏:這一次「翻譯」的概念將被重新定義
    AI翻譯一直是近年來熱門話題,從谷歌推出神經網絡機器翻譯(NMT)、搜狗AI進擊,到博鰲同傳機器人,人工智慧在翻譯領域一直在持續不斷的嘗試。可以說,迄今為止,AI在翻譯行業的應用都是一場巨大的人工智慧實驗。
  • 谷歌翻譯功能逆天?小別勝新婚而已,來看中國翻譯軟體實力在哪裡
    言歸正傳:上周我在虎嗅撰文致意吳恩達先生的離職,文中有兩處提到谷歌翻譯和百度翻譯的對比:一處是說百度領先谷歌一年上線基於NMT神經網絡的翻譯系統,一處是說百度翻譯的使用體驗不如谷歌方便。巧的是幾天後,3月29日,谷歌翻譯APP就重返中國大陸,引起一片歡騰。
  • 人人譯視界:針對影視劇字幕組推出「視頻翻譯黑科技」,提高80%翻譯...
    【獵雲網北京】5月30日報導(文/呂夢)從谷歌推出神經網絡機器翻譯(NMT)、搜狗AI進擊、到博鰲同傳機器人,人工智慧在翻譯領域一直在持續不斷的嘗試。與其說我們想看看人工智慧究竟能做到哪一步,不如說是我們想知道人工智慧能對翻譯行業帶來哪些推動性的進步、是否能夠真正提升翻譯效率。
  • 不用輸入就能翻譯的翻譯器!谷歌翻譯推新功能 拍照即可識別
    谷歌翻譯推新功能 拍照即可識別 2019年07月11日 19:50作者:張萌編輯:李芹文章出處:泡泡網原創   7月11日消息,據外媒phonearena報導,谷歌翻譯APP近期推出了一項新功能
  • 「苟富貴勿相忘」翻譯後,谷歌:沒錢的人總會被遺忘
    相信不少人還記得中學的時候全文背誦《陳涉世家》的痛苦,當然還有考試的時候讓你翻譯某一句名言,像是「燕雀安知鴻鵠之志哉」,或者「天下苦秦久矣。吾聞二世少子也,不當立,當立者乃公子扶蘇」。 如今,隨著AI技術的成熟,機器也逐漸在學習如何以人類的方式行動和思考。
  • AI 如何成為百度翻譯 DAU 高速增長的引擎?
    然而當下的機器翻譯也有諸多局限,比如整個訓練需要大量語料,極大影響了很多小語種翻譯模型的精度;再比如,當機器翻譯的需求與場景越來越多樣化,如何在文本翻譯的基礎上進一步攻克語音翻譯、特別是針對同傳場景的翻譯,如何應對特定領域的翻譯需求等等,成為擺在業界面前的重要課題。作為國內較早布局機器翻譯產品線的百度,又是如何做的呢?
  • 谷歌翻譯加入離線AI翻譯功能,離線也能翻譯而且更準確
    打開APP 谷歌翻譯加入離線AI翻譯功能,離線也能翻譯而且更準確 工程師吳畏 發表於 2018-08-13 15:56:00 更強
  • 《集異璧》作者侯世達瘋狂吐槽谷歌翻譯:AI替代人類譯者為時尚早
    新智元推薦 來源:心智與實在編輯:小奇【新智元導讀】科普神人侯世達懷疑谷歌翻譯是否成為替代人類譯者的顛覆者,以英語、法語、德語和中文進行測試,最後得出結論:「谷歌翻譯」和相關技術的實用性是毋庸置疑的,總體而言也是很好的工具。但它在技術方法上還是極度欠缺一種東西,一言以蔽之:理解力。
  • 讀了20次「苟富貴勿相忘」後,谷歌翻譯:沒錢的人總會被遺忘
    相信不少人還記得中學的時候全文背誦《陳涉世家》的痛苦,當然還有考試的時候讓你翻譯某一句名言,像是「燕雀安知鴻鵠之志哉」,或者「天下苦秦久矣。吾聞二世少子也,不當立,當立者乃公子扶蘇」。如今,隨著AI技術的成熟,機器也逐漸在學習如何以人類的方式行動和思考。既然如此,我們為何不考考它,看看在AI眼中,《陳涉世家》到底是個什麼故事。
  • 谷歌翻譯將升級:實時聽譯並轉文字
    上月,微軟旗下視頻通話服務Skype開始在英語和西班牙語用戶之間測試實時翻譯功能。預計不久之後,谷歌也將發布翻譯應用的升級。谷歌翻譯的文字版目前提供了90種語言的翻譯,並且已經能對少數幾種常用語言進行聽譯。在此次升級之後,這款應用能自動識別用戶是否在講某種常用語言,並將其自動轉為文字。這種將某一語言翻譯為另一語言的技術可能效果並不是很好。
  • 機器翻譯:谷歌翻譯是如何對幾乎所有語言進行翻譯的?
    全文共13204字,預計學習時長34分鐘谷歌翻譯大家想必都不陌生,但你有沒有想過,它究竟是如何將幾乎所有的已知語言翻譯成我們所選擇的語言?本文將解開這個謎團,並且向各位展示如何用長短期記憶網絡(LSTM)構建語言翻譯程序。
  • 提高翻譯專碩質量 傳遞中國好聲音
    進入新時代,中國的國家戰略,無論是積極參與全球治理、文明交流互鑑,還是講述中國故事、傳播中國聲音,都需要大量優秀的翻譯人才。目前,翻譯人才培養主要依託翻譯專業碩士學位教育。如何提高翻譯專業碩士的培養質量是一個值得思考的問題。筆者想從一線教師的視角談幾點自己的想法。
  • 百分點認知智能實驗室出品:機器翻譯是如何煉成的(下)
    按在「機器翻譯是如何煉成的(上)」的文章中,我們回顧了機器翻譯的發展史。在本篇文章中,我們將分享機器翻譯系統的理論算法和技術實踐,講解神經機器翻譯具體是如何煉成的。第一點,不同於谷歌面向全球的網際網路用戶,國內企業最終用戶語種翻譯需求明確且要求系統本地化部署,對部分語言方向如英中、中俄等翻譯質量要求較高,同時希望這些語言方向的翻譯效果能持續提升,發現問題時能及時校正,而其他使用頻次較低的翻譯模型能保證其穩定性,這導致高頻使用的語言模型更新頻率會較高,低頻使用的語言模型更新頻率較低。
  • 爽文+AI翻譯,全球老外正在同步修仙
    2016年底,谷歌翻譯的一次革命性升級,讓AI翻譯初具與人工翻譯搶飯碗的能力。 而短短一年之後,一家名叫funstory.ai的中國人工智慧公司就在某個垂直領域吊打了谷歌翻譯,這個垂直領域就是爽文翻譯。
  • B站的「生草翻譯」,關AI什麼事?
    但經放大燈團隊測試發現,同樣是把《狂人日記》丟進谷歌翻譯中,如果僅僅是進行中英文之間的反覆互譯,不論重複多少次,其結果都不會較大的變化。甚至對於一些中文名篇,谷歌翻譯還能做到中英文的嚴格對譯,每次的結果都一字不差。那麼,好端端的谷歌翻譯,怎麼就變成了神奇的生草翻譯器?UP主們有什麼特別的技巧嗎?
  • 谷歌翻譯內核大升級:誤差降低超55%
    5月8日消息,近期,Google翻譯悄然升級了其翻譯內核。據Google官方提供的數據顯示,Google翻譯搭載的Google的神經機器翻譯(GNMT:Google Neural Machine Translation)系統使用了當前最先進的訓練技術,因而提升了機器翻譯水平,將翻譯誤差再度降低了55%-85%。
  • 澳門大學粵語普通話翻譯系統上線
    )澳門大學機器翻譯研究取得重大突破,其研究團隊在粵語和普通話的機器翻譯領域實現技術創新「粵語普通話翻譯系統」由澳門大學自然語言處理與中葡機器翻譯實驗室(NLP2CT)研發。 關鍵詞: 作者簡介:   中國社會科學報廣州2月13日電(記者 李永傑)澳門大學機器翻譯研究取得重大突破,其研究團隊在粵語和普通話的機器翻譯領域實現技術創新,提升了譯文質量。