谷歌翻譯是如何藉助多項新興AI技術提高翻譯質量的

2020-12-12 同花順財經

網易科技訊6月6日消息,據國外媒體報導,谷歌表示,它已在提高沒有大量書面文本語料的語言的翻譯質量上取得了進展。在一篇即將正式發表的博客文章中,該公司詳細介紹了助力提升谷歌翻譯(Google Translate)所支持的108種語言翻譯質量的新創新技術(特別是缺乏語料數據的約魯巴語和馬拉雅拉姆語)。

谷歌翻譯服務平均每天翻譯1500億個單詞。

自谷歌翻譯首次亮相以來的13年裡,神經機器翻譯、基於重寫的範式和設備端處理等技術的出現和改進,助力該平臺的翻譯準確性取得不小的飛躍。但直到近年,即便是最先進的翻譯支持算法也一直落後於人類的表現。谷歌以外的努力充分說明了這個問題的嚴重性――旨在使得非洲大陸的數千種語言可自動翻譯的Masakhane項目,至今還沒有走出數據收集和轉錄階段。Mozilla致力於建立一個開源的語音轉錄數據收集平臺Common Voice,自2017年6月推出以來也只審查了40種語音。

谷歌稱,它在翻譯領域所取得的突破並不是由單一技術驅動的,而是針對低資源語言、高資源語言、總體質量、延遲和整體推理速度的多項技術共同作用產生的。在2019年5月到2020年5月之間,根據人工評估和BLEU(基於翻譯系統翻譯和人工參考翻譯之間相似性的衡量標準),谷歌翻譯在所有語言中平均提高了5分以上,在50種語料資源最少的語言中平均提高了7分以上。

混合模型和數據挖掘器

這些技術中的第一個是轉換模型架構――一種混合架構,包括一個Transformer編碼器和一個用Lingvo實現的遞歸神經網絡(RNN)解碼器,後者是一個用於序列建模的TensorFlow框架。

在機器翻譯中,編碼器通常將單詞和短語編碼為內部表示形式,然後由解碼器生成目標語言的文本。基於Transformer的模型是谷歌研究人員在2017年首次提出的,在這一點上它比RNN更有效,但谷歌表示,它的研究表明,翻譯質量的提高主要來自Transformer的一個部件:編碼器。這可能是因為雖然RNN和Transformer都是為處理有序的數據序列而設計的,但後者並不要求按順序處理數據序列。換句話說,如果涉及的數據是自然語言,Transformer不必先處理好句子的開頭才處理句子的結尾。

然而,RNN解碼器在推理時間上仍然比Transformer中的解碼器要「快得多」。谷歌翻譯團隊認識到這一點,於是在將RNN解碼器與Transformer編碼器耦合之前,對RNN解碼器進行了優化,以創建低延遲、質量及穩定性均比此前所使用的RNN神經機器翻譯模型更勝一籌的混合模型。原來使用的RNN神經機器翻譯模型已有4年歷史。

2006年上線不久以來,谷歌翻譯模型各種語言的BLEU得分提升趨勢

除了打造新穎的混合模型架構之外,谷歌還升級了一個有幾十年歷史的爬蟲程序。該程序用來從文章、書籍、文檔和網絡搜索結果等內容中的數百萬條示例翻譯中編制訓練語料。該新數據挖掘器基於支持14個語言對的嵌入模式,而非基於詞典模式,也就是說它是使用實數向量來表示單詞和短語,更多地聚焦於精確性(檢索數據中的相關數據部分),而非檢索(實際檢索的相關數據總量)。產出效果方面,谷歌說這使得該數據挖掘器提取到的句子數量平均增加了29%。

噪聲數據和遷移學習

翻譯性能提升的另一來源是一種建模方法,它能更好地處理訓練數據中的噪聲。據觀察,噪聲數據(含有大量無法正確理解或解釋的信息的數據)會損害語料數據豐富的語言的翻譯質量。所以,谷歌翻譯團隊部署系統來給使用噪聲數據訓練的模型的示例打分,進而篩選出「純淨」的數據。實際上,這些模型一開始基於所有的數據進行訓練,然後逐漸基於更小、更純淨的數據子集進行訓練,這種方法在人工智慧研究領域被稱為課程學習。

對於資源較少的語言,谷歌在谷歌翻譯中採用了一個回譯機制,來強化並行訓練數據,即語言中的每個句子都與其譯文相配對。(機器翻譯傳統上依賴於源語言和目標語言成對句子的語料庫的統計。)在該機制中,訓練數據與合成的並行數據自動對齊,目標文本為自然語言,而源文本則由神經翻譯模型生成。結果是,谷歌翻譯充分利用更豐富的單語文本數據來訓練模型,谷歌稱這對提高翻譯流暢性特別有幫助。

谷歌地圖自帶的翻譯功能

谷歌翻譯現在還採用M4建模方法,即用一個單一的巨型模型――M4――來在多種語言和英語之間進行翻譯。(M4最初是在去年的一篇論文中提出的,該論文證明,在基於來自100多種語言的250億對句子進行訓練後,M4提高了30多種低資源語言的翻譯質量。)M4建模讓谷歌翻譯中的遷移學習成為可能,因此,通過基於法語、德語、西班牙語等高資源語言(它們有數十億條並行示例語料)的訓練獲得的見解,可以應用於低資源語言的翻譯,如約魯巴語、信德語和夏威夷語(它們只有數萬條示例)。

展望未來

谷歌稱,自2010年以來,按照BLEU標準(滿分100分,谷歌翻譯水平每年至少提高1分,但自動化機器翻譯的問題並沒有得到解決。谷歌承認,即使是它的增強模型,也會出現各種錯誤,如合併一種語言的不同方言,產生明顯的字面翻譯,以及在特定主題內容和非正式語言或口語上表現糟糕等等。

這家科技巨頭正想方設法來解決這一挑戰,包括藉助它的谷歌翻譯社區。該遊戲化項目招募志願者來翻譯單詞和短語或者檢查翻譯是否正確,藉助他們來提高低資源語言的翻譯質量。就在今年2月,結合新興的機器學習技術,該項目為谷歌翻譯增加了對總共7500萬人使用的五種語言的支持,包括基尼亞盧安達語、奧裡雅語、韃靼語、土庫曼語和維吾爾語。

谷歌並不是唯一一家追求真正通用的翻譯工具的公司。2018年8月,Facebook公布了一種人工智慧模型,該模型結合使用逐字翻譯、語言模型和回譯來超越語言配對系統。最近,麻省理工學院計算機科學和人工智慧實驗室的研究人員也提出了一種無監督學習模型――一種從沒有明確標記或分類的測試數據中學習的模型――它可以在沒有直接的雙語翻譯數據的情況下在兩種語言的文本之間進行翻譯。

谷歌在一份聲明中表示,它「非常感謝」學術界和產業界在機器翻譯領域的研究成果,其中一些研究為谷歌自身的項目帶來了啟發。「通過結合利用和拓展近期的各種技術進步,我們完成了谷歌翻譯最近的改進。」該公司說,「經過此次升級,我們很自豪能夠提供相對連貫的自動翻譯,哪怕是所支持的108種語言中語料資源最少的一種語言。」(樂邦)

責任編輯:張祖韜_NT5054

來源: 網易科技

相關焦點

  • 支持108種語言的谷歌翻譯如何用AI讓翻譯質量越來越好?
    谷歌表示,在提高語言翻譯的質量方面,已經取得了進展。在即將發表的博客文章中,該公司詳細介紹了新的創新技術,這些創新技術增強了Google翻譯(Google Translate)支持的108種語言(特別是數據貧乏的約魯巴語和馬拉雅拉姆語)的用戶體驗,該服務平均每天翻譯1500億個單詞。
  • 利用最新AI技術,谷歌提高機器翻譯質量
    過去一年間,通過利用針對總體質量,延遲以及整體推理速度的一系列技術組合,其BLEU翻譯質量平均又提高了5分多。Venturebeat的KYLE WIGGERS報導了相關的技術進展,原文標題是:How Google is using emerging AI techniques to improve language translation quality
  • AI翻譯能否取代人工翻譯?谷歌翻譯作為領頭羊,已經給出了答案
    AI翻譯一直是人工智慧領域關注較多和技術討論較多的方向,而在全球範圍內,谷歌的智能翻譯一直佔據的重要的地位,這有賴於谷歌對於翻譯的另類理解和技術提升,今天我們就來看看谷歌為了翻譯都做了什麼。
  • 谷歌AI推出端到端純語音翻譯技術,有望成為未來的「機器同傳」
    ,第二段是標準的人類英語翻譯,而第三段則是AI合成的英語翻譯,來自於谷歌 AI 最新的語音翻譯模型 Translatotron。該模型是一個基於注意力機制(Attention)的端到端語音翻譯神經網絡。
  • 在AI科學家、翻譯家眼裡,谷歌翻譯其實沒那麼神?
    1 谷歌發布了谷歌神經機器翻譯(GNMT:Google Neural Machine Translation)系統,將機器翻譯誤差降低了 55%-85% 以上。可以認為谷歌神經機器翻譯系統是一項顛覆性的突破嗎?
  • 機器翻譯技術至今經歷了哪些階段?又有著怎樣的工作原理?
    於是有人就想到了藉助機器來解決這個問題。機器翻譯發展歷程開創階段·1933年,法國的一位工程師提出了機器翻譯的設想,還獲得一項翻譯機專利;·1954年,美國喬治敦大學首次完成了機器翻譯試驗,正式拉開了機器翻譯研究的序幕。
  • 不用輸入就能翻譯的翻譯器!谷歌翻譯推新功能 拍照即可識別
    谷歌翻譯推新功能 拍照即可識別 2019年07月11日 19:50作者:張萌編輯:李芹文章出處:泡泡網原創   7月11日消息,據外媒phonearena報導,谷歌翻譯APP近期推出了一項新功能
  • 《集異璧》作者侯世達瘋狂吐槽谷歌翻譯:AI替代人類譯者為時尚早
    新智元推薦 來源:心智與實在編輯:小奇【新智元導讀】科普神人侯世達懷疑谷歌翻譯是否成為替代人類譯者的顛覆者,以英語、法語、德語和中文進行測試,最後得出結論:「谷歌翻譯」和相關技術的實用性是毋庸置疑的,總體而言也是很好的工具。但它在技術方法上還是極度欠缺一種東西,一言以蔽之:理解力。
  • 機器翻譯:谷歌翻譯是如何對幾乎所有語言進行翻譯的?
    全文共13204字,預計學習時長34分鐘谷歌翻譯大家想必都不陌生,但你有沒有想過,它究竟是如何將幾乎所有的已知語言翻譯成我們所選擇的語言?本文將解開這個謎團,並且向各位展示如何用長短期記憶網絡(LSTM)構建語言翻譯程序。
  • 谷歌翻譯對《我的世界》有多大破壞力?看翻譯的內容就知道了
    這些軟體都是我們耳熟能詳的,比如說谷歌翻譯。我的世界被谷歌翻譯,其實傷害的很大。但是又由於谷歌翻譯的影響力,讓我的世界讓更多人知道。因為谷歌翻譯翻譯我的世界,這款遊戲出現非常多的么蛾子。就從這張圖片我們就可以簡單地說一下,這是我的世界中的一個食物,卻被翻譯成了加拿大季節。
  • 程式設計師藉助AI,用500多種語言翻譯...
    求助於翻譯軟體?以目前世界上適用範圍最廣的谷歌翻譯來說,現在只能支持100多種語言,也是現存語言的零頭。像WHO發布的這種關於全球疫情的消息,肯定是希望能夠覆蓋到更多的人,但是目前很多地區面臨語言障礙而導致信息的傳播受阻,哪怕只是想告訴人們要勤洗手。
  • Jeff Dean親筆盤點谷歌AI 2019:日均2篇論文,縱橫16大方向
    從基礎研究開始,到技術在新興領域的應用,再到展望2020。雖然匯報格式沒有變化,但人工智慧技術,又往前邁出了一大步。Jeff Dean總結了16個大方面的AI成果,並透露全年AI論文發表數達754篇,平均每天都有2篇論文發表。
  • 「苟富貴勿相忘」翻譯後,谷歌:沒錢的人總會被遺忘
    相信不少人還記得中學的時候全文背誦《陳涉世家》的痛苦,當然還有考試的時候讓你翻譯某一句名言,像是「燕雀安知鴻鵠之志哉」,或者「天下苦秦久矣。吾聞二世少子也,不當立,當立者乃公子扶蘇」。 如今,隨著AI技術的成熟,機器也逐漸在學習如何以人類的方式行動和思考。
  • B站「不靠譜」翻譯大賽:機器翻譯,還遠不能取代人工翻譯
    在國內知名的彈幕視頻網站bilibili上,很多up主上傳了令人啼笑皆非的機器翻譯視頻。網友們把一些影視劇、動漫或者其他著名場面中的臺詞用谷歌翻譯重新加工。如果只是翻譯一遍的話,可能效果還不理想——它們錯得還不夠精彩。於是,網友們把谷歌翻譯的結果再翻譯成第三種語言,然後再翻譯成第四種語言,最後再用谷歌翻譯回中文。
  • 提高翻譯專碩質量 傳遞中國好聲音
    進入新時代,中國的國家戰略,無論是積極參與全球治理、文明交流互鑑,還是講述中國故事、傳播中國聲音,都需要大量優秀的翻譯人才。目前,翻譯人才培養主要依託翻譯專業碩士學位教育。如何提高翻譯專業碩士的培養質量是一個值得思考的問題。筆者想從一線教師的視角談幾點自己的想法。
  • 機器翻譯正走入現實生活 未來還需要人工翻譯嗎?
    多虧了機器翻譯這個技術奇蹟,我把這本用西裡爾字母寫成的書的數字版上傳到了一個免費在線翻譯網站,得到了一個英文版本:一個令人驚訝的、不完美的、充斥著語法錯誤的版本,但完全可以看得懂。這就像跟能說兩種語言的9歲孩子一起閱讀。語言障礙正被擊破將人類分隔開來的語言屏障尚未倒塌,但卻正以驚人的速度被擊破,對全球交流、小語種的命運以及商業和外交的未來產生了巨大的影響。
  • 谷歌翻譯相機實時翻譯功能現增加至88種語言
    當你出國旅遊遇到不認識的菜單、路牌等時候,你只需要掏出手機打開谷歌翻譯然後用相機對準這些不認識的文本,它就會告訴你是什麼意思了。此前這項功能僅限於英語、漢語等部分語言之間的實時相互翻譯,不過谷歌現在宣布通過相機的實時翻譯功能可以支持100多種語言的輸出。
  • 谷歌翻譯App更新 實時相機翻譯加入日語與英文的即時互譯
    據外媒報導,谷歌最近發布了
  • 谷歌推出古埃及象形文字翻譯工具 Fabricius
    7 月 15 日消息,今天,谷歌藝術與文化今天推出了全球首個基於機器學習的埃及象形文字的數字翻譯工具 Fabricius。不管是普通人還是學者都能利用這個工具體驗象形文字,或者助力學術 研究。
  • 最強翻譯?Facebook AI可以直接翻譯100種語言
    近日,Facebook 宣稱已經開發出一種人工智慧翻譯系統,能夠在 100 種語言之間進行精確翻譯,而不需要像許多現有 AI 翻譯那樣先翻譯成英語在翻譯成目標語言。圖 | 新翻譯系統使 Facebook 每天能做 200 億份翻譯任務(來源:incamerastock / Alamy)在學術機構用來自動評估機器翻譯質量的 100 分制中,該人工智慧的表現比同類翻譯系統高出 10 分。該模型的翻譯也由人類進行了翻譯評估,其準確率約為 90%。