利用最新AI技術 谷歌提高機器翻譯質量

2020-12-11 手機鳳凰網

編者按:Google Translate是全球最流行的翻譯服務之一,目前支持108種語言的互譯,每天翻譯的單詞量達到1500億。過去一年間,通過利用針對總體質量,延遲以及整體推理速度的一系列技術組合,其BLEU翻譯質量平均又提高了5分多。Venturebeat的KYLE WIGGERS報導了相關的技術進展,原文標題是:How Google is using emerging AI techniques to improve language translation quality

劃重點

Google Translate支持108種語言互譯,每日翻譯的單詞量達到1500億

經過運用一系列技術之後,2019年5月至2020年5月期間,Translate的翻譯表現平均提高了5分或更多

Transformer編碼器+RNN解碼器+爬蟲升級為翻譯質量提升做出了貢獻

課程學習對噪聲數據進行了更好的處理

Google Translate Community將是Google Translate重要的助手

Google近日表示,自己在提高沒有大量書面文字的語言的翻譯質量方面已經取得了進展。在一篇即將發表的博客文章裡面,該公司詳細介紹了自己新的創新技術。這些創新技術增強了目前Google Translate所支持的108種語言(尤其是缺乏數據的語言,如約魯巴語和馬拉雅拉姆語)的用戶體驗。據稱,Google的這項服務平均每天翻譯的單詞量達到1500億。

自Google Translate首次公開亮相以來的這13年間,神經機器翻譯,基於重寫的範式以及設備處理等技術已經讓該平臺翻譯的準確性出現了可量化的飛躍。但是直到最近,哪怕是Translate最新的算法也落後於人類的表現。Google之外的努力說明了該問題的量級——旨在讓非洲大陸上數千種語言能夠自動翻譯的Masakhane 項目,目前仍未擺脫數據收集和轉錄的階段。自2017年6月發布以來,Mozilla為構建轉錄語音的開源數據集所做的努力Common Voice,至今也僅審核了40種語音。

Google表示,其翻譯突破並不是由單一技術推動的,相反,那是針對低資源語言,高資源語言,總體質量,延遲以及整體推理速度的一系列技術的組合。2019年5月至2020年5月期間,經過人工評估和BLEU(一種基於系統翻譯與人工參考翻譯之間相似性的指標)進行衡量之後,發現Translate的表現為在所有語言當中平均提高了5分或更多,在50種最低資源水平的語言的翻譯平均提高了7分或更多。此外,Google表示,翻譯在面對機器翻譯幻覺時已經變得更加健壯。(註:機器翻譯幻覺是一種特殊的現象,當AI模型被賦予怪異輸入時會產生這種現象,比方說「Shenzhen Shenzhen Shaw International Airport (SSH)」的泰盧固語文字為「ష ష ష ష ష ష ష ష ష ష ష ష ష ష ష」,意思是「Sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh」)。

混合模型與數據爬蟲

這些技術裡面首當其衝的是一種翻譯模型架構,這是一種混合型的架構,包含了一個Transformer編碼器以及一個遞歸神經網絡(RNN)解碼器,用針對時序建模的TensorFlow框架Lingvo實現。

在機器翻譯裡面,編碼器的工作通常是將單詞和短語編碼為內部表示,然後解碼器將其用來生成所需語言的文本。2017年,Google相關研究人員首次提出,在這方面基於Transformer的模型要比RNN更為有效,但Google表示,其工作表明,所獲得的大部分質量提升僅來自於Transformer的一個組件:編碼器。原因可能是因為雖然RNN和Transformer都被設計為處理有序數據序列,但是Transformers並不需要按順序來處理序列。換句話說,如果所討論的數據是自然語言的話,則Transformer無需在處理結尾之前先得處理句子的開頭。

儘管如此,在推理時,RNN解碼器仍比Transformer當中的解碼器「快得多」。在意識到這一點之後,Google Translate團隊在開始優化RNN解碼器,然後再與Transformer的編碼器進行結合,從而創建出比四年前基於RNN的神經機器翻譯模型延遲更低,質量更高,更穩定的混合模型,並替換了後者。

自2006年成立以來,Google翻譯模型的BLEU得分情況

除了新穎的混合模型體系結構之外,Google還升級了自己已經使用了幾十年,用來從數百萬對文章、書本、文檔以及web搜索結果的示例翻譯中編譯訓練數據集的爬蟲。這位新的數據爬蟲(針對14種大型語言對採用嵌入式而不是字典式,意味著它利用的是實數向量來表示單詞短語)更加注重精確度(相關數據在檢索到的數據中所佔的比例)而不是回憶(相關數據總量在實際檢索到的數據中的佔比)。Google表示,在生產環境下,這讓爬蟲析取的句子數平均增加了29%。

噪聲數據與遷移學習

另一項翻譯性能提升來自於一種建模方法,這種方法對訓練數據中的噪聲進行了更好的處理。因為觀察到噪聲數據(含有大量無法正確理解或解釋的信息的數據)會損害數據豐富的語言的翻譯,因此Google的翻譯團隊部署了一個系統,利用經過噪聲數據訓練的模型來對例子進行打分,然後對「清洗」後的數據進行調整。基本上,這些模型一開始利用所有的數據進行訓練,然後逐步用規模小一點乾淨一點的子集進行訓練,這種方法在AI研究社區裡面被稱為課程學習(curriculum learning)。

針對資源匱乏的語言,Google在Translate裡面實現了反向翻譯方案,給翻譯添加了並行訓練數據,讓被翻譯語言的每個句子都跟翻譯進行配對。(機器翻譯傳統上依賴於源語言目標語言配對句子語料集源的統計數據。)在這種方案中,訓練數據會自動跟合成的並行數據進行匹配,從而保證目標文本是自然語言,但源語言則通過神經翻譯模型生成。其結果是Translate利用了更豐富的單一語言文本數據來訓練模型,Google表示這對於提高流利性特別有用。

帶Translate功能的Google Maps

Translate現在還利用了M4建模,用一個大型模型M4實現多種語言與英語之間的互譯。(去年的一篇論文裡面首次提出了M4,證明在利用100多種語言的250億對句子對進行訓練之後,M4可提高30多種低資源語言的翻譯質量。)M4建模令Translate裡面的遷移學習成為可能,通過對包括法語,德語和西班牙語(有數十億個並行示例)等高資源語言的訓練收集而來的洞察,可以應用到諸如約魯巴語,信德語和夏威夷語(僅有數萬個示例)等低資源語言的翻譯當中。

展望未來

根據Google的說法,自2010年以來,Google Translate每年至少都提高了1個BLEU點,但是自動機器翻譯絕對還算不上已解決的問題。Google承認,即使是其增強的模型也容易出錯,包括會將一種語言的不同方言混淆,產生過多的直譯,在特定題材和非正式或口頭語言的翻譯上表現不佳等。

該科技巨頭正常是多管齊下解決這一問題,包括通過它的Google Translate Community,這個遊戲化的計劃招募了一批志願者,讓他們翻譯單詞短語或者檢查翻譯是否正確來幫助改進低資源語言翻譯的性能。今年1月,該計劃在各種新興機器學習技術的合作下,又為Translate增加了5種為7500萬人使用的語言的翻譯:其中包括盧安達語(Kinyarwanda),奧裡亞語(Odia),韃靼語(Tatar),土庫曼語(Turkmen)以及維吾爾語。

追求真正通用翻譯這一目標的並不只有Google。2018年8月,Facebook就披露了一種結合了逐詞翻譯,語言模型和反向翻譯的AI模型,這種模型在表現要優於語言配對系統。最近,麻省理工學院計算機科學與人工智慧實驗室的研究人員提出了一種無監督模型(即可以從未經明確標記或分類的測試數據當中學習的模型),這種模型可以在沒有直接翻譯數據的情況下對兩種語言的文本進行互譯。

在一份聲明中,Google婉轉地對 「學術界和業界」的機器翻譯研究表示了「感謝」,稱其中一些對自己的工作起到了促進作用。該公司表示:「我們通過綜合和擴展了各種最新進展來實現[Google Translate 最近的改進]。通過此次更新,我們為能提供相對一致的自動翻譯而感到自豪,這種一致性甚至體現在我們所支持的108種語言當中資源最少的的語言翻譯上。」

譯者:boxi。

相關焦點

  • 谷歌揭秘自家翻譯系統:如何利用AI技術提高翻譯質量
    對於機器翻譯來說,如果一門語言可用的文字資料越多,經過人工智慧模型訓練出來的翻譯效果就越好。但並不是所有語言都具備豐富可用訓練的文字資料,這樣一來,如何在數據不多的情況下,訓練出更好的翻譯器,成為機器翻譯領域裡需要解決的問題之一。  近日,谷歌在自己的博客上介紹了公司最新的翻譯創新技術,這些技術提升了谷歌翻譯的用戶體驗。
  • 谷歌翻譯是如何藉助多項新興AI技術提高翻譯質量的
    ,它已在提高沒有大量書面文本語料的語言的翻譯質量上取得了進展。谷歌稱,它在翻譯領域所取得的突破並不是由單一技術驅動的,而是針對低資源語言、高資源語言、總體質量、延遲和整體推理速度的多項技術共同作用產生的。在2019年5月到2020年5月之間,根據人工評估和BLEU(基於翻譯系統翻譯和人工參考翻譯之間相似性的衡量標準),谷歌翻譯在所有語言中平均提高了5分以上,在50種語料資源最少的語言中平均提高了7分以上。
  • 揭秘谷歌翻譯:如何藉助多項新興 AI 技術提高翻譯質量
    6月6日消息,據國外媒體報導,谷歌表示,它已在提高沒有大量書面文本語料的語言的翻譯質量上取得了進展。在一篇即將正式發表的博客文章中,該公司詳細介紹了助力提升谷歌翻譯(Google Translate)所支持的108種語言翻譯質量的新創新技術(特別是缺乏語料數據的約魯巴語和馬拉雅拉姆語)。
  • 支持108種語言的谷歌翻譯如何用AI讓翻譯質量越來越好?
    谷歌表示,在提高語言翻譯的質量方面,已經取得了進展。自谷歌翻譯首次公開亮後的13年間,諸如神經機器翻譯、基於重寫的範例和本地處理之類的技術使該平臺的翻譯準確性有了可量化的飛躍。但是直到最近,翻譯的最新算法表現也落後於人類。
  • 能犧牲大語種、提升小語種翻譯質量的谷歌多語言機器翻譯
    —— Warren Weaver, 1949尋找新的挑戰過去幾年中,得益於神經機器翻譯(NMT)技術的流行,機器翻譯的質量越來越高。不過神經機器翻譯的成功也同時依賴於大量的有監督訓練數據。所以對於只能找到很少標註數據、甚至找不到標註數據的語言要怎麼處理呢?
  • 谷歌發布神經機器翻譯:翻譯質量接近筆譯人員
    據外媒報導,谷歌於昨日發布了網頁版和移動版的谷歌翻譯。在漢譯英的過程中,會採用全新的神經機器翻譯,而這個App每天要進行一千八百萬次這樣的翻譯。此外,谷歌針對這個翻譯系統的運作原理,發表了一篇學術論文。早前,谷歌就曾表示它們在谷歌翻譯中運用了神經網絡技術,但只限於實時視覺翻譯這個功能。
  • 機器翻譯裡程碑!谷歌上線Zero-Shot翻譯系統
    「中介語言」(Interlingua)--人工智慧技術  所謂神經網絡技術實際上就是讓機器和算法能夠儘量像人的大腦那樣思考和運算。谷歌翻譯的最新進展表明,人工智慧可以在許多方面超過人腦。谷歌人工智慧技術已經實現在沒有預先進行針對訓練的情況下翻譯語言對。換句話說,也就是可以不經學習就在不同語言間進行翻譯。
  • 谷歌發布神經機器翻譯,翻譯質量接近筆譯人員
    據外媒報導,谷歌於昨日發布了網頁版本和移動版本的谷歌翻譯。在漢譯英的過程中,谷歌翻譯會採用全新的神經機器翻譯機制,而這個App每天要進行一千八百萬次這樣的翻譯。此此外,谷歌針對這個神經機器翻譯系統的運作原理,專門發表了一篇學術論文。早前,谷歌就曾表示過,他們在谷歌翻譯中運用了神經網絡技術,但只限於實時視覺翻譯這個功能。前段時間,谷歌一名叫Jeff Dean的高級員工曾經告訴VentureBeat,谷歌已經在嘗試把越來越多的深度學習功能和機制融入到谷歌翻譯中。
  • 谷歌翻譯高勤:神經網絡技術將主導機器翻譯的未來
    谷歌翻譯研發科學家高勤  中國網科技7月11日訊 谷歌翻譯研發科學家高勤在今天舉行的中國網際網路大會上介紹稱,谷歌翻譯在神經網絡機器翻譯技術上已經取得重要進展,並同時對機器翻譯技術在未來當中實際應用。他表示:「神經網絡機器翻譯和非專業人工翻譯已經相當接近,對於中英文互譯也取得最大提升。」  高勤在大會上稱,神經網絡翻譯技術與傳統翻譯技術有很大不同。傳統機器翻譯技術是基於短語統計機器翻譯拼圖過程,嘗試找出較好翻譯選項,而神經網絡機器學習屬於利用雲語言與目標語言信息,使整各翻譯過程變得連續且完整。
  • 谷歌同志是位好「翻譯」!
    截至2020年6月,谷歌翻譯共支持109種不同的語言,每天5億多用戶總共貢獻1,500億個字詞的天量翻譯。谷歌翻譯的進化2006年4月28日,谷歌翻譯的統計機器翻譯(Statistical Machine Translation,SMT)服務推出,利用聯合國和歐洲議會的文件和筆錄收集語言數據。
  • 谷歌AI推出端到端純語音翻譯技術,有望成為未來的「機器同傳」
    ,第二段是標準的人類英語翻譯,而第三段則是AI合成的英語翻譯,來自於谷歌 AI 最新的語音翻譯模型 Translatotron。該模型是一個基於注意力機制(Attention)的端到端語音翻譯神經網絡。
  • 機器翻譯的最新進展與瓶頸所在
    谷歌翻譯主要是採用統計翻譯模型,往計算器內輸入大量的文字文本,包括源語言的文本,以及對應目標語言人工翻譯的文本,通過海量統計數據來提高翻譯精確度。  之所以採用統計翻譯模型,一個重要原因是,谷歌翻譯採用了雲計算架構。
  • 谷歌機器翻譯取得顛覆性突破 到底幾分真假?
    最近,做機器翻譯的同志們一打開朋友圈,猛然發現好像飯碗沒了,谷歌爸爸大力出奇蹟,提高了機器翻譯87%的水平。結果打開人家原文一看,原來虛驚一場,只是現有工作的整合,一篇完美的工程論文,並沒有新的模型提出。不禁長舒一口氣,呼~飯碗還在。呼~到底火遍朋友圈的那篇文章「谷歌機器翻譯取得顛覆性突破,錯誤率下降87%」到底幾分真幾分假呢?
  • 【重磅】谷歌發布 Zero-Shot 神經機器翻譯系統:AI 巴別塔有望成真
    神經網絡改革了許多領域,我們確信可以進一步提高翻譯質量,但這樣做意味著重新思考谷歌翻譯背後的技術。今年 9 月,谷歌翻譯改為啟用谷歌神經機器翻譯(GNMT)的新系統,這是一個端到端的學習框架,可以從數百萬個示例中學習,並在翻譯質量方面有顯著提升。不過,雖然啟用 GNMT 的幾種語言翻譯質量得到了提升,但將其擴展到所有 103 種穀歌翻譯支持的語種,卻是一個重大的挑戰。
  • 谷歌翻譯困境破局:AI不是人,為什麼也會有性別偏見?
    圖片來源:Hacker Noon 今年4月22日,Google AI Blog(Google AI業務新聞博客)發表了最新的文章,宣布Google Translate使用了優化升級的AI技術,進一步減少了翻譯中出現的性別偏見現象,且拓展性較原方案更強,目前已經可以支持英語與西班牙語、芬蘭語、匈牙利語以及波斯語的翻譯場景。
  • 三千年前的古文字被 AI 破譯,MIT和谷歌開發失傳語言的機器翻譯系統
    通過機器學習繪製特定語言的聯結不難想像,近年來機器翻譯的最新進展對此有所幫助。短短幾年內,注釋資料庫和讓機器從中學習的技術讓語言學習發生了革命性變化,這使得機器翻譯變得越來越普遍。儘管翻譯質量有待提高,但這也提供了思考語言的一個全新角度。
  • 2016:AI改變的不僅僅是谷歌翻譯,還有程式設計師的飯碗
    它也可以識別你對你的安卓手機提出的問題,或者幫助運行谷歌的搜尋引擎。類似人類大腦中的神經元網絡,這種廣泛的數學模型通過分析海量的數字數據來學習這些技能。如今,珀斯默多克大學的海洋生物學家Hodgson,使用相同的技術來在成千上萬張開放水域的照片中尋找儒艮,並且都利用了相同的開源軟體——谷歌的TensorFlow。
  • 機器翻譯的前世今生
    機器翻譯,簡稱「機譯」,是利用計算機實現從一種自然語言(源語言)文本到另一種或多種自然語言(目標語言)文本的翻譯;而用以翻譯的軟體叫做機譯系統。機譯涉及語言學、計算機科學、認知科學、數學等多個學科,是一門前沿交叉學科。這一充滿挑戰的研究領域,被列為21世紀世界十大科技難題的第一位。
  • Google翻譯將離線翻譯質量提高了20%
    今天下午,山景城科技巨頭宣布其免費的多語言機器翻譯服務Translate現在更加強大。在離線情況下,翻譯準確性在某些情況下提高了幾倍。在Android和iOS上的Translate離線支持的59種語言中,現在的準確性提高了12%,並且單詞選擇,語法和句子結構得到了增強。對於某些語言,包括日語,韓語,泰語,波蘭語和印地語,質量提高超過20%。
  • 谷歌翻譯研發科學家高勤:利用機器學習消除語言障礙
    DoNews7月12日消息(記者 白媛媛)谷歌翻譯研發家高勤在2017中國網際網路大會上進行了演講並總結了谷歌翻譯最近一年取得的進展及谷歌的目標——利用機器學習消除語言障礙。高勤指出,經過11年的發展,谷歌翻譯已經成為一個全球性的產品,月度活躍用戶超過10億人次,其中95%來自於美國以外地區。