谷歌翻譯是如何藉助多項新興AI技術提高翻譯質量的

2020-12-03 同花順財經

網易科技訊6月6日消息,據國外媒體報導,谷歌表示,它已在提高沒有大量書面文本語料的語言的翻譯質量上取得了進展。在一篇即將正式發表的博客文章中,該公司詳細介紹了助力提升谷歌翻譯(Google Translate)所支持的108種語言翻譯質量的新創新技術(特別是缺乏語料數據的約魯巴語和馬拉雅拉姆語)。

谷歌翻譯服務平均每天翻譯1500億個單詞。

自谷歌翻譯首次亮相以來的13年裡,神經機器翻譯、基於重寫的範式和設備端處理等技術的出現和改進,助力該平臺的翻譯準確性取得不小的飛躍。但直到近年,即便是最先進的翻譯支持算法也一直落後於人類的表現。谷歌以外的努力充分說明了這個問題的嚴重性――旨在使得非洲大陸的數千種語言可自動翻譯的Masakhane項目,至今還沒有走出數據收集和轉錄階段。Mozilla致力於建立一個開源的語音轉錄數據收集平臺Common Voice,自2017年6月推出以來也只審查了40種語音。

谷歌稱,它在翻譯領域所取得的突破並不是由單一技術驅動的,而是針對低資源語言、高資源語言、總體質量、延遲和整體推理速度的多項技術共同作用產生的。在2019年5月到2020年5月之間,根據人工評估和BLEU(基於翻譯系統翻譯和人工參考翻譯之間相似性的衡量標準),谷歌翻譯在所有語言中平均提高了5分以上,在50種語料資源最少的語言中平均提高了7分以上。

混合模型和數據挖掘器

這些技術中的第一個是轉換模型架構――一種混合架構,包括一個Transformer編碼器和一個用Lingvo實現的遞歸神經網絡(RNN)解碼器,後者是一個用於序列建模的TensorFlow框架。

在機器翻譯中,編碼器通常將單詞和短語編碼為內部表示形式,然後由解碼器生成目標語言的文本。基於Transformer的模型是谷歌研究人員在2017年首次提出的,在這一點上它比RNN更有效,但谷歌表示,它的研究表明,翻譯質量的提高主要來自Transformer的一個部件:編碼器。這可能是因為雖然RNN和Transformer都是為處理有序的數據序列而設計的,但後者並不要求按順序處理數據序列。換句話說,如果涉及的數據是自然語言,Transformer不必先處理好句子的開頭才處理句子的結尾。

然而,RNN解碼器在推理時間上仍然比Transformer中的解碼器要「快得多」。谷歌翻譯團隊認識到這一點,於是在將RNN解碼器與Transformer編碼器耦合之前,對RNN解碼器進行了優化,以創建低延遲、質量及穩定性均比此前所使用的RNN神經機器翻譯模型更勝一籌的混合模型。原來使用的RNN神經機器翻譯模型已有4年歷史。

2006年上線不久以來,谷歌翻譯模型各種語言的BLEU得分提升趨勢

除了打造新穎的混合模型架構之外,谷歌還升級了一個有幾十年歷史的爬蟲程序。該程序用來從文章、書籍、文檔和網絡搜索結果等內容中的數百萬條示例翻譯中編制訓練語料。該新數據挖掘器基於支持14個語言對的嵌入模式,而非基於詞典模式,也就是說它是使用實數向量來表示單詞和短語,更多地聚焦於精確性(檢索數據中的相關數據部分),而非檢索(實際檢索的相關數據總量)。產出效果方面,谷歌說這使得該數據挖掘器提取到的句子數量平均增加了29%。

噪聲數據和遷移學習

翻譯性能提升的另一來源是一種建模方法,它能更好地處理訓練數據中的噪聲。據觀察,噪聲數據(含有大量無法正確理解或解釋的信息的數據)會損害語料數據豐富的語言的翻譯質量。所以,谷歌翻譯團隊部署系統來給使用噪聲數據訓練的模型的示例打分,進而篩選出「純淨」的數據。實際上,這些模型一開始基於所有的數據進行訓練,然後逐漸基於更小、更純淨的數據子集進行訓練,這種方法在人工智慧研究領域被稱為課程學習。

對於資源較少的語言,谷歌在谷歌翻譯中採用了一個回譯機制,來強化並行訓練數據,即語言中的每個句子都與其譯文相配對。(機器翻譯傳統上依賴於源語言和目標語言成對句子的語料庫的統計。)在該機制中,訓練數據與合成的並行數據自動對齊,目標文本為自然語言,而源文本則由神經翻譯模型生成。結果是,谷歌翻譯充分利用更豐富的單語文本數據來訓練模型,谷歌稱這對提高翻譯流暢性特別有幫助。

谷歌地圖自帶的翻譯功能

谷歌翻譯現在還採用M4建模方法,即用一個單一的巨型模型――M4――來在多種語言和英語之間進行翻譯。(M4最初是在去年的一篇論文中提出的,該論文證明,在基於來自100多種語言的250億對句子進行訓練後,M4提高了30多種低資源語言的翻譯質量。)M4建模讓谷歌翻譯中的遷移學習成為可能,因此,通過基於法語、德語、西班牙語等高資源語言(它們有數十億條並行示例語料)的訓練獲得的見解,可以應用於低資源語言的翻譯,如約魯巴語、信德語和夏威夷語(它們只有數萬條示例)。

展望未來

谷歌稱,自2010年以來,按照BLEU標準(滿分100分,谷歌翻譯水平每年至少提高1分,但自動化機器翻譯的問題並沒有得到解決。谷歌承認,即使是它的增強模型,也會出現各種錯誤,如合併一種語言的不同方言,產生明顯的字面翻譯,以及在特定主題內容和非正式語言或口語上表現糟糕等等。

這家科技巨頭正想方設法來解決這一挑戰,包括藉助它的谷歌翻譯社區。該遊戲化項目招募志願者來翻譯單詞和短語或者檢查翻譯是否正確,藉助他們來提高低資源語言的翻譯質量。就在今年2月,結合新興的機器學習技術,該項目為谷歌翻譯增加了對總共7500萬人使用的五種語言的支持,包括基尼亞盧安達語、奧裡雅語、韃靼語、土庫曼語和維吾爾語。

谷歌並不是唯一一家追求真正通用的翻譯工具的公司。2018年8月,Facebook公布了一種人工智慧模型,該模型結合使用逐字翻譯、語言模型和回譯來超越語言配對系統。最近,麻省理工學院計算機科學和人工智慧實驗室的研究人員也提出了一種無監督學習模型――一種從沒有明確標記或分類的測試數據中學習的模型――它可以在沒有直接的雙語翻譯數據的情況下在兩種語言的文本之間進行翻譯。

谷歌在一份聲明中表示,它「非常感謝」學術界和產業界在機器翻譯領域的研究成果,其中一些研究為谷歌自身的項目帶來了啟發。「通過結合利用和拓展近期的各種技術進步,我們完成了谷歌翻譯最近的改進。」該公司說,「經過此次升級,我們很自豪能夠提供相對連貫的自動翻譯,哪怕是所支持的108種語言中語料資源最少的一種語言。」(樂邦)

責任編輯:張祖韜_NT5054

來源: 網易科技

相關焦點

  • 揭秘谷歌翻譯:如何藉助多項新興 AI 技術提高翻譯質量
    6月6日消息,據國外媒體報導,谷歌表示,它已在提高沒有大量書面文本語料的語言的翻譯質量上取得了進展。在一篇即將正式發表的博客文章中,該公司詳細介紹了助力提升谷歌翻譯(Google Translate)所支持的108種語言翻譯質量的新創新技術(特別是缺乏語料數據的約魯巴語和馬拉雅拉姆語)。
  • 谷歌揭秘自家翻譯系統:如何利用AI技術提高翻譯質量
    來源:澎湃新聞原標題:谷歌揭秘自家翻譯系統:如何利用AI技術提高翻譯質量對於機器翻譯來說,如果一門語言可用的文字資料越多,經過人工智慧模型訓練出來的翻譯效果就越好。但並不是所有語言都具備豐富可用訓練的文字資料,這樣一來,如何在數據不多的情況下,訓練出更好的翻譯器,成為機器翻譯領域裡需要解決的問題之一。近日,谷歌在自己的博客上介紹了公司最新的翻譯創新技術,這些技術提升了谷歌翻譯的用戶體驗。目前谷歌翻譯可支持108種語言,平均每天翻譯1500億個單詞。
  • 支持108種語言的谷歌翻譯如何用AI讓翻譯質量越來越好?
    谷歌表示,在提高語言翻譯的質量方面,已經取得了進展。在即將發表的博客文章中,該公司詳細介紹了新的創新技術,這些創新技術增強了Google翻譯(Google Translate)支持的108種語言(特別是數據貧乏的約魯巴語和馬拉雅拉姆語)的用戶體驗,該服務平均每天翻譯1500億個單詞。
  • 利用最新AI技術,谷歌提高機器翻譯質量
    過去一年間,通過利用針對總體質量,延遲以及整體推理速度的一系列技術組合,其BLEU翻譯質量平均又提高了5分多。Venturebeat的KYLE WIGGERS報導了相關的技術進展,原文標題是:How Google is using emerging AI techniques to improve language translation quality
  • 利用最新AI技術 谷歌提高機器翻譯質量
    編者按:Google Translate是全球最流行的翻譯服務之一,目前支持108種語言的互譯,每天翻譯的單詞量達到1500億。過去一年間,通過利用針對總體質量,延遲以及整體推理速度的一系列技術組合,其BLEU翻譯質量平均又提高了5分多。
  • 谷歌同志是位好「翻譯」!
    在谷歌即將發表的一篇博文中,詳細介紹了一些新的創新,這些創新可以讓包括約魯巴語(Yoruba)和馬來亞拉姆語(Malayalam)這樣十分冷門的語言翻譯變得更加準確到位,改善使用這些語言的用戶的體驗。谷歌表示,其翻譯突破並非由單一技術驅動,而是針對少文本資源語言、富文本資源語言、總體質量、延遲和整體推理速度的技術組合。
  • Google翻譯將離線翻譯質量提高了20%
    今天下午,山景城科技巨頭宣布其免費的多語言機器翻譯服務Translate現在更加強大。在離線情況下,翻譯準確性在某些情況下提高了幾倍。在Android和iOS上的Translate離線支持的59種語言中,現在的準確性提高了12%,並且單詞選擇,語法和句子結構得到了增強。對於某些語言,包括日語,韓語,泰語,波蘭語和印地語,質量提高超過20%。
  • AI翻譯能否取代人工翻譯?谷歌翻譯作為領頭羊,已經給出了答案
    AI翻譯一直是人工智慧領域關注較多和技術討論較多的方向,而在全球範圍內,谷歌的智能翻譯一直佔據的重要的地位,這有賴於谷歌對於翻譯的另類理解和技術提升,今天我們就來看看谷歌為了翻譯都做了什麼。而AI翻譯並不具備這個思考的過程,如果一門語言可用的文字資料越多,經過人工智慧模型訓練出來的翻譯效果就越好。但是這是最理想的狀態,谷歌的特別之處就是,如何在數據不多的情況下,訓練出更好的翻譯器。
  • 對比人工翻譯及自然語言處理翻譯,ai翻譯存在哪些優勢?
    ai的核心問題是如何「產生」,不管是imagenet還是svd,都是一種「訓練」過程,這種練習的價值基於特徵提取完成後對目標的預測。那麼這些特徵能不能「產生」呢?根據經驗,是的。學習的方式可以參考:可以參考一下阿里的ai翻譯技術!在ai技術的未來是翻譯機還是翻譯官?阿里技術專家李天龍表示,「翻譯領域的ai很早就在做了,其實我們是始於語言智能的概念,在那個時候還有參會人,北京的全球翻譯這些事情,雖然進展不大,但是是個好的機會。」
  • 能犧牲大語種、提升小語種翻譯質量的谷歌多語言機器翻譯
    「也許語言翻譯的奧妙,就在於從每種語言往下挖掘,一直挖到人類溝通的共同基礎——那種真實存在但是尚未被發現的通用語言——然後從那裡重新衍生出方便的具體路徑。」 —— Warren Weaver, 1949尋找新的挑戰過去幾年中,得益於神經機器翻譯(NMT)技術的流行,機器翻譯的質量越來越高。不過神經機器翻譯的成功也同時依賴於大量的有監督訓練數據。
  • 英媒:谷歌翻譯越來越聰明 可不再藉助中間語言
    據英國《新科學家》周刊網站11月30日報導,傳統的機器翻譯系統把句子拆分為單詞和短語,然後分別加以翻譯。今年9月,谷歌翻譯公布了一個利用神經網絡一次性對整句句子下功夫的新系統,使系統得到更多語境來計算出最佳的譯法。這一系統目前在用於處理谷歌翻譯提供服務的8組最常用的語言對之間的互譯。
  • 谷歌正在開發一種使用自己聲音的翻譯AI
    谷歌正在開發一種可以用你自己的聲音講另一種語言的人工智慧。在谷歌博客中,人工智慧被恰當地命名為Translatotron,被描述為一種端到端、語音到語音的翻譯模型。它的新穎之處在於它避開了通常的語音到文本再到文本到語音的轉換方法,而這正是谷歌翻譯所做的。相反,它使用了一個神經網絡,這樣它就可以跳過將音頻轉換為文本的中間步驟,然後再轉換回來。
  • 2016:AI改變的不僅僅是谷歌翻譯,還有程式設計師的飯碗
    9月份的時候,谷歌推出了一項名為谷歌神經機器翻譯(Google Neural Machine Translation)的服務,這項服務是完完全全運行在神經網絡上的。根據谷歌所說,這種新引擎在翻譯特定的語言的時候能夠將錯誤率降低55%到85%。谷歌通過大量的現有翻譯的合集來訓練這些神經網絡。
  • 翻譯界的重大突破——谷歌翻譯整合神經網絡,翻譯質量接近人工筆譯...
    System: Bridging the Gap between Human and Machine Translation》介紹谷歌的神經機器翻譯系統(GNMT),當日機器之心就對該論文進行了摘要翻譯並推薦到網站(www.jiqizhixin.com)上。
  • 中國AI同傳遭質疑之時,谷歌實時翻譯也被吐槽了
    AI實時翻譯技術的更多關注。谷歌去年推出了無線耳機Pixel Buds,此前該公司曾大肆宣傳過這款產品,稱其是一款革命性的工具,支持實時翻譯功能。只要輕敲Pixel Buds,說「幫我說」,它就會打開你手機上的谷歌翻譯應用。現在,Pixel手機也同樣支持這個功能。接著,你可以說出句子,谷歌翻譯會在手機上將其翻譯成目標語言,並進行轉錄,然後讀出來。理論上,谷歌的新技術甚至會讓口譯翻譯們擔心丟掉工作。
  • 谷歌提出首個端到端的直接語音翻譯模型
    由於這三類模型的發展都各自比較成熟,現在市面上如谷歌翻譯這樣的軟體產品、如科大訊飛翻譯機這樣的專用硬體設備都能達到很好的多語互譯效果,準確率和延時都讓人比較滿意。但技術研究的探索並不會就此止步。谷歌的研究人員們做了一次大膽的試驗,嘗試把語音轉文、文本到文本翻譯、文本轉語音這三個步驟合併到同一個端到端模型中完成!
  • 谷歌翻譯啟用全新神經網絡機器翻譯支持印地語、俄國和越南語
    【AI世代編者按】谷歌(微博)近日宣布,它將會在其翻譯應用Google Translate中啟用全新的神經網絡機器翻譯技術來支持印地語、俄國和越南語文本的翻譯。谷歌原先的基於短語的機器翻譯系統已逐步退出舞臺。這種轉變將會帶來翻譯質量的大幅提高。
  • AI翻譯如何與傳統翻譯並存共贏:這一次「翻譯」的概念將被重新定義
    AI翻譯一直是近年來熱門話題,從谷歌推出神經網絡機器翻譯(NMT)、搜狗AI進擊,到博鰲同傳機器人,人工智慧在翻譯領域一直在持續不斷的嘗試。可以說,迄今為止,AI在翻譯行業的應用都是一場巨大的人工智慧實驗。
  • 谷歌AI推出端到端純語音翻譯技術,有望成為未來的「機器同傳」
    ,第二段是標準的人類英語翻譯,而第三段則是AI合成的英語翻譯,來自於谷歌 AI 最新的語音翻譯模型 Translatotron。該模型是一個基於注意力機制(Attention)的端到端語音翻譯神經網絡。
  • 將哀悼翻譯成祝賀,谷歌翻譯是故意設置,還是技術故障?
    而如果輸入「向以色列/美國人民表示哀悼」卻翻譯的非常準確。這是谷歌的技術問題嗎?還是故意的?首先,谷歌沒有作案動機,它沒有必要為了一個翻譯結果幫美國人佔點沒有實際意義的便宜。其次,谷歌翻譯事前並不知道大家會怎麼輸入,更不知道黎巴嫩近期會發生爆炸。所以,谷歌故意設置的可能性不大。