谷歌揭秘自家翻譯系統:如何利用AI技術提高翻譯質量

2020-12-17 家電消費網

  對於機器翻譯來說,如果一門語言可用的文字資料越多,經過人工智慧模型訓練出來的翻譯效果就越好。但並不是所有語言都具備豐富可用訓練的文字資料,這樣一來,如何在數據不多的情況下,訓練出更好的翻譯器,成為機器翻譯領域裡需要解決的問題之一。

  近日,谷歌在自己的博客上介紹了公司最新的翻譯創新技術,這些技術提升了谷歌翻譯的用戶體驗。目前谷歌翻譯可支持108種語言,平均每天翻譯1500億個單詞。

  谷歌翻譯最早亮相於2006年,在過去的13年間,翻譯水平有了重大飛躍。谷歌表示,其翻譯突破並不是由單一技術推動的,而是針對低資源語言、高資源語言、總體質量、推理速度等一系列技術組合的突破。在2019年5月到2020年5月之間,根據人工評估和BLEU(基於翻譯系統翻譯和人工參考翻譯之間相似性的衡量標準),谷歌翻譯在所有語言中平均提高了5分以上,在50種語料資源最少的語言中平均提高了7分以上。

  混合模型和數據挖掘器

  在這系列技術突破中,谷歌首先提到了混合模型和數據挖掘器。

  混合模型指的是由Transformer編碼器和遞歸神經網絡(RNN)解碼器構成的模型。在機器翻譯中,編碼器通常將單詞和短語編碼為內部表徵,解碼器將其生成為所需要的語言文本。谷歌的研究人員在2017年稱首次提出,翻譯質量的提高主要依靠編碼器。谷歌團隊稱這可能是因為RNN和Transformer都設計為處理有序數據序列,但Transformers並不需要按順序處理序列。換句話說,如果所討論的數據是自然語言,則Transformer無需在處理結尾之前先處理句子的開頭。

  儘管如此,RNN解碼器在推理時間上仍然比Transformer中的解碼器要「快得多」。谷歌翻譯團隊認識到這一點,於是在將RNN解碼器與Transformer編碼器耦合之前,對RNN解碼器進行了優化,以創建低延遲、質量及穩定性均比此前所使用的RNN神經機器翻譯模型更勝一籌的混合模型。

  除了新穎的混合模型體系結構之外,谷歌還升級了爬蟲工具,爬蟲工具可以從數以百萬計的示例翻譯中收集編譯訓練數據。升級後,谷歌嵌入了14 種大語言對,而不是單純基於字典數據。也就是說它是使用實數向量來表示單詞和短語,更多地聚焦於精確性(檢索數據中的相關數據部分),而非檢索(實際檢索的相關數據總量)。產出效果方面,谷歌說這使得該數據挖掘器提取到的句子數量平均增加了29%。

  「嘈雜」的數據和遷移學習

  谷歌翻譯性能提升的另一個技術突破來自更好地處理訓練數據中的「噪聲」。「噪聲」即嘈雜的數據,因含有大量無法正確理解或解釋的信息數據,從而會損害語料資源豐富的語言翻譯。因此谷歌翻譯團隊部署了一個系統,該系統使用經過訓練的模型為翻譯示例分配分數,進而篩選出「純淨」的數據。實際上,這些模型一開始基於所有的數據進行訓練,然後逐漸基於更小、更純淨的數據子集進行訓練,這種方法在人工智慧研究領域被稱為課程學習。

  對於機器翻譯來說,傳統上依賴於源語言和目標語言中成對句子的語料統計。對於資源較少的語言,谷歌在谷歌翻譯中採用了一個回譯機制,來強化並行訓練數據,即語言中的每個句子都與其譯文相配對。在該機制中,訓練數據與合成的並行數據自動對齊,目標文本為自然語言,而源文本則由神經翻譯模型生成。結果是,谷歌翻譯充分利用更豐富的單語文本數據來訓練模型,谷歌稱這對提高翻譯流暢性特別有幫助。

  此外,谷歌翻譯團隊還建了一個M4模型。M4模型由團隊在2019年提出,該模型對100多種語言的250億對句子進行訓練後,提高了30多種低資源語言的翻譯質量。這一模型也證明了在機器翻譯過程中可以使用遷移學習技術。這也意味著收集包括法語、德語和西班牙語,這些有數十億個並行示例的高資源語言,並進行訓練後,可以應用於翻譯諸如約魯巴語,信德語和夏威夷語,這些僅有數萬個示例的低資源語言。

  機器翻譯的未來

  谷歌稱,自2010年以來,翻譯質量每年都在提高,但是機器翻譯絕不是翻譯問題的「終結者」。 谷歌承認,即使是增強後的模型也容易出錯,包括將一種語言的不同方言混合在一起,產生過多的直譯,以及在特定主題,非正式或口語上的表現不佳。

  谷歌嘗試用不同的方法來解決上述的問題。公司曾發布一項計劃旨在招募志願者,通過檢查翻譯單詞和短語是否正確來幫助提高低資源語言的翻譯性能。 今年2月份,谷歌翻譯與新興的機器學習技術相結合後就完成了進步,他們提供了僅有7500萬人使用的五種語言翻譯,例如Kinyarwanda(盧安達語),Odia(奧裡亞語),Tatar(韃靼語),Turkmen(土庫曼語)和Uyghur(維吾爾語)。

  追求真正通用翻譯的並不只有谷歌一家。在2018年8月,Facebook發布了一種AI模型,該模型結合了逐詞翻譯,語言模型和反向翻譯,在語言配對方面表現優異。最近,麻省理工學院計算機科學與人工智慧實驗室的研究人員提出了一種無監督模型,即可以從未經明確標記或分類的測試數據中學習的模型,該模型可以在兩種語言的文本之間進行翻譯,而無需在兩種語言之間直接進行翻譯。

相關焦點

  • 揭秘谷歌翻譯:如何藉助多項新興 AI 技術提高翻譯質量
    6月6日消息,據國外媒體報導,谷歌表示,它已在提高沒有大量書面文本語料的語言的翻譯質量上取得了進展。在一篇即將正式發表的博客文章中,該公司詳細介紹了助力提升谷歌翻譯(Google Translate)所支持的108種語言翻譯質量的新創新技術(特別是缺乏語料數據的約魯巴語和馬拉雅拉姆語)。
  • 谷歌翻譯是如何藉助多項新興AI技術提高翻譯質量的
    ,它已在提高沒有大量書面文本語料的語言的翻譯質量上取得了進展。在一篇即將正式發表的博客文章中,該公司詳細介紹了助力提升谷歌翻譯(Google Translate)所支持的108種語言翻譯質量的新創新技術(特別是缺乏語料數據的約魯巴語和馬拉雅拉姆語)。谷歌翻譯服務平均每天翻譯1500億個單詞。自谷歌翻譯首次亮相以來的13年裡,神經機器翻譯、基於重寫的範式和設備端處理等技術的出現和改進,助力該平臺的翻譯準確性取得不小的飛躍。
  • 利用最新AI技術 谷歌提高機器翻譯質量
    編者按:Google Translate是全球最流行的翻譯服務之一,目前支持108種語言的互譯,每天翻譯的單詞量達到1500億。過去一年間,通過利用針對總體質量,延遲以及整體推理速度的一系列技術組合,其BLEU翻譯質量平均又提高了5分多。
  • 支持108種語言的谷歌翻譯如何用AI讓翻譯質量越來越好?
    谷歌表示,在提高語言翻譯的質量方面,已經取得了進展。谷歌表示,其翻譯質量的突破並不是由單一技術推動,而是針對資源較少的語言、高質量源語言、總體質量、延遲和整體推理速度的技術組合。在2019年5月至2020年5月之間,通過人工評估和BLEU(一種基於系統翻譯與人工參考翻譯之間相似性的指標)進行衡量,谷歌翻譯在所有語言中平均提高了5分或更多,在50種最低水平的翻譯中平均提高了7分或更多。此
  • 機器翻譯裡程碑!谷歌上線Zero-Shot翻譯系統
    「中介語言」(Interlingua)--人工智慧技術  所謂神經網絡技術實際上就是讓機器和算法能夠儘量像人的大腦那樣思考和運算。谷歌翻譯的最新進展表明,人工智慧可以在許多方面超過人腦。谷歌人工智慧技術已經實現在沒有預先進行針對訓練的情況下翻譯語言對。換句話說,也就是可以不經學習就在不同語言間進行翻譯。
  • 能犧牲大語種、提升小語種翻譯質量的谷歌多語言機器翻譯
    ,谷歌拓展了機器翻譯系統的邊界:用所有可用的數據訓練一個超大規模的多語言神經機器翻譯系統。人們有一個歸納偏倚,認為「對於學習某一個語言有用的信號也能提高翻譯到其它語言的質量」,這種補救方法似乎有一些潛力,也就帶來了多語言神經機器翻譯。多語言機器翻譯是用單個翻譯模型處理多種不同的語言。對於缺少標註數據的語言而言,多語言訓練的方法已經在谷歌的自動語音識別和文本轉語音系統中發揮了效果,此前的多語言翻譯論文(論文 1、論文 2、論文 3)中也有體現。
  • 谷歌同志是位好「翻譯」!
    在谷歌即將發表的一篇博文中,詳細介紹了一些新的創新,這些創新可以讓包括約魯巴語(Yoruba)和馬來亞拉姆語(Malayalam)這樣十分冷門的語言翻譯變得更加準確到位,改善使用這些語言的用戶的體驗。谷歌表示,其翻譯突破並非由單一技術驅動,而是針對少文本資源語言、富文本資源語言、總體質量、延遲和整體推理速度的技術組合。
  • 【重磅】谷歌發布 Zero-Shot 神經機器翻譯系統:AI 巴別塔有望成真
    神經網絡改革了許多領域,我們確信可以進一步提高翻譯質量,但這樣做意味著重新思考谷歌翻譯背後的技術。今年 9 月,谷歌翻譯改為啟用谷歌神經機器翻譯(GNMT)的新系統,這是一個端到端的學習框架,可以從數百萬個示例中學習,並在翻譯質量方面有顯著提升。不過,雖然啟用 GNMT 的幾種語言翻譯質量得到了提升,但將其擴展到所有 103 種穀歌翻譯支持的語種,卻是一個重大的挑戰。
  • 谷歌AI翻譯系統準確率正接近人類水平
    據外媒報導,谷歌是全球AI語言翻譯服務的領先者之一,日前,這家公司表示,他們新開發的一項技術將進一步大幅提高其翻譯水準。新技術叫做Google Neural Machine Translation(以下簡稱GNMT),它能讓翻譯系統不再像以往那麼逐字逐字地翻譯,而是從整體上分析句子。Google Brain團隊研究員Quoc V. Le和Mike Schuster指出,GNMT所要面對的工程設計抉擇要比基於詞組的翻譯系統少得多。
  • 谷歌翻譯困境破局:AI不是人,為什麼也會有性別偏見?
    圖片來源:The Verge 但是當Google Translate準備將這一模式應用在更多語言的翻譯中時,發現此方案的可擴展性有很大問題。具體來說,在使用「神經機器翻譯」技術產出兩種「性別」的文本時,整個機器翻譯系統的查全率較低。比如,當出現10條需要進行「性別特定翻譯功能」處理的文本時,系統只能夠辨認其中的4條。
  • AI翻譯能否取代人工翻譯?谷歌翻譯作為領頭羊,已經給出了答案
    AI翻譯一直是人工智慧領域關注較多和技術討論較多的方向,而在全球範圍內,谷歌的智能翻譯一直佔據的重要的地位,這有賴於谷歌對於翻譯的另類理解和技術提升,今天我們就來看看谷歌為了翻譯都做了什麼。而AI翻譯並不具備這個思考的過程,如果一門語言可用的文字資料越多,經過人工智慧模型訓練出來的翻譯效果就越好。但是這是最理想的狀態,谷歌的特別之處就是,如何在數據不多的情況下,訓練出更好的翻譯器。
  • 重建「巴別塔」:谷歌推出全新端到端語音翻譯系統
    這種系統系統通常可以分為三個部分:將源語音轉換為文本的自動語音識別、將得到的文本翻譯為目標語言文本的機器翻譯以及從翻譯文本生成目標語言語音的文本 - 語音合成(TTS)。這種將任務分為幾個階段的級聯模式一直以來都非常成功,支撐了很多商業語音到語音的翻譯產品,包括谷歌的 Google Translate。然而,這種 「三步走」 的方法能否再簡化一下?
  • Google翻譯將離線翻譯質量提高了20%
    今天下午,山景城科技巨頭宣布其免費的多語言機器翻譯服務Translate現在更加強大。在離線情況下,翻譯準確性在某些情況下提高了幾倍。在Android和iOS上的Translate離線支持的59種語言中,現在的準確性提高了12%,並且單詞選擇,語法和句子結構得到了增強。對於某些語言,包括日語,韓語,泰語,波蘭語和印地語,質量提高超過20%。
  • 谷歌翻譯裡程碑:基於單一模型的 Zero-Shot 系統正式上線
    為了做到這一點,在任意兩種語言之間,谷歌翻譯都要運行多個翻譯系統,這帶來巨大的計算成本。如今,許多領域都正在被神經網絡技術顛覆。谷歌確信他們可以利用神經網絡進一步提升翻譯質量。這要求谷歌重新思考谷歌翻譯的算法架構。今年九月,谷歌發表聲明,基於神經機器翻譯的谷歌翻譯全新上線。(GNMT,Google Neural Machine Translation)。
  • 2016:AI改變的不僅僅是谷歌翻譯,還有程式設計師的飯碗
    這個聽起來很高大上的名詞其實已經在慢慢滲入我們的日常生活,比如谷歌的神經翻譯系統,除此之外,人工智慧也在重塑著各個領域,對我們的職業技能也提出了新的要求。未來,會是AI的世界嗎?以下文章來自Wired,由雷鋒網編譯,未經許可不得轉載。
  • 谷歌翻譯系統 會翻譯也會「唱歌」
    近日,網友Wiwi譜寫了一首《Google翻譯歌》,並利用谷歌翻譯系統的發音功能將歌曲演唱出來,相關視頻在微博上大熱,廣受歡迎。
  • 谷歌發布神經機器翻譯:翻譯質量接近筆譯人員
    據外媒報導,谷歌於昨日發布了網頁版和移動版的谷歌翻譯。在漢譯英的過程中,會採用全新的神經機器翻譯,而這個App每天要進行一千八百萬次這樣的翻譯。此外,谷歌針對這個翻譯系統的運作原理,發表了一篇學術論文。早前,谷歌就曾表示它們在谷歌翻譯中運用了神經網絡技術,但只限於實時視覺翻譯這個功能。
  • 谷歌發布神經機器翻譯,翻譯質量接近筆譯人員
    據外媒報導,谷歌於昨日發布了網頁版本和移動版本的谷歌翻譯。在漢譯英的過程中,谷歌翻譯會採用全新的神經機器翻譯機制,而這個App每天要進行一千八百萬次這樣的翻譯。此此外,谷歌針對這個神經機器翻譯系統的運作原理,專門發表了一篇學術論文。早前,谷歌就曾表示過,他們在谷歌翻譯中運用了神經網絡技術,但只限於實時視覺翻譯這個功能。前段時間,谷歌一名叫Jeff Dean的高級員工曾經告訴VentureBeat,谷歌已經在嘗試把越來越多的深度學習功能和機制融入到谷歌翻譯中。
  • 谷歌翻譯來勢洶洶,技術如何落地將決定下一賽程的結果
    經過PBMT(基於詞組的機器翻譯)與SMT(統計翻譯模型)時代的競爭,如今翻譯技術已經進入了NMT(神經網絡翻譯)時代。此前,PBMT的翻譯單位是詞組,無法解決詞序和語法問題,因此在長句及專業表達上顯得差強人意。如今,NMT卻嘗試反其道行之:將整句作為翻譯單位,利用上下文信息進行多義詞的判定,最後進行邏輯性的關聯翻譯。相比之下,NMT的翻譯成果更接近日常用語習慣。
  • 谷歌的神經翻譯系統意味著機器翻譯到盡頭了?
    整個的報告以機器翻譯為主線展開,大概分四部分:第一叫做機器翻譯的波瀾史,幾十年的發展一波三折,非常有意思;第二是機器翻譯現在主流的技術神經機器翻譯,還是可以改進的。我可以給大家看一些例子,並不是谷歌就做到頭了,還有很多的空間。