能犧牲大語種、提升小語種翻譯質量的谷歌多語言機器翻譯

2021-01-04 雷鋒網

雷鋒網(公眾號:雷鋒網) AI 科技評論按:近期,谷歌拓展了機器翻譯系統的邊界:用所有可用的數據訓練一個超大規模的多語言神經機器翻譯系統。這不僅是一次大膽的嘗試,也更新了我們對機器翻譯模型的一些認識。雷鋒網 AI 科技評論把谷歌的這篇介紹博客編譯如下。另外,這篇介紹博客也提到了許多相關論文,我們在文中標出的同時,也在文末提供了統一說明和打包下載,方便各位仔細閱讀。

「也許語言翻譯的奧妙,就在於從每種語言往下挖掘,一直挖到人類溝通的共同基礎——那種真實存在但是尚未被發現的通用語言——然後從那裡重新衍生出方便的具體路徑。」 —— Warren Weaver, 1949

尋找新的挑戰

過去幾年中,得益於神經機器翻譯(NMT)技術的流行,機器翻譯的質量越來越高。不過神經機器翻譯的成功也同時依賴於大量的有監督訓練數據。所以對於只能找到很少標註數據、甚至找不到標註數據的語言要怎麼處理呢?人們有一個歸納偏倚,認為「對於學習某一個語言有用的信號也能提高翻譯到其它語言的質量」,這種補救方法似乎有一些潛力,也就帶來了多語言神經機器翻譯。

多語言機器翻譯是用單個翻譯模型處理多種不同的語言。對於缺少標註數據的語言而言,多語言訓練的方法已經在谷歌的自動語音識別和文本轉語音系統中發揮了效果,此前的多語言翻譯論文(論文 1、論文 2、論文 3)中也有體現。谷歌自己曾經做過一次實驗,研究讓單個網絡學習更多的語言會如何影響它的表現(論文 4)。不過在那次的研究中谷歌限制了每種語言的訓練數據的多少,如果訓練模型的時候不再考慮不同語言的數據多少、複雜度和領域,反正把找得到的數據都用上,效果會如何呢?

在最新的論文《Massively Multilingual Neural Machine Translation in the Wild: Findings and Challenges》(論文 5)以及緊接著的幾篇論文中(論文 6、論文 7、論文 8 、論文 9),谷歌做了一個逼近極限的實驗,他們用超過 100 種語言對英語、一共超過 250 億組句子對的數據上,訓練了一個有 500 億參數的多語言機器翻譯模型。結果表明這種做法不僅可以產出一個在低資源語言和高資源語言上都有更好表現的模型,而且它還可以輕鬆地改造成單個語言對的模型,還在下遊的跨語言遷移任務中也有很好的表現。他們把這個超多語言、超大神經網絡模型(massively multilingual, massive neural machine translation)稱作 M4。

大規模多語言機器翻譯

雖然不同的語言有不同的語料數量是神經機器翻譯方法中的一大挑戰,但這種狀況同時也是研究遷移的理想環境,也就是研究訓練提升了對某一種語言的翻譯能力以後能否用它來提高對其他語言的翻譯能力。在語言-語料分布的一端,有英語對法語、德語、西班牙語這種語料非常豐富的,很容易找到十億級的平行語料樣本,而英語對約魯巴語、信德語、夏威夷語這種小語種的平行語料就非常缺乏,可能只有成千上萬而已。

不同語言的資源數量(縱軸是 log 尺度),以及只使用各自的雙語語料訓練翻譯模型得到的 BLEU 分數

在用所有找得到的數據(103 種語言對英語的句子對,一共超過 250 億組)訓練模型之後,谷歌的研究人員們觀察到越低資源的語言就有越明顯的提升,資源最低的 30 種語言的翻譯質量平均提升了 5 BLEU。這種效果是此前就得到過研究、這次也在預料之中的,不過這個結果仍然讓人感到欣喜,畢竟這個多語言模型中對於每種語言的具體表徵容量和一個一般的雙語模型是一樣的。這個發現表明大規模多語言模型的泛化能力很強大,而且可以在眾多不同的語言之間找到表徵的相似性。

相比於用雙語語料分別訓練的模型,單個大規模多語言翻譯模型能大大提升低資源語言的翻譯質量;但高資源語言的翻譯質量反而有所下降

在谷歌的 EMNLP 2019 論文《Investigating Multilingual NMT Representations at Scale》(論文 7)中,他們也比較了這個多語言模型為不同語言生成的表徵。他們發現,不需要施加外部的約束,多語言翻譯模型就能夠為語法類似的語言學習到共享的表徵,以便利用這些相似性。在論文《Evaluating the Cross-Lingual Effectiveness of Massively Multilingual Neural Machine Translation》(論文 8)中,谷歌的研究人員們進一步在跨語言的下遊遷移任務上表明了這些學習到的表徵的有效性。

根據表徵相似性對所有 103 種語言的編碼表徵進行聚類的結果。圖中帶顏色的橢圓是語言學分類的結果 —— 和根據表徵的聚類基本相符

構建大規模神經網絡

隨著谷歌的研究人員們增加模型要學習的低資源語言的數量,高資源語言的翻譯質量反而開始下降。這種衰減現象可以在多任務設置下觀察到,可能由於任務間的補全以及遷移固有的方向性(總是從高資源語言向低資源語言遷移)。換用更好的學習算法(論文 10)和更好的容量控制算法(論文 11)可以緩解這種負向遷移的作用,他們同時還嘗試了把網絡擴大,增加網絡的參數、提升網絡的容量,以便提升高資源語言的翻譯質量。

為了提升網絡容量,谷歌的研究人員們其實使用了很多技巧,包括增加更多的層、讓隱層的表徵更寬。在之前的嘗試更深的翻譯網絡的研究(論文 12)的基礎上,他們使用了 GPipe 庫來訓練一個 128 層的 Transformer 模型,其中含有超過 60 億個參數。增加模型容量大幅提升了模型在所有語言中的表現,平均提升了 5 BLEU。他們還探究了非常深的網絡的其它特性,比如網絡深度寬度間的取捨、網絡的可訓練性,甚至嘗試了進一步把網絡拓展到超過 1500 層、含有超過 840 億個參數。

提升模型容量的方法也並不只有直接增加深度一種,還有一種很有意義的補充方案是探索新的架構,以便更好地利用這個問題的「多任務」這個特點。谷歌的研究人員們嘗試了把 Transformer 架構本來的正常的前饋層替換成多個專家模型混合組成的稀疏門(論文 13),也大幅提高了模型的容量、成功訓練了這樣的模型,模型含有的參數也超過了 500 億;這都讓模型的翻譯質量繼續得到全方面的提高。

用容量更大的模型,配合增加更多語料,高資源語言的翻譯質量也能和低資源語言一樣繼續得到提升

把 M4 模型變得實用

為不同的語言、不同的任務或者遷移任務分別訓練不同的大規模模型本來就是很消耗資源、很低效率的一件事,這次谷歌的多語言機器翻譯模型更是一個強力的模型,可以作為向單個語言、單個任務遷移的基礎。谷歌也設計了一些方法(論文 9)提高 M4 模型的實用性,比如可以通過容量可調的層讓 M4 模型可以適應到針對某個語言或者某個人物,而不需要改變原有的模型。

下一步邁向哪裡?

有語言學家估計,目前全世界存在的大約 7000 種語言中,在 2100 年以前就會消失一半。多語言翻譯技術能起到一定的拯救作用嗎?谷歌認為 M4 模型就是在目前的基礎上再多拯救 1000 種語言的一個很有希望的辦法,把這樣的多語言翻譯模型作為基礎,可以很輕鬆地拓展到新語言、新領域、新的下遊任務上去,甚至當我們沒有平行語料的時候都可以做出成果。當然了,我們面對的挑戰還有不少,想要得到真正通用的多語言機器翻譯模型也還需要一些跨領域的合作。不過,對於機器學習開發者和理論研究者來說,多語言機器翻譯模型都是一個多任務學習、元學習、機器學習動力學研究的有趣的實驗環境。我們未來還可以做得更好。

相關焦點

  • 小語種翻譯人才稀缺 機器翻譯發揮空間較大
    小語種翻譯人才稀缺 機器翻譯發揮空間較大#機器翻譯是指電腦程式將一種書寫形勢或者語音形式的語言翻譯成另一種自然語言,是人工智慧的終極目標之一,具有重要的科學研究價值。隨著大型企業入內,加快行業的發展速度,翻譯機生產技術不斷完善,產品功能不斷增強,市場普及度有望得到提升,進而帶動整體機器翻譯市場規模增長,2019年我國翻譯機銷量達到110萬臺,銷售額約為16.8億元。  我國語言翻譯服務市場需求不斷提升,翻譯人才與翻譯市場需求之間的缺口不斷擴大較大,尤其是高素質的翻譯人才更為缺乏,小語種翻譯人員稀缺。
  • 淺析大規模多語種通用神經機器翻譯方法
    儘管目前最流行的Transformer模型已經大大推動了機器翻譯在單個語言對上性能的提升,但針對多語言的機器翻譯模型的研究源於其特殊的需求,如多語言之間互譯的模型參數量、翻譯服務部署困難等。儘管多語言NMT已經存在大量的研究,然而,識別語言之間的共性以及針對現實場景下的大規模多語言模型等,仍然存在問題和挑戰。
  • 廣州小語種翻譯公司_譯邦達翻譯
    廣州小語種翻譯公司,譯邦達翻譯,北京譯邦達翻譯有限公司成立於2007年,經過12年的快速發展與兼併,我們已成長為一家高效成熟的語言翻譯服務BPO供應商——翻譯質量控制體系和高效智能的快譯點輔助翻譯雲平臺。
  • 百度機器翻譯獲獎 揭秘"貼身翻譯"小度機器人:會多國語言、能翻譯...
    百度機器翻譯獲獎 揭秘"貼身翻譯"小度機器人:會多國語言、能翻譯、懂採訪 2016年01月09日 13:08 來源:京華時報 作者: 字號 內容摘要:在政府、學術界及產業界的共同努力下,機器翻譯研究和產業化也取得了突破性進展
  • 谷歌升級手機翻譯軟體 新增12個語種
    網易科技訊 10月14日消息,據華爾街日報網站報導,谷歌13日發布了升級版的手機翻譯軟體,在繼支持英語——西班牙語之間口語翻譯之後,又增添了包括中文普通話在內的12個語種。報導稱,在推出移動翻譯軟體之前,谷歌就一直提供文本翻譯和語音轉換文字的翻譯。今年1月份,谷歌翻譯增添了一項實驗性新功能--讓手機即時翻譯用戶間的通話,但僅限於英語和西班牙語。昨日,谷歌對其移動翻譯應用升級後,該應用可以在14種口語間互譯。除了原先的英語和西班牙語之外,又增添了葡萄牙語、捷克語、荷蘭語、法語、德語、日語、韓語、中文普通話、波蘭語、俄羅斯語以及土耳其語。
  • 新添114個新語種!小牛翻譯支持語種達304個
    隨著「一帶一路」建設的深入,國家不僅對小語種教育給予了高度重視,對小語種的翻譯需求也更加迫切。6月16日,小牛翻譯新上線包括馬紹爾語、齊馬內語、吉里巴斯語在內的114個小語種,累計上線語種達304個,覆蓋全球約193個國家和地區的75億人口。
  • 谷歌機器翻譯借AI再顯神通再加三種語言
    谷歌翻譯在全球有著大量的用戶,其AI研發也有著很大的領先優勢。而谷歌近日為為機器輔助語言翻譯引入了全新系統Google Neural Machine Translation system(Google神經機器翻譯系統,簡稱GNMT),讓深度神經網絡對整句子進行翻譯,極大的提升了翻譯質量。
  • 搜狗翻譯 API 上線日韓法俄新語種 為開發者提供高質高效的翻譯服務
    在全球信息加速產出與傳播的當下,語言差異給各領域的開發者帶來了諸多難題。如今,搜狗搜索已將前沿的人工智慧技術應用於翻譯領域,為身處全球各地的開發者提供高質量機器翻譯服務,語言的藩籬逐漸被打破。  近日,搜狗機器翻譯 API 接口新增小語種,支持日、韓、法、俄與中文互譯,其翻譯質量均處於業內領先水平。
  • 訊飛聽見聯合華為昇騰,多語種翻譯助力A.I.新品發布會全球直播
    日前,在深圳舉行的昇騰AI新品全球發布會(HAI 2020)上,華為發布業界領先的昇騰AI全棧軟體平臺,包含異構計算架構CANN 3.0、全流程開發工具鏈MindStudio和昇騰應用使能MindX,覆蓋基礎軟體到應用使能。
  • 距離機器翻譯的「語言全球化」還有多遠?
    在全球化迅猛發展的大環境下,工作、學習、出行、社交......各領域中跨語言交流早已不再罕見,在人工翻譯無法完全滿足各種條件下的翻譯需求時,機器翻譯的使用便成為一種必然的發展趨勢。機器翻譯發展至今,基於神經網絡的機器翻譯技術已然成為主流,再配以大規模的語料訓練,使得許多翻譯引擎之間在大語種上的翻譯質量並未有過於懸殊的差距。然而對於用戶來說,是否支持自己所需要的語言,才是決定是否選擇這套機器翻譯引擎的決定性因素。
  • 實時多語種翻譯,訊飛聽見和華為一起做了一場面向全球的發布會
    日前,在深圳舉行的昇騰AI新品全球發布會(HAI 2020)上,華為發布業界領先的昇騰AI全棧軟體平臺,包含異構計算架構CANN 3.0、全流程開發工具鏈MindStudio和昇騰應用使能MindX,覆蓋基礎軟體到應用使能。
  • 在線詞典滬江小D 多語種再添韓語翻譯
    ,至此,滬江小D一共支持英、日、法、韓四種語言的翻譯,平均一天的使用人次達200萬以上,20萬在線用戶同時使用,是國內目前為止語種最多、功能最齊全的在線翻譯器之一。自2007年上線以來,滬江小D作為一款在線詞典,以其簡潔的界面、專業強大的功能獲得了眾多語言學習者們的青睞。滬江小D照顧到了多語種的學習需求,除英語外,其他語種的查詞優勢也相當明顯。尤其是滬江小D(日語),是首款真正面向中國人學日語的在線詞典,適合各水平層次的日語學習者使用,也是目前使用人數最多的一款日語在線詞典。
  • NEC多語種語音翻譯服務小型業務終端即將上市
    「多語種語音翻譯服務」就是2017年11月開始銷售的以遊客接待行業為對象的語音翻譯服務(注)。此次,除了通過智慧型手機和平板電腦使用該服務的形式外,還追加提供了小型業務終端設備,在遊客接待服務臺和店鋪收銀臺等處配備平板電腦,而在範圍較大的遊客接待一線,則給每一位接待遊客的工作人員都配備一臺小型業務終端設備,從而可以應對各種業務場景。
  • 「一帶一路」需過語言關 網絡機器翻譯蓄勢待發
    百度機器翻譯同樣有著這樣「背誦例句」的過程,所不同的是,它的背誦能力超出了大多數人的想像。  百度研發了基於網際網路大數據的高質量翻譯知識獲取技術,突破了傳統翻譯知識獲取規模小、成本高的瓶頸。網際網路就是百度機器翻譯的語料庫的來源,而基於網頁自主拓撲結構和內容互譯計算的語料獲取方法,也解決了網際網路翻譯知識質量控制的難題。
  • 谷歌翻譯啟用全新神經網絡機器翻譯支持印地語、俄國和越南語
    【AI世代編者按】谷歌(微博)近日宣布,它將會在其翻譯應用Google Translate中啟用全新的神經網絡機器翻譯技術來支持印地語、俄國和越南語文本的翻譯。谷歌原先的基於短語的機器翻譯系統已逐步退出舞臺。這種轉變將會帶來翻譯質量的大幅提高。
  • 互譯語種最多,百度輸入法成「跨界翻譯官」提升線上跨語種溝通效率
    得益於百度在機器翻譯領域的強大技術實力,百度輸入法實現了英語、韓語、日語、西班牙語等28種高頻使用語言的精準互譯,是目前支持互譯語種最多的輸入法。用戶點擊鍵盤左上角的「熊頭圖標」,在彈出菜單中選擇「快捷翻譯」,輸入框中便增加了一項翻譯框。
  • 出國看病不用愁 日本推出醫療用多語種語音翻譯系統VoiceTra
    日本情報通信研究機構(NICT)和富士通的聯合研發團隊於2016年9月9日宣布,他們研發的醫療現場用多語種語音翻譯系統正式進入應用實驗階段
  • 機器翻譯正走入現實生活 未來還需要人工翻譯嗎?
    多虧了機器翻譯這個技術奇蹟,我把這本用西裡爾字母寫成的書的數字版上傳到了一個免費在線翻譯網站,得到了一個英文版本:一個令人驚訝的、不完美的、充斥著語法錯誤的版本,但完全可以看得懂。這就像跟能說兩種語言的9歲孩子一起閱讀。
  • 500億參數,支持103種語言:谷歌推出「全球文字翻譯」模型
    選自GoogleAIblog作者:Ankur Bapna機器之心編譯機器之心編輯部由於缺乏平行數據,小語種的翻譯一直是一大難題。來自谷歌的研究者提出了一種能夠翻譯 103 種語言的大規模多語言神經機器翻譯模型,在數據豐富和匱乏的語種翻譯中都實現了顯著的性能提升。
  • 360搜索上線翻譯頻道 人工智慧助力跨語種溝通
    隨著中國國際化程度不斷深化,國人出境旅遊、留學、海淘和看外文新聞的需求也越來越多,跨文化跨語種的交流離不開各類翻譯工具。近日,360翻譯重磅上線,其基於獨家的先進神經網絡機器翻譯技術——360NMT模型,支持中英互譯,單詞釋義和例句展示,更理解國人表達習慣。