無需依賴英語中介,Facebook 發布可翻譯 100 種語言的 AI 模型

2021-01-09 ITBear科技資訊

  機器翻譯器正成為現代人生活中必不可少的工具。

  不管你在世界的哪個地方,美國、巴西、法國或者亞洲的婆羅洲島,藉助機器翻譯,谷歌和 Facebook 這類軟體都可以把平臺上的幾乎任何文字內容都翻譯成當地語言。

  不過你可能不知道的是,多數翻譯系統都是將英語作為中間語言進行的翻譯工作。也就是說,在把中文翻譯成法語時其實是中文到英語再到法語的。

  這麼做的原因是因為英語翻譯的數據集(包括譯入和譯出)非常多而且容易獲得。但是,用英語作為中介語總體上降低了翻譯的準確性,同時讓整個流程更加複雜臃腫。

  比如說,在 Facebook 上,單是 News Feed 這一項服務,Facebook 就需要每天進行大約 200 億次翻譯。

  針對這些問題,最近,Facebook 開發了新的機器翻譯模型,可以不藉助英語直接實現兩種語言的雙向互譯,而且新模型在 BLEU 評估算法下的得分比傳統的藉助英語的模型還高了 10 分。

  Facebook 的新模型被稱作 M2M-100,Facebook 宣稱它是第一個多語言機器翻譯模型,可以直接在 100 種語言中的任何一對之間來回翻譯。Facebook AI 構建了一個共計由 100 種語言的 75 億個句子組成的龐大數據集。使用這個數據集,研究團隊訓練了一個擁有超過 150 億個參數的通用翻譯模型,據 Facebook 的一篇博客描述,該模型可以 「獲取相關語言的信息,並反映出更多樣化的語言文本和語言形態」。

  「主要的挑戰在於,我們如何利用我們的翻譯系統,切實地去滿足全世界各地人們的需求,」Facebook AI 的助理研究員 Angela Fan 在採訪中表示。「你得翻譯所有的語言,涉及人們會遇到的各種需求。比如說,世界上有很多地方,當地人會使用多種語言,而英語不在其中,但現有的翻譯系統卻嚴重依賴英語。」她還指出,在 Facebook 平臺上每天以 160 種語言發布的數十億條帖子中,有三分之二是英語以外的語言。

  為了做到這一點,Facebook 需要使用各種新技術從世界各地收集大量公開數據。「這裡頭很多工作其實建立在我們在 Facebook 多年研究的基礎之上,就像不同的樂高積木,我們有點像是把積木拼在一起來構建今天的系統,」Fan 解釋道。

  該團隊首先採用 CommonCrawl 來從網絡上收集文本示例,這是一個開放的網絡抓取資料庫。然後他們著手用 FastText 來識別文本所屬的語言,後者是 Facebook 幾年前開發並開源的文本分類系統。「這個系統基本上是看一些測試然後嘗試判定文本是用什麼語言寫的,」Fan 說,「這樣我們就把一堆網絡文本按照不同的語言分開了,接下來我們的目標是識別對應的句子。」

  「傳統上,人們使用人類譯員來創建翻譯數據,」她繼續說道,「這很難大規模來做,比如,你很難找到同時講英語和泰米爾語的人,同時講法語和泰米爾語的就更難了,非英語翻譯仍舊是一個有待加強的領域。」

  為了大規模挖掘必需數據,Fan 的團隊重度依賴 LASER 系統。「它讀取句子,抓取文本並構建文本的數學表示,具有相同意思的句子將被映射到同一個意涵裡,」她解釋道,「如果我有一句中文和一句法文,說的是同一件事,它們就會像韋恩圖 (Venn diagram)一樣有所交疊——交疊區域我們就認為是一組對應的句子。」

  當然,不是所有語言都有大量的文字內容在網上。

  遇到這些情況,Fan 的團隊使用單語言數據來改進。以中文譯法文為例,Fan 解釋道:「如果我的目標是翻譯中文為法文,但是因為某些原因,達不到足夠好的翻譯質量,那麼我可以試著用法文的單語言數據來做改進。我要做的是訓練一個反過來的系統:從法文到中文。比如我從維基百科上取得所有的法文,然後把它翻譯到中文。」

  這樣一來就有了大量的機器翻譯生成的 「人工合成」語料。Fan 說,「有了這些從法文反向譯過來的『人工合成』的中文之後,我可以把這些數據加在我的前向模型裡。也就是我用原來的中文數據加上這個補充出來的『合成』數據,然後再把它們都譯成法文。由於新加了很多例句——在輸入和輸出兩端都有——模型會更加強大。」

  這個項目是否會產生一條 「數字巴別魚」,能在全球 6200 多種口語之間進行無損翻譯,還有待觀察。Fan 指出,這個項目的最終成功取決於 AI 能夠利用的資源量。對於法語、漢語、德語、西班牙語和印地語等主要語言,資源是海量的。「人們用這些語言在網絡上寫了大量的文字,」她說,「他們能貢獻大量數據,我們的模型可以利用這些數據變得更好。」

  「對於資源非常少的語言,我個人確定了很多我們可能需要改進的語言類別,」Fan 繼續說道。「對於非洲語言,我們在斯瓦希裡語和南非荷蘭語方面相當不錯,我們可以在像祖魯語這樣的語言上進行很多改進,在這些語言上我們需要面對額外的研究挑戰。」 M2M-100 的 GitHub 代碼連結:

  https://github.com/pytorch/fairseq/tree/master/examples/m2m_100

特別提醒:本網內容轉載自其他媒體,目的在於傳遞更多信息,並不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,並請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時聯繫我們,本站將會在24小時內處理完畢。

相關焦點

  • Facebook 100種語言互譯模型原始碼公開!機器翻譯再也不用英語當...
    智東西(公眾號:zhidxcom)編 | 子佩智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。
  • 無需依賴英語數據,100種語言互譯,臉書推出「 M2M-100」模型
    Facebook AI首次提出多語言機器翻譯(MMT)模型——M2M -100,該模型可以在不依賴英語數據的情況下在任何100種語言間進行翻譯。該項目已開源。由於英語訓練數據非常廣泛,之前的中法翻譯模型會分別訓練中文與英語以及英語與法語的翻譯模型,通過英語作為中間環節實現翻譯。
  • Facebook 開源可直接翻譯上百種語言的 AI 模型
    DoNews 10月20日消息(記者 劉文軒)Facebook 近期宣布將首個不需透過英語、可直接翻譯兩種語言的 AI 模型 M2M-100 開源。Facebook 表示一般機器翻譯需要為每種語言及每種任務建立一種 AI 模型,由於英語訓練資料較充裕,因此形成以英語為中心的翻譯模式;碰到要翻譯非英語的兩種語言,例如中文和法文時,大部份機器翻譯採取法文翻成英文,再由英文翻成中文。Facebook 指出,這種需要以英文為中介的翻譯會導致原意流失或翻譯錯誤,並不適合臉書平臺上160多種語言貼文翻譯的需求。
  • 最強翻譯?Facebook AI可以直接翻譯100種語言
    近日,Facebook 宣稱已經開發出一種人工智慧翻譯系統,能夠在 100 種語言之間進行精確翻譯,而不需要像許多現有 AI 翻譯那樣先翻譯成英語在翻譯成目標語言。圖 | 新翻譯系統使 Facebook 每天能做 200 億份翻譯任務(來源:incamerastock / Alamy)在學術機構用來自動評估機器翻譯質量的 100 分制中,該人工智慧的表現比同類翻譯系統高出 10 分。該模型的翻譯也由人類進行了翻譯評估,其準確率約為 90%。
  • Facebook AI 年度總結來啦
    我們提出了新的研究,除了圖像識別上的進展,在NLP領域,我們現在可以用較少的監督數據翻譯更多的語言。我們發布了許多平臺和工具來幫助其他人將他們的人工智慧研究轉化為生產應用程式,包括我們將目前流行的開源深度學習框架 PyTorch 升級成新的、更通用的 1.0 版本。
  • 支持108種語言:Google翻譯為啥這麼好用?
    自Google翻譯首次公開亮後的13年間,諸如神經機器翻譯、基於重寫的範例和本地處理之類的技術使該平臺的翻譯準確性有了可量化的飛躍。但是直到最近,翻譯的最新算法表現也落後於人類。Google之外的努力也說明了問題的難度,Masakhane項目旨在使非洲大陸上的數千種語言能夠自動翻譯,但它還沒有超出數據收集和轉錄階段。
  • Facebook放了個大招,基於CNN的語言翻譯模型快9倍,同傳壓力山大了...
    人類目前使用大約6900種不同的語言,使用漢語、英語、北印度語、西班牙語和俄語這5種語言的人佔了全球人口的一半以上。可事實上,95%的人只使用100多種語言進行交流。人工翻譯已經遠遠不可能滿足當今世界所產生的海量信息流,那麼,是否能有一種快速而準確的技術決絕方案,能替代人類去完成不同語言間的轉換? 就在昨天,Facebook人工智慧研究中心(FAIR)發布了使用全新的卷積神經網絡(CNN)進行語言翻譯的研究結果。據悉,這種新方法能夠以現有的循環神經網絡系統9倍的速度進行翻譯,而且翻譯的準確性還會得到大幅的提高。
  • Facebook 發布無梯度優化開源工具 Nevergrad,可應用於各類機器...
    、圖像分類到翻譯以及大量其他任務,都依賴於無梯度優化來調整模型中的參數和/或超參數。為了使得參數/超參數的調整更快、更簡單,Facebook 創建了一個名叫 Nevergrad(https://github.com/facebookresearch/nevergrad)的 Python 3 庫,並將它開源發布。Nevergrad 提供了許多不依賴梯度計算的優化算法,並將其呈現在標準的問答 Python 框架中。此外,Nevergrad 還包括了測試和評估工具。
  • 了解一下世界大廠Facebook是如何利用人工智慧的
    在Instagram和Facebook上的社交媒體營銷可以通過助理翻譯來完成,幫助人們在任意場景下打破語言上的的障礙。Facebook人工智慧自動翻譯系統 自動語言翻譯對Facebook來說意義重大。Facebook有一個全球性的方法,人們可以來網上銷售他們的產品。要做到這一點,他們必須牢記一件大事:世界各地的人不會只說一種語言。
  • 重磅| Facebook提出全新CNN機器翻譯:準確度超越谷歌而且還快九倍...
    因此,語言翻譯就顯得很重要了。今天,FAIR 團隊推出了一項研究成果:使用一種全新的卷積神經網絡(CNN)進行語言翻譯,結果以 9 倍於以往循環神經網絡(CNN)的速度實現了目前最高準確率。[1] 另外,你可以在 GitHub 開源許可下下載到 FAIR 序列模型工具包(fairseq)原始碼和訓練過的系統,研究人員可以打造用於翻譯、文本摘要以及針對其他任務的定製化模型。
  • Facebook AI 正在升維突破:教AI像人類一樣理解三維世界
    通過二維關鍵點重建三維對象 對於無法使用網格的場景,Facebook 研究人員開發了另一種方法:捕捉 2D 關鍵點,再將數據輸入 C3DPO 系統(Canonical 3D Pose Network),用來重建 3D 關鍵點模型。
  • 谷歌翻譯是如何藉助多項新興AI技術提高翻譯質量的
    自谷歌翻譯首次亮相以來的13年裡,神經機器翻譯、基於重寫的範式和設備端處理等技術的出現和改進,助力該平臺的翻譯準確性取得不小的飛躍。但直到近年,即便是最先進的翻譯支持算法也一直落後於人類的表現。谷歌以外的努力充分說明了這個問題的嚴重性——旨在使得非洲大陸的數千種語言可自動翻譯的Masakhane項目,至今還沒有走出數據收集和轉錄階段。
  • 小米米家翻譯機今日發布,支持8種語言在線拍照翻譯
    打開APP 小米米家翻譯機今日發布,支持8種語言在線拍照翻譯 新浪科技 發表於 2019-11-22 16:34:21 11月22日消息,小米米家翻譯機今日發布,配備4.1英寸大屏,6麥陣列,支持AI自動翻譯,將於11月26日10點首賣,價格為1299元。
  • 重磅| 谷歌神經機器翻譯再突破:實現高質量多語言翻譯和zero-shot...
    谷歌在其博客中寫道:今天我們宣布將神經機器翻譯集成到了總共八種語言的相互翻譯中,它們是:英語、法語、德語、西班牙語、葡萄牙語、漢語、日語、韓語和土耳其語。這些語言的母語總人口佔到了世界總人口的三分之一,覆蓋了谷歌翻譯 35% 以上的請求。通過這一次更新,谷歌翻譯一次性提升的性能超過了過去十年進步的總和。但這只是一個開始。
  • 史上第一次,AI能夠自學翻譯地球上的任何語言了
    據fastcompany報導,最新出現的兩個機器翻譯系統完成了嶄新的突破——可以在無需人類翻譯文本的學習資料的情況下,自主學習翻譯地球上的任何語言。雷鋒網為您做如下編譯:機器翻譯發展驚人,但是地球上還是有數以億計的人無法享受它的好處——因為他們的語言在翻譯器的下拉菜單中根本找不到。
  • 哪個英語翻譯軟體最準確?英語翻譯軟體排行榜2017
    TOP.1----------谷歌翻譯谷歌翻譯谷歌翻譯,在64 多種語言之間進行文字互譯,使用Android 版Google 翻譯可翻譯64 多種語言的字詞和短語。對於大多數語言,您可以讀出短語,然後便可聽到相應的語音翻譯。
  • 漫畫翻譯、嵌字 AI,東京大學論文被 AAAI』21 收錄
    內容概要:一項關於漫畫文字自動翻譯的研究,引發了熱議,由兩位東京大學博士組成的 Mantra 團隊發布了一篇論文,目前已被 AAAI 2021 收錄,該 Mantra 項目旨在為日本漫畫提供自動化的機器翻譯工具。
  • 日均調用13億次 實時翻譯直播將參與今年雙11
    央廣網杭州10月24日消息(記者張國亮) 「日均調用量超過13億次,累計3000億單詞,可提供214種語言的高質量翻譯!」在阿里達摩院創下多項業界第一AI翻譯技術的支持下,近日,全球首個實時翻譯直播上線,將全面參與今年的天貓雙11全球購物狂歡節。最重要的是:不會外語也能向全球直播!
  • 谷歌神經網絡機器翻譯已支持英語與其他8種語言的互譯
    經過10年的發展, 谷歌翻譯已成為一個連接世界的重要工具,谷歌翻譯支持的語言已達到了103種。
  • 百度發布即時翻譯「神器」 突破自然語言處理重大難關
    中新網10月24日電 人工智慧領域,兩種語言的「即時互譯」是一項難以攻克的技術問題,其主要原因在於源語言和目標語言之間存在較大的詞序和語序差異。近日,百度研發了具備預測能力和可控延遲的即時機器翻譯系統,可實現兩種語言之間的高質量、低延遲翻譯。