Facebook開源新AI語言模型,「可對100種語言實現一對一翻譯」

2020-12-09 科技快報網

根據《siliconangle》消息:Facebook表示其利用AI技術在不依賴英語數據的情況下翻譯任意兩種語言的嘗試,已經取得了實質性進展。Facebook正在開源一種名為M2M-100的新AI語言模型,該模型可以在100種語言中的任何一對之間進行翻譯。

據稱,以前的多語言模型嚴重依賴英語作為中介,例如,中文譯成法文的步驟通常是從中文譯成英文,然後再從英文譯成法文。在大多數情況下,這種模型都可以很好地工作,但是在涉及更複雜的句子和短語時通常不準確。

Facebook表示,M2M-100可以直接從中文翻譯成法語,或者在100多種語言對之間進行翻譯,從而更好地保留含義,而無需使用英語作為中介。

在這麼多不同的語言對之間進行翻譯不是一件容易的事,因為模型需要訪問海量的高質量訓練數據。Facebook人工智慧研究員Angela Fan在一篇博客文章中解釋了她和她的團隊如何著手創建一個龐大的「多對多」數據集,其中包含100多種不同語言的超過75億個句子。

這些數據根據諸如語言分類、地理和文化相似性等參數分為14種不同的語言組。然後,在每個語言組中,Facebook為每個語言標識一到三種「過渡語言」,作為將其翻譯成不同語言的基礎。

M2M-100模型比Facebook當前使用的以英語為中心的多語言模型準確度更高。該公司聲稱,M2M -100在評估機器翻譯的BLEU度量標準上比之前模型高出「10分」。

Facebook最終希望用M2M-100替換之前的翻譯模型,以提高其翻譯質量。(釘科技根據《siliconangle》消息編譯)

相關焦點

  • Facebook 開源翻譯模型,可處理 100 種語言,無需英語作中間步驟
    Facebook 今天開放了 M2M-100 的原始碼,聲稱該算法是第一個能夠在不依賴英語數據的情況下對 100 種語言進行翻譯的算法。M2M-100 訓練了 2200 種語言對,翻譯性能的指標上勝過以英語為中心的系統。
  • Facebook 開源可直接翻譯上百種語言的 AI 模型
    DoNews 10月20日消息(記者 劉文軒)Facebook 近期宣布將首個不需透過英語、可直接翻譯兩種語言的 AI 模型 M2M-100 開源。Facebook 表示一般機器翻譯需要為每種語言及每種任務建立一種 AI 模型,由於英語訓練資料較充裕,因此形成以英語為中心的翻譯模式;碰到要翻譯非英語的兩種語言,例如中文和法文時,大部份機器翻譯採取法文翻成英文,再由英文翻成中文
  • Facebook 開源翻譯模型,可處理 100 種不同語言,無需英語作為中間步驟
    的原始碼,聲稱該算法是第一個能夠在不依賴英語數據的情況下對 100 種語言進行翻譯的算法。M2M-100 訓練了 2200 種語言對,翻譯性能的指標上勝過以英語為中心的系統。支持 100 種語言翻譯,為全新語言創建數據Facebook 利用反向翻譯對低資源語言的數據進行了補充,這種方法包括用一種語言培訓模型,並利用它翻譯單語數據,以便用另一種語言創建合成的反向翻譯數據。
  • Facebook開源多款AI工具,支持遊戲、翻譯
    、Caffe 等深度學習框架之外,此次開源的還包括 DensePose(可用於人體姿態估計)、Translate(可翻譯 48 種語言)、ELF(可通過遊戲來教機器推理)等諸多 Facebook 內部使用的庫和模型。
  • Facebook 100種語言互譯模型原始碼公開!機器翻譯再也不用英語當...
    智東西(公眾號:zhidxcom)編 | 子佩智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。
  • Facebook開源M2M-100模型:輕鬆翻譯上百種語言
    From: Venture Beat;編譯:Shelly不管是在翻譯圈,還是在日常生活中,「機器翻譯」已經成了越來越常見的字眼。那麼,現如今的機器翻譯已經發展到了什麼水平?除了通用語種互譯,機器翻譯究竟能實現多少種語言的互譯?它的上限在哪裡?
  • Facebook 開源增強版 LASER 庫:可實現 93 種語言的零樣本遷移
    而近日,Facebook 開源了擴展和改進後的 LASER 工具包,該工具包可應用於使用 28 種不同的字符串編寫的 90 多種語言。 LASER 開源「大禮包」中一同開源的還有多語言編碼器、PyTorch 代碼,以及面向 100 多種語言的多語言測試集。Facebook 將這項成果在其官網上進行了報導,雷鋒網(公眾號:雷鋒網) AI 科技評論編譯如下。
  • 無需依賴英語中介,Facebook 發布可翻譯 100 種語言的 AI 模型
    針對這些問題,最近,Facebook 開發了新的機器翻譯模型,可以不藉助英語直接實現兩種語言的雙向互譯,而且新模型在 BLEU 評估算法下的得分比傳統的藉助英語的模型還高了 10 分。Facebook 的新模型被稱作 M2M-100,Facebook 宣稱它是第一個多語言機器翻譯模型,可以直接在 100 種語言中的任何一對之間來回翻譯。
  • 不以英語為中心,百種語言互譯,FB開源首個單一多語言MT模型
    機器之心報導機器之心編輯部Facebook AI 近日開源了多語言機器翻譯模型 M2M-100,該模型不依賴以英語為中心的數據,可以實現 100 種語言之間的相互翻譯。機器翻譯(MT)打破了人類之間的語言障礙。
  • Facebook推出首個無需依賴英語即可翻譯100種語言的AI模型
    Facebook AI 將推出 M2M-100,這是首個多語言機器翻譯(MMT)模型,它可以在 100 種語言中的任意兩種之間進行翻譯,而無需依賴英語數據。M2M-100 總共訓練了 2200 個語言方向,比以前最好的以英語為中心的多語言模型多了 10 倍。部署 M2M-100 可以為數十億人提高翻譯質量,特別是那些使用低資源語言的人。
  • Facebook新AI模型可以直接對譯100種語言
    針對這些問題,最近,Facebook開發了新的機器翻譯模型,可以不藉助英語直接做到兩種語言的雙向互譯,而且新模型在BLEU評估算法下的得分比傳統的藉助英語的模型還高了10分。Learn morehttps://t.co/9nszUF5nTj#t9n#machinetranslationpic.twitter.com/57kqbParp1 Facebook的新模型被稱作M2M-100,Facebook宣稱它是第一個多語言機器翻譯模型,可以直接在100種語言中的任何一對之間來回翻譯。
  • Facebook人工智慧開源多語言機器翻譯模型
    Facebook AI是開源的M2M-100,一種多語言機器翻譯模型(MMT),可以翻譯100種語言中的任何一對而不依賴於英語。典型的模式是以英語為中心的,將中文翻譯成法語或中文翻譯成西班牙語時需要首先將原文翻譯成英語,再翻譯成其他語言。Facebook認為,語言之間的直接翻譯更能捕捉到深層意義,而且比以英語為中心的系統在藍帶標準上高出10個百分點。M2M-100接受了2,200種語言的培訓。
  • ...100種語言互譯模型原始碼公開!機器翻譯再也不用英語當媒介了?
    智東西(公眾號:zhidxcom)編 | 子佩智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。
  • Facebook AI 用深度學習實現程式語言轉換,代碼庫遷移不再困難!
    從舊式程式語言(例如COBOL)到現代語言(例如Java或C ++)的代碼庫遷移是一項艱巨的任務,需要源語言和目標語言方面的專業知識。例如,COBOL至今仍在全球大型機系統中廣泛使用,因此公司,政府和其他組織通常必須選擇,是手動翻譯其代碼庫,還是致力於維護使用可追溯到1950年代的語言編寫的代碼。
  • Facebook 自然語言處理新突破:新模型能力趕超人類 & 超難 NLP 新...
    簡而言之,這些新工具將幫助人類創建更強大的內容理解系統,而且能夠翻譯數百種語言,理解諸如含糊不清、共同引用和常識性推理等複雜的問題,從而減少現有的這些系統對大量標記訓練數據的依賴性。翻譯準確性的突破對於神經機器翻譯(NMT)模型,有監督式訓練通常需要大量附有參考翻譯的句子。
  • 最強翻譯?Facebook AI可以直接翻譯100種語言
    近日,Facebook 宣稱已經開發出一種人工智慧翻譯系統,能夠在 100 種語言之間進行精確翻譯,而不需要像許多現有 AI 翻譯那樣先翻譯成英語在翻譯成目標語言。圖 | 新翻譯系統使 Facebook 每天能做 200 億份翻譯任務(來源:incamerastock / Alamy)在學術機構用來自動評估機器翻譯質量的 100 分制中,該人工智慧的表現比同類翻譯系統高出 10 分。該模型的翻譯也由人類進行了翻譯評估,其準確率約為 90%。
  • 無需依賴英語數據,100種語言互譯,臉書推出「M2M-100」模型
    Facebook AI首次提出多語言機器翻譯(MMT)模型——M2M -100,該模型可以在不依賴英語數據的情況下在任何100種語言間進行翻譯。該項目已開源。
  • 無需依賴英語數據,100種語言互譯,臉書推出「M2M-100」模型
    Facebook AI首次提出多語言機器翻譯(MMT)模型——M2M -100,該模型可以在不依賴英語數據的情況下在任何100種語言間進行翻譯。該項目已開源。由於英語訓練數據非常廣泛,之前的中法翻譯模型會分別訓練中文與英語以及英語與法語的翻譯模型,通過英語作為中間環節實現翻譯。
  • 無需依賴英語數據,100種語言互譯,臉書推出「 M2M-100」模型
    Facebook AI首次提出多語言機器翻譯(MMT)模型——M2M -100,該模型可以在不依賴英語數據的情況下在任何100種語言間進行翻譯。該項目已開源。通過M2M-100模型,將有助於十億人的翻譯工作,對於低資源語言的翻譯提升更加顯著。Facebook AI經多年在機器翻譯方面的耕耘,如今終於實現該裡程碑式的結果。接下來,我們將介紹具體的研究工作,包括為100種語言建立的翻譯訓練數據、模型的細節和訓練。
  • VOA英語:Facebook開發出100種語言的機器翻譯系統
    美國之音是一家提供45種語言服務的動態的國際多媒體廣播電臺。Facebook Develops Machine Translation System for 100 LanguagesFacebook開發出100種語言的機器翻譯系統By Bryan Lynn21 October 2020Facebook