無需依賴英語中介,FB發布可翻譯100種語言的AI模型

2021-02-15 大數據文摘
不管你在世界的哪個地方,美國、巴西、法國或者亞洲的婆羅洲島,藉助機器翻譯,谷歌和Facebook這類軟體都可以把平臺上的幾乎任何文字內容都翻譯成當地語言。不過你可能不知道的是,多數翻譯系統都是將英語作為中間語言進行的翻譯工作。也就是說,在把中文翻譯成法語時其實是中文到英語再到法語的。這麼做的原因是因為英語翻譯的數據集(包括譯入和譯出)非常多而且容易獲得。但是,用英語作為中介語總體上降低了翻譯的準確性,同時讓整個流程更加複雜臃腫。


比如說,在Facebook上,單是News Feed這一項服務,Facebook就需要每天進行大約200億次翻譯。針對這些問題,最近,Facebook開發了新的機器翻譯模型,可以不藉助英語直接實現兩種語言的雙向互譯,而且新模型在BLEU評估算法下的得分比傳統的藉助英語的模型還高了10分。Facebook的新模型被稱作M2M-100,Facebook宣稱它是第一個多語言機器翻譯模型,可以直接在100種語言中的任何一對之間來回翻譯。Facebook AI構建了一個共計由100種語言的75億個句子組成的龐大數據集。使用這個數據集,研究團隊訓練了一個擁有超過150億個參數的通用翻譯模型,據Facebook的一篇博客描述,該模型可以「獲取相關語言的信息,並反映出更多樣化的語言文本和語言形態」。「主要的挑戰在於,我們如何利用我們的翻譯系統,切實地去滿足全世界各地人們的需求,」Facebook AI的助理研究員Angela Fan在採訪中表示。「你得翻譯所有的語言,涉及人們會遇到的各種需求。比如說,世界上有很多地方,當地人會使用多種語言,而英語不在其中,但現有的翻譯系統卻嚴重依賴英語。」她還指出,在Facebook平臺上每天以160種語言發布的數十億條帖子中,有三分之二是英語以外的語言。為了做到這一點,Facebook需要使用各種新技術從世界各地收集大量公開數據。「這裡頭很多工作其實建立在我們在Facebook多年研究的基礎之上,就像不同的樂高積木,我們有點像是把積木拼在一起來構建今天的系統,」Fan解釋道。該團隊首先採用CommonCrawl來從網絡上收集文本示例,這是一個開放的網絡抓取資料庫。然後他們著手用FastText來識別文本所屬的語言,後者是Facebook幾年前開發並開源的文本分類系統。「這個系統基本上是看一些測試然後嘗試判定文本是用什麼語言寫的,」Fan說,「這樣我們就把一堆網絡文本按照不同的語言分開了,接下來我們的目標是識別對應的句子。」「傳統上,人們使用人類譯員來創建翻譯數據,」她繼續說道,「這很難大規模來做,比如,你很難找到同時講英語和泰米爾語的人,同時講法語和泰米爾語的就更難了,非英語翻譯仍舊是一個有待加強的領域。」為了大規模挖掘必需數據,Fan的團隊重度依賴LASER系統。「它讀取句子,抓取文本並構建文本的數學表示,具有相同意思的句子將被映射到同一個意涵裡,」她解釋道,「如果我有一句中文和一句法文,說的是同一件事,它們就會像韋恩圖(Venn diagram)一樣有所交疊——交疊區域我們就認為是一組對應的句子。」遇到這些情況,Fan的團隊使用單語言數據來改進。以中文譯法文為例,Fan解釋道:「如果我的目標是翻譯中文為法文,但是因為某些原因,達不到足夠好的翻譯質量,那麼我可以試著用法文的單語言數據來做改進。我要做的是訓練一個反過來的系統:從法文到中文。比如我從維基百科上取得所有的法文,然後把它翻譯到中文。」這樣一來就有了大量的機器翻譯生成的「人工合成」語料。Fan說,「有了這些從法文反向譯過來的『人工合成』的中文之後,我可以把這些數據加在我的前向模型裡。也就是我用原來的中文數據加上這個補充出來的『合成』數據,然後再把它們都譯成法文。由於新加了很多例句——在輸入和輸出兩端都有——模型會更加強大。」這個項目是否會產生一條「數字巴別魚」,能在全球6200多種口語之間進行無損翻譯,還有待觀察。Fan指出,這個項目的最終成功取決於AI能夠利用的資源量。對於法語、漢語、德語、西班牙語和印地語等主要語言,資源是海量的。「人們用這些語言在網絡上寫了大量的文字,」她說,「他們能貢獻大量數據,我們的模型可以利用這些數據變得更好。」「對於資源非常少的語言,我個人確定了很多我們可能需要改進的語言類別,」Fan繼續說道。「對於非洲語言,我們在斯瓦希裡語和南非荷蘭語方面相當不錯,我們可以在像祖魯語這樣的語言上進行很多改進,在這些語言上我們需要面對額外的研究挑戰。」

https://github.com/pytorch/fairseq/tree/master/examples/m2m_100

https://ai.facebook.com/research/publications/beyond-english-centric-multilingual-machine-translation

https://www.engadget.com/facebooks-ai-can-translate-languages-directly-into-one-another-150029679.html

實習/全職編輯記者招聘ing

加入我們,親身體驗一家專業科技媒體採寫的每個細節,在最有前景的行業,和一群遍布全球最優秀的人一起成長。坐標北京·清華東門,在大數據文摘主頁對話頁回復「招聘」了解詳情。簡歷請直接發送至zz@bigdatadigest.cn

相關焦點

  • 最強翻譯?Facebook AI可以直接翻譯100種語言
    能夠在 100 種語言之間進行精確翻譯,而不需要像許多現有 AI 翻譯那樣先翻譯成英語在翻譯成目標語言。100 分制中,該人工智慧的表現比同類翻譯系統高出 10 分。該模型的翻譯也由人類進行了翻譯評估,其準確率約為 90%。Facebook 的研究人員在網上收集了 100 種語言的 75 億對句子,然後對翻譯 AI 進行訓練。當然,並非所有語言的句子對數量都相同。Facebook 智能翻譯項目負責人安吉拉・範 (Angela Fan) 說:「全球有很多地區使用兩種語言,而且其中並不包括英語。我真正感興趣的是,我們不需要再用英語作為『中間人』。」
  • 谷歌開源能翻譯101種語言的AI模型,只比Facebook多一種
    100種語言的機器學習模型,微軟發布了一款能翻譯94種語言的模型,谷歌自然也不甘示弱。繼Facebook和微軟後,谷歌開源了一種名為MT5的模型,稱該模型在一系列英語自然語言處理任務上取得了最先進的效果。 MT5是谷歌的T5模型的多語言變體,已在包含101種語言的數據集中進行了預訓練,就比Facebook多了一種。
  • 谷歌提出多語言BERT模型:可為109種語言生成與語言無關的跨語言句子嵌入
    該模型可為109種語言生成與語言無關的跨語言句子嵌入,同時在跨語言文本檢索性能優於LASER。 近日,谷歌AI研究人員提出了一種稱為LaBSE的多語言BERT嵌入模型,該模型可為109種語言生成與語言無關的跨語言句子嵌入。這一論文題目為「Language-agnostic BERT Sentence Embedding」,目前已在arxiv上發表。
  • 谷歌最強NLP模型BERT官方中文版來了!多語言模型支持100種語言
    BERT的TensorFlow代碼和預訓練模型的基礎上,谷歌AI團隊再次發布一個多語言模型和一個中文模型。Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters多語言模型支持的語言是維基百科上語料最大的前100種語言(泰語除外)。
  • 谷歌發布含 7 種語言的全新數據集:有效提升 BERT 等多語言模型任務精度高達 3 倍!
    因此,即使現有的機器學習模型能夠很好地理解複雜的上下文短語,它們依舊很難擁有對該類任務的判斷能力。為了解決這一問題,我們發布了兩個新的數據集,致力於幫助社區進行相關的研究。數據集包括:其中,PaWS-X 數據集則是在 PAWS 數據集基礎上,擴展得到包含另外六種不同類型語言的釋義識別對抗性數據集,支持的語言包括:法語、西班牙語、德語、漢語、日語和韓語。
  • 覆蓋40種語言:谷歌發布多語言、多任務NLP新基準XTREME
    每種任務都涵蓋 40 種語言的子集,為了獲得 XTREME 分析所用的低資源語言的附加數據,自然語言推理(XNLI)和問答(XQuAD)這兩個代表性任務的測試集會自動從英語翻譯為其他語言。模型在使用這些翻譯過來的測試集執行任務時的性能表現,可與使用人工標註測試集的表現相媲美。
  • 谷歌發布萬億參數語言模型, AI的語言功能真的可以超越人類嗎?
    近年來,更為複雜的人類語言模型迅速發展。2020年初,谷歌訓練的語言模型終於能夠在廣泛的語言理解任務中擊敗人類,他們通過在更多數據上訓練更大的網絡,將BERT架構推向了極限。現在,這種T5模型在標註句子和找到問題的正確答案方面可以比人類表現得更好。
  • 翻譯器中的王者橫空出世,33種語言、方言識別、拍照翻譯、全球漫遊......
    中文與33種語言即時互譯翻譯結果屏幕顯示方言口音均可識別(粵語、河南話、四川話、東北話)(倫敦腔、日本味、印度味、紐西蘭鄉村味)拍照翻譯即拍即譯無需SIM卡全球漫遊網絡暢遊世界33種語言即時互譯訊飛翻譯機2.0 可完美支持中文與英、日、韓、法、西、德、俄、泰、印尼、意、葡、越南、希臘、馬來、捷克、丹麥、挪威、荷蘭、瑞典、土耳其等33種語言進行實時準確翻譯(後續通過升級還會持續增加更多語種)。
  • 樹莓派「計算模組4」 上市,25美元起步;Kotlin 插件採用新發布節奏
    :日期驅動JetBrains 正式宣布了 Kotlin 和 IntelliJ Kotlin 插件的新發布節奏。Kotlin 發行版分為三種:功能發行版、增量發行版和錯誤修復發行版,新節奏將主要影響功能發布。新的 Kotlin 發布節奏的示意圖如上所示。
  • Facebook AI 用深度學習實現程式語言轉換,代碼庫遷移不再困難!
    Facebook AI的方法能夠將代碼從一種程式語言轉換為另一種程式語言,而無需數據進行訓練的AI系統。        在自然語言中,即使在越來越依賴自動化機器翻譯系統的專業翻譯人員中,神經機器翻譯的最新進展也被廣泛接受。但是,由於該領域中並行數據的稀缺性,它們在代碼轉換中的應用受到了限制。程式設計師仍然依賴基於規則的代碼轉換器,這需要專家審查和調試輸出,或者他們只是手動翻譯代碼。TransCoder通過利用無監督機器翻譯到程式語言方面的最新進展來克服這些挑戰。
  • 谷歌130億參數多語言模型mT5重磅來襲,101種語言輕鬆遷移
    >前幾天,Facebook發了一個百種語言互譯的模型M2M-100,這邊谷歌著急了,翻譯可是我的老本行啊。 剛剛,谷歌也放出了一個名為 mT5的模型,在一系列英語自然處理任務上制服了各種SOTA。 你發,我也發,你支持100種,我支持101種!(雖然多這一種沒有多大意義,但氣勢上不能輸) mT5是谷歌 T5模型的多語種變體,訓練的數據集涵蓋了101種語言,包含3億至130億個參數,從參數量來看,的確是一個超大模型。
  • 40種語言、9項推理任務,谷歌發布新的NLP基準測試Xtreme
    大數據文摘出品來源:VB編譯:曹培信、劉俊寰目前,全球存在著超過6900種語言,這是自然語言處理研究者們的巨大噩夢。因為大多數語言都是數據稀疏的,研究者找不到足夠多的數據來單獨訓練成熟模型。谷歌今天發布了一個自然語言處理系統基準測試Xtreme,其中包括對12種語言家族和40種語言進行的9項推理任務。這家科技巨頭的研究人員斷言,它能夠評估人工智慧模型是否能夠學習跨語言的知識,這對于越來越多的自然語言應用程式是有用的。
  • 翻譯器中的王者橫空出世,33種語言、方言識別、拍照翻譯、全球漫遊,中國人的驕傲!
    中文與33種語言即時互譯翻譯結果屏幕顯示方言口音均可識別(粵語、河南話、四川話、東北話)(倫敦腔、日本味、印度味、土澳味)拍照翻譯即拍即譯無需SIM卡全球漫遊網絡33種語言即時互譯訊飛翻譯機2.0 可完美支持中文與英、日、韓、法、西、德、俄、泰、印尼、意、葡、越南、希臘、馬來、捷克、丹麥、挪威、荷蘭、瑞典、土耳其等33種語言進行實時準確翻譯(後續通過升級還會持續增加更多語種)。
  • 哪個英語翻譯軟體最準確?英語翻譯軟體排行榜2017
    那麼,有朋友就在問哪個英語翻譯軟體最準確?今天,小編給大家帶來英語翻譯軟體排行榜2017,想了解的朋友就一起來看看吧!  TOP.1谷歌翻譯谷歌翻譯谷歌翻譯,在64 多種語言之間進行文字互譯,使用Android 版Google 翻譯可翻譯64 多種語言的字詞和短語。對於大多數語言,您可以讀出短語,然後便可聽到相應的語音翻譯。
  • 谷歌發布萬億參數語言模型,語言模型何時超越人類語言能力?
    ,近日Google提出萬億參數語言模型Switch Transformer,進一步提高了語言模型可以達到的頂峰。 這一領域的真正突破出現在2018年,當時,谷歌重磅引入了BERT模型: Jacob Devlin和他的團隊利用了一種典型的用於機器翻譯的架構,並使其學習與句子上下文相關的單詞的含義。通過教會這個模型去填補維基百科文章中缺失的單詞,這個團隊能夠將語言結構嵌入到BERT模型中。
  • 最佳 AI 程式語言Top5
    中興數據智能為您翻譯如下。數智君 | 翻譯任何類型AI系統的開發,都需要用到計算機編程。對特定的AI或機器學習任務來說,適用的程式語言不止一種。我們一起來分析一下,對於你特定的應用場景,哪種程式語言可稱最佳? 我們挑選了5種程式語言,如果你想在人工智慧領域獲得成功,那麼它們就是你的最佳選擇。
  • 谷歌發布 Zero-Shot 神經機器翻譯系統:AI 巴別塔有望成真
    103 種,每天翻譯超過了 1400 億字。不過,雖然啟用 GNMT 的幾種語言翻譯質量得到了提升,但將其擴展到所有 103 種穀歌翻譯支持的語種,卻是一個重大的挑戰。零數據翻譯的成功帶來了另一個重要的問題:系統是否學會了一種通用的表徵,其中不同語言中具有相同意義的句子都以類似的方式表示,也即所謂的「國際通用語」(interlingua)?使用內部網絡數據的三維表徵,我們能夠看見系統在翻譯日語、韓語和英語這幾種語言時,在各種可能的語言對之間進行轉換(比如日語到韓語、韓語到英語、英語到日語等等)時,內部發生的情況。
  • 翻譯|同聲傳譯被攻陷!谷歌發布Translatotron直接語音翻譯系統
    今天,谷歌發布Translatotron語音翻譯系統,這是第一個可以直接將一個人的聲音從一種語言轉換成另一種語言,同時保持說話人的聲音和節奏的翻譯模型。Translatotron:不依賴中間文本,直接翻譯語音Translatotron:不依賴中間文本,直接翻譯語音 語音翻譯端到端模型的出現始於2016年,當時研究人員證明了使用單個序列到序列模型進行語音到文本翻譯的可行性。
  • E迅劃詞翻譯 | 支持65種目標語言翻譯到中文
    E迅不僅有錄入一種語言翻譯到目標語言(如中譯英、英譯日)的雲譯功能,還有從目標語言翻譯到中文的功能,也就是我想教給胖友們的劃詞翻譯。/ 01 /聯網狀態下,用命令直通車開啟雲翻譯功能(65種目標語言都行)。
  • 重磅 谷歌神經機器翻譯再突破:實現高質量多語言翻譯和zero-shot翻譯(附論文)
    谷歌在其博客中寫道:今天我們宣布將神經機器翻譯集成到了總共八種語言的相互翻譯中,它們是:英語、法語、德語、西班牙語、葡萄牙語、漢語、日語、韓語和土耳其語。這些語言的母語總人口佔到了世界總人口的三分之一,覆蓋了谷歌翻譯 35% 以上的請求。通過這一次更新,谷歌翻譯一次性提升的性能超過了過去十年進步的總和。但這只是一個開始。