Facebook新AI可以將語言實時相互翻譯

2020-12-11 騰訊網

無論您是從美國,巴西,婆羅洲還是法國登錄,Facebook都可以使用自動機器翻譯將其平臺上發布的幾乎所有書面內容翻譯成本地語言。實際上,僅Facebook的「新聞提要」每天就提供約200億筆翻譯。但是,這些系統通常使用英語作為中介步驟-也就是說,從中文到法語的翻譯實際上是從中文到英語到法語的翻譯。這樣做是因為往返於英語的翻譯數據集非常龐大且廣泛可用,但是將英語置於中間會降低整體翻譯的準確性,同時使整個過程變得比所需的更為複雜。這就是為什麼Facebook AI開發了一種新的MT模型,該模型可以在不使用英語的情況下直接在兩種語言(中文到法語以及法語到中文)之間進行雙向翻譯。

Facebook AI研究助理Angela Fan表示:「最大的挑戰實際上是,我們如何利用現有的翻譯系統,然後真正滿足世界各地人們的需求。「因此,您正在翻譯成人們真正想要的所有語言和所有方向。例如,世界上有很多地區人們會說多種語言,這些語言都不是英語,但是現有的翻譯系統嚴重依賴純英語的數據。」 她指出,在Facebook平臺上每天以160種語言發布的數十億篇文章中,三分之二是用英語以外的其他語言撰寫的。

Facebook稱其為M2M-100,它是第一個可以在100種語言中的任何一對之間直接來回翻譯的多語言機器翻譯模型(MMT)。總體而言,FBAI構建了一個龐大的數據集,其中包含100種語言的75億個句子。Facebook博客周一表示,研究小組利用這一點訓練了一個通用翻譯模型,該模型具有超過150億個參數「可以從相關語言中捕獲信息並反映出更加多樣化的語言和形態腳本」。

為此,Facebook必須使用各種新穎的技術收集來自世界各地的大量公開數據。範解釋說:「許多這些實際上是建立在我們在Facebook多年研究中所做的工作的基礎上的,就像我們今天為構建該系統而將所有不同的樂高積木一樣。」

首先,團隊使用CommonCrawl來維護Web爬網數據的開放存儲庫,以從網絡上收集文本示例。然後,他們開始使用FastText來識別文本所使用的語言,FastText是Facebook幾年前開發並開放原始碼的文本分類系統,「它基本上是在進行一些測試,並試圖確定所用的語言,」 Fan說。「因此,我們將網絡上的一堆文本劃分為所有這些不同的語言,然後我們的目標是識別將要翻譯的句子。」

她繼續說:「傳統上,人們使用人工翻譯來創建翻譯數據。」 「這在規模上是困難的,因為例如很難找到會說英語和泰米爾語的人,但是要找到一個會說法語和泰米爾語的人甚至更困難,因為非英語翻譯仍然是一個需要改進的領域。」

為了大規模挖掘必要的數據,Fan的團隊非常依賴LASER系統。她說:「它讀取句子,獲取文本並創建該文本的數學表示,從而使具有相同含義的句子映射到相同的思想。」 「因此,如果我有一個中文和法文的句子,並且他們說的是同一句話,它們將有點重疊-就像維恩圖一樣-重疊區域是我們認為是對齊句子的文本。」

當然,並非所有語言在網際網路上都有大量可用的書面內容。在這種情況下,範的團隊轉向了單語數據,即僅以一種語言編寫的數據。範先生以中文譯成法語的示例進行了解釋:「因此,如果我的目標是將中文翻譯成法語,但由於某種原因,我的翻譯質量不佳,那麼我將嘗試通過獲取文本單語數據來對此進行改進用法語。我要做的是對系統進行反向訓練:我從法語轉到中文。例如,我從Wikipedia提取所有法語,然後將其翻譯成中文。」

範繼續說,這樣做會產生大量機器生成的「合成」數據。「因此,我根據回譯的法語創建了此合成中文,然後將其再次添加到正向模型中。因此,我沒有從中文到法語,而是有中文加上我的補充合成中文,全部都用法語。而且因為這會在輸入端和輸出端添加大量新示例,所以該模型將更加強大。」

Fan指出,該項目的最終成功取決於AI可以利用的資源量。對於法語,中文,德語,西班牙語和北印度語等主要語言,這些資源非常豐富。「人們用這些語言在網絡上寫了大量文本,」範指出。「他們確實能夠幫助很多數據,我們的模型可以使用這些數據來變得更好。」

她繼續說:「我個人確定了在資源非常低的語言中我們可能需要改進的很多領域。」

Facebook正在將數據集,模型,培訓和評估設置發布為研究社區的開放源碼,以幫助刺激進一步的發展。該公司還計劃繼續獨立開發該系統,並最終將該技術應用於其日常運營中。

相關焦點

  • Facebook開源多款AI工具,支持遊戲、翻譯
    、Caffe 等深度學習框架之外,此次開源的還包括 DensePose(可用於人體姿態估計)、Translate(可翻譯 48 種語言)、ELF(可通過遊戲來教機器推理)等諸多 Facebook 內部使用的庫和模型。
  • Facebook 自然語言處理新突破:新模型能力趕超人類 & 超難 NLP 新...
    簡而言之,這些新工具將幫助人類創建更強大的內容理解系統,而且能夠翻譯數百種語言,理解諸如含糊不清、共同引用和常識性推理等複雜的問題,從而減少現有的這些系統對大量標記訓練數據的依賴性。翻譯準確性的突破對於神經機器翻譯(NMT)模型,有監督式訓練通常需要大量附有參考翻譯的句子。
  • 最強翻譯?Facebook AI可以直接翻譯100種語言
    圖 | 新翻譯系統使 Facebook 每天能做 200 億份翻譯任務(來源:incamerastock / Alamy)在學術機構用來自動評估機器翻譯質量的 100 分制中,該人工智慧的表現比同類翻譯系統高出 10 分。該模型的翻譯也由人類進行了翻譯評估,其準確率約為 90%。
  • 【8點7分】Blade AR眼鏡即將支持實時語言翻譯,Facebook進行AI虛擬...
    (原文) Vuzix Blade AR智能眼鏡即將支持實時語言翻譯 近日,AR智能眼鏡製造商Vuzix公司宣布與Verizon和Zoi Meet合作,將流行的多語言通信平臺帶入他們的Vuzix Blade AR智能眼鏡。這可能將是第一個支持實時語言翻譯的AR眼鏡。
  • 翻譯學霸隨身帶!釘釘全球首推4國語言AI實時翻譯產品
    別急,阿里釘釘2018年春夏新品發布會上,釘釘推出的 「新商業套件」中,一款帶著滿滿黑科技味道的產品讓嘉賓驚豔,這就是釘釘同阿里巴巴機器智能技術實驗室合作推出的最新產品:AI實時翻譯。據釘釘介紹,AI實時翻譯這款產品,主要是為解決辦公場景中不同類語言障礙帶來的低效溝通,讓商業跨越語言邊界。
  • 對比人工翻譯及自然語言處理翻譯,ai翻譯存在哪些優勢?
    舉個簡單的例子,微博上一般都是這樣子對話的:這種對話很好「產生」,因為人的語言翻譯一般很難做出來,從整體上描述了人對話過程,這樣就完成了對話的設計和「模仿」。當然,單這麼說也不嚴謹,可能有的翻譯有點細節交流上的錯誤。另外,比如歌詞有時也可以通過一些對比的對話(bingquery)自動生成,原因在於歌詞是「不可編碼」的。這麼理解,也就沒問題了。
  • 微軟欲借AI提升實時翻譯
    在節日前夕,微軟表示願意用人工智慧的力量,增強實時翻譯能力,幫助印度人掃除語言交流障礙。作為一個多樣化的國家,印度使用中的語言有700多種,並有多達22門官方語言。因此,生活背景不同的人們有時難以相互交流溝通。為了達到目的,微軟將使用到深度神經網絡技術和AI實時翻譯技術。更為可喜的是,這些技術不是只應用在某一特定的APP或服務中,而幾乎是無處不在。
  • Facebook AI 用深度學習實現程式語言轉換,代碼庫遷移不再困難!
    Facebook AI開發了Transcoder,可以使代碼遷移變得更加輕鬆和高效。Facebook AI的方法能夠將代碼從一種程式語言轉換為另一種程式語言,而無需數據進行訓練的AI系統。TransCoder完全依賴僅用一種程式語言編寫的原始碼。它不需要程式語言方面的專業知識,並且很容易推廣到其他程式語言。TransCoder對於將遺留代碼庫更新為現代程式語言很有用,現代程式語言通常更高效且易於維護。它還顯示了如何將神經機器翻譯技術應用於新領域。
  • 想真正的做好ai的話,你不能忽視語言本身的魅力
    而語音技術的存儲和實時識別,用以訓練模型的數據文件,都是可以計算機控制來進行存儲與處理的。不是沒有這個功能,而是沒有替代品,某諾亞方舟手機算嗎,某錘方舟手機算嗎,都是能搭載人工智慧ai的手機。老羅說小老闆搞「人工智慧」,就是搞不明白,做的是概念,小老闆啥都沒有,人工智慧?你們還是做輕薄款吧。
  • 谷歌將發新語音實時翻譯系統 接近完美
    上個月微軟的Skype網絡電話推出了一項針對人類交談的實時語音翻譯項目,此舉在於幫助不同語言之間的用戶之間可以正常交流。作為這方面的佼佼者,谷歌也推出了自己的版本,並宣稱這是最「接近完美」的一版。
  • Facebook開源新AI語言模型,「可對100種語言實現一對一翻譯」
    根據《siliconangle》消息:Facebook表示其利用AI技術在不依賴英語數據的情況下翻譯任意兩種語言的嘗試,已經取得了實質性進展。Facebook正在開源一種名為M2M-100的新AI語言模型,該模型可以在100種語言中的任何一對之間進行翻譯。
  • 微軟AI助陣富士電視臺 實時翻譯四種語言字幕
    DoNews3月31日消息(記者 翟繼茹)據日本媒體報導,微軟正在運用AI技術幫助富士電視臺將網絡視頻自動翻譯成英語等四國語言。據了解,為了加速海外市場的擴展,富士電視臺已在DREAM FACTORY視頻網站運用AI技術將內容自動翻譯成英語、漢語、西班牙語和法語。
  • Alexa可以實時翻譯對話
    從今天開始,Alexa可以翻譯兩個說不同語言的人之間的對話。在啟動時,數字助理的新實時翻譯功能可在美國的Echo設備上使用,並支持英語和法語,德語,北印度語,義大利語,西班牙語或巴西葡萄牙語之間的翻譯。
  • AI實時翻譯助手亮相釘釘發布會
    人民網深圳6月24電 (易瀟)今晚,在深圳衛視直播的阿里釘釘2018春夏新品發布會上,釘釘推出商業場景一站式解決方案——「新商業套件」,其中一款帶著滿滿黑科技味道的產品亮相,這就是釘釘同阿里巴巴機器智能技術實驗室合作推出的最新產品:AI實時翻譯助手。
  • Facebook新AI模型可以直接對譯100種語言
    不管你在世界的哪個地方,美國、巴西、法國或者亞洲的婆羅洲島,藉助機器翻譯,谷歌和Facebook這類軟體都可以把平臺上的幾乎任何文本內容都翻譯成當地語言。 不過你可能不知道的是,多數翻譯系統都是將英語作為中介語言來進行的翻譯工作。也就是說,在把中文翻譯成法語時其實是中文先翻成英語再由英文翻成法語。
  • 人工智慧學習新語種的速度要快多倍,但 AI實時翻譯發展了到哪種水平?
    這一天來了,2020年10月21日,阿里達摩院聯合阿里旗下速賣通完成了全球首個多語言實時翻譯直播。該直播實時將中文直播內容精準翻譯成英語、俄語、西班牙語等語言。 速賣通是阿里巴巴旗下的跨境電商平臺,而打通速賣通任督二脈的利器就是AI實時翻譯了,可以在老外面前直播無障礙了。下圖,你們感受下,直接將你直播的話翻譯成外文,第一時間輸出。 人工翻譯整體水平欠佳,機器翻譯不到位,那麼,此時AI實時翻譯的到來,在外貿行業尤其最近異軍突起的的跨境電商行業可謂飲鴆止渴了。
  • 亞馬遜Alexa技能工具箱新增實時多種語言翻譯功能
    原標題:亞馬遜Alexa新增技能包:可實現多語言對話實時翻譯   據外媒消息,亞馬遜日前將實時翻譯添加到了Alexa的技能工具箱中,該助手獲得了更好的多語言翻譯支持。   亞馬遜宣布,Alexa助手目前已可以在英語、西班牙語、德語、法語、印地語、義大利語和葡萄牙語之間進行實時翻譯。
  • 蘋果宣布使用Siri實時翻譯11種語言
    蘋果公司剛剛宣布,iOS 14將在本周在線舉行的World Wide Developer Conference上提供11種語言的實時翻譯,甚至是離線語言。
  • AI實時翻譯:阿里釘釘推出的黑科技了解一下
    據釘釘方介紹,AI實時翻譯這款產品,主要是為解決辦公場景中不同類語言障礙帶來的低效溝通,讓商業跨越語言邊界。舉個簡單的例子,用中文版釘釘的你,和用英文版釘釘的同事溝通,因為語言版本不同,系統會智能提示你開啟實時翻譯功能,一鍵開啟之後,你輸入的中文消息內容會自動翻譯為英文,對方收到的消息就是翻譯好的英文;對方用英文給你發消息,也可實時翻譯為中文發給你。
  • Facebook 100種語言互譯模型原始碼公開!機器翻譯再也不用英語當...
    智東西(公眾號:zhidxcom)編 | 子佩智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。