Facebook新AI可以將語言實時相互翻譯

2020-12-22 科技前言技術追蹤

無論您是從美國,巴西,婆羅洲還是法國登錄,Facebook都可以使用自動機器翻譯將其平臺上發布的幾乎所有書面內容翻譯成本地語言。實際上,僅Facebook的「新聞提要」每天就提供約200億筆翻譯。但是,這些系統通常使用英語作為中介步驟-也就是說,從中文到法語的翻譯實際上是從中文到英語到法語的翻譯。這樣做是因為往返於英語的翻譯數據集非常龐大且廣泛可用,但是將英語置於中間會降低整體翻譯的準確性,同時使整個過程變得比所需的更為複雜。這就是為什麼Facebook AI開發了一種新的MT模型,該模型可以在不使用英語的情況下直接在兩種語言(中文到法語以及法語到中文)之間進行雙向翻譯。

Facebook AI研究助理Angela Fan表示:「最大的挑戰實際上是,我們如何利用現有的翻譯系統,然後真正滿足世界各地人們的需求。「因此,您正在翻譯成人們真正想要的所有語言和所有方向。例如,世界上有很多地區人們會說多種語言,這些語言都不是英語,但是現有的翻譯系統嚴重依賴純英語的數據。」 她指出,在Facebook平臺上每天以160種語言發布的數十億篇文章中,三分之二是用英語以外的其他語言撰寫的。

Facebook稱其為M2M-100,它是第一個可以在100種語言中的任何一對之間直接來回翻譯的多語言機器翻譯模型(MMT)。總體而言,FBAI構建了一個龐大的數據集,其中包含100種語言的75億個句子。Facebook博客周一表示,研究小組利用這一點訓練了一個通用翻譯模型,該模型具有超過150億個參數「可以從相關語言中捕獲信息並反映出更加多樣化的語言和形態腳本」。

為此,Facebook必須使用各種新穎的技術收集來自世界各地的大量公開數據。範解釋說:「許多這些實際上是建立在我們在Facebook多年研究中所做的工作的基礎上的,就像我們今天為構建該系統而將所有不同的樂高積木一樣。」

首先,團隊使用CommonCrawl來維護Web爬網數據的開放存儲庫,以從網絡上收集文本示例。然後,他們開始使用FastText來識別文本所使用的語言,FastText是Facebook幾年前開發並開放原始碼的文本分類系統,「它基本上是在進行一些測試,並試圖確定所用的語言,」 Fan說。「因此,我們將網絡上的一堆文本劃分為所有這些不同的語言,然後我們的目標是識別將要翻譯的句子。」

她繼續說:「傳統上,人們使用人工翻譯來創建翻譯數據。」 「這在規模上是困難的,因為例如很難找到會說英語和泰米爾語的人,但是要找到一個會說法語和泰米爾語的人甚至更困難,因為非英語翻譯仍然是一個需要改進的領域。」

為了大規模挖掘必要的數據,Fan的團隊非常依賴LASER系統。她說:「它讀取句子,獲取文本並創建該文本的數學表示,從而使具有相同含義的句子映射到相同的思想。」 「因此,如果我有一個中文和法文的句子,並且他們說的是同一句話,它們將有點重疊-就像維恩圖一樣-重疊區域是我們認為是對齊句子的文本。」

當然,並非所有語言在網際網路上都有大量可用的書面內容。在這種情況下,範的團隊轉向了單語數據,即僅以一種語言編寫的數據。範先生以中文譯成法語的示例進行了解釋:「因此,如果我的目標是將中文翻譯成法語,但由於某種原因,我的翻譯質量不佳,那麼我將嘗試通過獲取文本單語數據來對此進行改進用法語。我要做的是對系統進行反向訓練:我從法語轉到中文。例如,我從Wikipedia提取所有法語,然後將其翻譯成中文。」

範繼續說,這樣做會產生大量機器生成的「合成」數據。「因此,我根據回譯的法語創建了此合成中文,然後將其再次添加到正向模型中。因此,我沒有從中文到法語,而是有中文加上我的補充合成中文,全部都用法語。而且因為這會在輸入端和輸出端添加大量新示例,所以該模型將更加強大。」

Fan指出,該項目的最終成功取決於AI可以利用的資源量。對於法語,中文,德語,西班牙語和北印度語等主要語言,這些資源非常豐富。「人們用這些語言在網絡上寫了大量文本,」範指出。「他們確實能夠幫助很多數據,我們的模型可以使用這些數據來變得更好。」

她繼續說:「我個人確定了在資源非常低的語言中我們可能需要改進的很多領域。」

Facebook正在將數據集,模型,培訓和評估設置發布為研究社區的開放源碼,以幫助刺激進一步的發展。該公司還計劃繼續獨立開發該系統,並最終將該技術應用於其日常運營中。

相關焦點

  • Alexa可以實時翻譯對話
    從今天開始,Alexa可以翻譯兩個說不同語言的人之間的對話。在啟動時,數字助理的新實時翻譯功能可在美國的Echo設備上使用,並支持英語和法語,德語,北印度語,義大利語,西班牙語或巴西葡萄牙語之間的翻譯。 請讓Alexa充當您想與之交談的人所講語言的翻譯。當你們兩個人交談時,Alexa會自動識別正在接受的人並根據需要進行翻譯。如果您擁有Echo Show,那麼除了聽音頻以外,您還將看到視覺翻譯。
  • Facebook新AI模型可以直接對譯100種語言
    不管你在世界的哪個地方,美國、巴西、法國或者亞洲的婆羅洲島,藉助機器翻譯,谷歌和Facebook這類軟體都可以把平臺上的幾乎任何文本內容都翻譯成當地語言。不過你可能不知道的是,多數翻譯系統都是將英語作為中介語言來進行的翻譯工作。也就是說,在把中文翻譯成法語時其實是中文先翻成英語再由英文翻成法語。
  • Facebook 100種語言互譯模型原始碼公開!機器翻譯再也不用英語當...
    智東西(公眾號:zhidxcom)編 | 子佩智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。
  • 阿里AI 實現全球首個實時翻譯直播,214 種語言翻譯支持今年雙 11
    10月21日,阿里完成全球首個多語言實時翻譯的電商直播,該直播展示了AI無懼嘈雜環境、口音不標準及口語化語言風格等問題,實時將中文直播內容精準翻譯成英語、俄語、西班牙語等語言。阿里方面透露,該技術將大規模應用於2020雙11。
  • 谷歌更新翻譯App 實時視頻翻譯語言已達27種
    日前,谷歌聲稱,其更新了iOS及Android版自家翻譯應用App可通過照片翻譯37種語言,通過語音翻譯32種語言,通過實時視頻翻譯27種語言。谷歌更新翻譯App 實時視頻翻譯語言已達27種  更新後,谷歌的字鏡頭(Word Lens)實時視頻翻譯功能和實時通話翻譯將更為強大。
  • 亞馬遜Alexa新增技能包:可實現多語言對話實時翻譯
    【宅秘新聞】據外媒消息,亞馬遜日前將實時翻譯添加到了Alexa的技能工具箱中,該助手獲得了更好的多語言翻譯支持。 亞馬遜宣布,Alexa助手目前已可以在英語、西班牙語、德語、法語、印地語、義大利語和葡萄牙語之間進行實時翻譯。
  • Line推出實時翻譯耳機,可翻譯10種語言
    科技改變生活12月4日,即時通訊應用開發商Line推出了一款叫做Mars的實時翻譯耳機,可翻譯漢語、韓語、英語、日語、西班牙語、法語、義大利語、越南語、泰語及印度尼西亞語10種語言。據悉,這款耳機搭載的即時翻譯系統是Line母公司NAVER研發的Papago,這是一款內置深度神經網絡的即時翻譯系統。
  • 阿里AI 實現首個實時翻譯直播,將大規模用於雙 11
    10 月 21 日,阿里完成全球首個多語言實時翻譯的電商直播,該直播展示了 AI 無懼嘈雜環境、口音不標準及口語化語言風格等問題,實時將中文直播內容精準翻譯成英語、俄語、西班牙語等語言。阿里方面透露,該技術將大規模應用於 2020 雙 11。
  • 驍龍AI 與有道攜手,利用實時翻譯架起世界溝通的橋梁
    然而,直到現在,語言仍是我們面對面溝通的一個障礙。儘管我們能夠向全球各地發送消息、撥打電話或是視頻聊天,但仍不能進行跨語言的流暢交談。現在,國內領先的智能學習公司——有道,正利用AI來解決這一問題。過去一年半的時間,Qualcomm持續與有道開展合作,通過終端側的實時翻譯來幫助人們打破語言的限制、輕鬆自如地進行溝通。想像一下:你與海外客戶進行電話會議。
  • Android版谷歌翻譯將新增實時音頻翻譯功能
    據外媒報導,谷歌計劃在未來某個時候為其Android版谷歌翻譯應用增加一個實時翻譯功能。該功能將允許用戶用一種語言錄製音頻然後實時用另一種語言呈現。雖然該功能仍處於原型階段,但谷歌周二在其舊金山辦公室的一系列人工智慧演示中展示了這項技術。
  • Amazon Alexa在Echo設備上獲得實時翻譯功能
    亞馬遜正在提升其語音助手在以語言為中心的技能部門的地位。Alexa現在可以進行實時翻譯,這使說兩種不同語言的用戶可以相互交流。實時翻譯功能使用Amazon的自動語音識別和文本轉語音技術。它可以「自動識別正在說哪種語言並翻譯每一側」,同時還可以考慮自然停頓。
  • 實時語音轉錄服務初創公司Otter.ai疫情期間使用量激增五倍
    作者:華夫餅編輯:tuya出品:財經塗鴉據公司情報專家《財經塗鴉》消息,實時語音轉錄服務初創公司Otter.ai已於近期增加新的功能,提供「實時視頻會議記錄」,用戶可直接記錄和查看通過「實時視頻會議記錄」功能,用戶可以從Zoom窗口的 LIVE菜單打開實時翻譯功能,獲得會議筆記,同時Zoom移動端也可以使用Otter的現場錄音功能。當會議結束時,用戶還可以參考會議記錄,將重要內容、評論、照片突出添加到筆記中。此外,該軟體的文字記錄還能幫助部分錯過在線會議的人回顧會議內容。
  • 谷歌翻譯的新實時轉錄功能上線
    谷歌有限責任公司今天宣布了一個新的,人工智慧驅動和接近實時轉錄功能的谷歌翻譯應用程式的普遍可用性。谷歌翻譯將能夠支持任何一對八種語言之間的轉錄翻譯,包括英語、法語、印地語、葡萄牙語、俄語、西班牙語和泰語。在一篇博客文章中,谷歌產品經理SamiIqram說,翻譯以前將不適用於更長的翻譯討論,例如在講座或會議或講故事時的談話。新功能將通過本周推出的谷歌翻譯應用程式的更新交付給Android用戶。
  • 無需依賴英語中介,Facebook 發布可翻譯 100 種語言的 AI 模型
    不過你可能不知道的是,多數翻譯系統都是將英語作為中間語言進行的翻譯工作。也就是說,在把中文翻譯成法語時其實是中文到英語再到法語的。這麼做的原因是因為英語翻譯的數據集(包括譯入和譯出)非常多而且容易獲得。但是,用英語作為中介語總體上降低了翻譯的準確性,同時讓整個流程更加複雜臃腫。
  • 微軟翻譯器和其他產品提供十種印度語言實時翻譯服務
    微軟印度宣布,微軟翻譯器現在將提供古吉拉特語、馬拉地語、卡納達語、馬來語和旁遮普語五種語言的實時翻譯。 微軟翻譯器允許用戶使用Windows、iOS、安卓和網絡版的Translate應用,翻譯實時對話、菜單和路標、網站、文檔等內容。
  • 支持108種語言的谷歌翻譯如何用AI讓翻譯質量越來越好?
    混合模型和數據挖掘器這些技術中的第一個是翻譯模型體系結構——一種混合體系結構,包含在Lingvo(用於序列建模的TensorFlow框架)中實現的Transformer編碼器和遞歸神經網絡(RNN)解碼器。在機器翻譯中,編碼器通常將單詞和短語編碼為內部表示,然後解碼器將其用於生成所需語言的文本。
  • 亞馬遜推出實時翻譯功能
    撰文/藍科技亞馬遜上個月增加了對其Alexa設備的多語言支持,現在這家零售巨頭已經推出了其Echo智能揚聲器能夠在兩種不同語言之間,進行實時翻譯的功能。這將會使Alexa可以進行英語、西班牙語、德語、法語、印地語、義大利語和巴西葡萄牙語的實時翻譯。該功能已針對美國用戶推出,但預計很快就會在其他地方使用。根據該公司信息顯示,Alexa能夠自動檢測所講的語言,然後實時翻譯對話的每一面。該功能的開發人員已修改Alexa,以更好地處理對話中的自然停頓。
  • 亞馬遜Alexa現在可以在Echo設備上實時翻譯
    亞馬遜的虛擬助手Alexa提供說不同語言的人之間對話的實時翻譯。該功能可在Echo設備上使用-目前僅限於美國-該功能支持英語和法語,德語,北印度語,義大利語,西班牙語或巴西葡萄牙語之間的翻譯。根據今天在亞馬遜博客上發布的帖子,在開始翻譯會話後,Alexa能夠自動識別所講的語言,並開始翻譯對話的雙方。
  • 不以英語為中心,百種語言互譯,FB開源首個單一多語言MT模型
    機器之心報導機器之心編輯部Facebook AI 近日開源了多語言機器翻譯模型 M2M-100,該模型不依賴以英語為中心的數據,可以實現 100 種語言之間的相互翻譯。機器翻譯(MT)打破了人類之間的語言障礙。
  • 新經濟加速營丨疫情期間逆勢增長300%,這家企業用AI翻譯38種語言
    一份100頁的PDF文件,在一分鐘的時間內就可以被翻譯38種語言,準確率可達到85-95%。成都新經濟企業創新加速營三期入營企業之一——四川譯訊信息科技有限公司,正通過超4000億字的多語平行語料資料庫,以AI技術顛覆翻譯賽道。