無論您是從美國,巴西,婆羅洲還是法國登錄,Facebook都可以使用自動機器翻譯將其平臺上發布的幾乎所有書面內容翻譯成本地語言。實際上,僅Facebook的「新聞提要」每天就提供約200億筆翻譯。但是,這些系統通常使用英語作為中介步驟-也就是說,從中文到法語的翻譯實際上是從中文到英語到法語的翻譯。這樣做是因為往返於英語的翻譯數據集非常龐大且廣泛可用,但是將英語置於中間會降低整體翻譯的準確性,同時使整個過程變得比所需的更為複雜。這就是為什麼Facebook AI開發了一種新的MT模型,該模型可以在不使用英語的情況下直接在兩種語言(中文到法語以及法語到中文)之間進行雙向翻譯。
Facebook AI研究助理Angela Fan表示:「最大的挑戰實際上是,我們如何利用現有的翻譯系統,然後真正滿足世界各地人們的需求。「因此,您正在翻譯成人們真正想要的所有語言和所有方向。例如,世界上有很多地區人們會說多種語言,這些語言都不是英語,但是現有的翻譯系統嚴重依賴純英語的數據。」 她指出,在Facebook平臺上每天以160種語言發布的數十億篇文章中,三分之二是用英語以外的其他語言撰寫的。
Facebook稱其為M2M-100,它是第一個可以在100種語言中的任何一對之間直接來回翻譯的多語言機器翻譯模型(MMT)。總體而言,FBAI構建了一個龐大的數據集,其中包含100種語言的75億個句子。Facebook博客周一表示,研究小組利用這一點訓練了一個通用翻譯模型,該模型具有超過150億個參數「可以從相關語言中捕獲信息並反映出更加多樣化的語言和形態腳本」。
為此,Facebook必須使用各種新穎的技術收集來自世界各地的大量公開數據。範解釋說:「許多這些實際上是建立在我們在Facebook多年研究中所做的工作的基礎上的,就像我們今天為構建該系統而將所有不同的樂高積木一樣。」
首先,團隊使用CommonCrawl來維護Web爬網數據的開放存儲庫,以從網絡上收集文本示例。然後,他們開始使用FastText來識別文本所使用的語言,FastText是Facebook幾年前開發並開放原始碼的文本分類系統,「它基本上是在進行一些測試,並試圖確定所用的語言,」 Fan說。「因此,我們將網絡上的一堆文本劃分為所有這些不同的語言,然後我們的目標是識別將要翻譯的句子。」
她繼續說:「傳統上,人們使用人工翻譯來創建翻譯數據。」 「這在規模上是困難的,因為例如很難找到會說英語和泰米爾語的人,但是要找到一個會說法語和泰米爾語的人甚至更困難,因為非英語翻譯仍然是一個需要改進的領域。」
為了大規模挖掘必要的數據,Fan的團隊非常依賴LASER系統。她說:「它讀取句子,獲取文本並創建該文本的數學表示,從而使具有相同含義的句子映射到相同的思想。」 「因此,如果我有一個中文和法文的句子,並且他們說的是同一句話,它們將有點重疊-就像維恩圖一樣-重疊區域是我們認為是對齊句子的文本。」
當然,並非所有語言在網際網路上都有大量可用的書面內容。在這種情況下,範的團隊轉向了單語數據,即僅以一種語言編寫的數據。範先生以中文譯成法語的示例進行了解釋:「因此,如果我的目標是將中文翻譯成法語,但由於某種原因,我的翻譯質量不佳,那麼我將嘗試通過獲取文本單語數據來對此進行改進用法語。我要做的是對系統進行反向訓練:我從法語轉到中文。例如,我從Wikipedia提取所有法語,然後將其翻譯成中文。」
範繼續說,這樣做會產生大量機器生成的「合成」數據。「因此,我根據回譯的法語創建了此合成中文,然後將其再次添加到正向模型中。因此,我沒有從中文到法語,而是有中文加上我的補充合成中文,全部都用法語。而且因為這會在輸入端和輸出端添加大量新示例,所以該模型將更加強大。」
Fan指出,該項目的最終成功取決於AI可以利用的資源量。對於法語,中文,德語,西班牙語和北印度語等主要語言,這些資源非常豐富。「人們用這些語言在網絡上寫了大量文本,」範指出。「他們確實能夠幫助很多數據,我們的模型可以使用這些數據來變得更好。」
她繼續說:「我個人確定了在資源非常低的語言中我們可能需要改進的很多領域。」
Facebook正在將數據集,模型,培訓和評估設置發布為研究社區的開放源碼,以幫助刺激進一步的發展。該公司還計劃繼續獨立開發該系統,並最終將該技術應用於其日常運營中。