根據《siliconangle》消息:Facebook表示其利用AI技術在不依賴英語數據的情況下翻譯任意兩種語言的嘗試,已經取得了實質性進展。Facebook正在開源一種名為M2M-100的新AI語言模型,該模型可以在100種語言中的任何一對之間進行翻譯。
據稱,以前的多語言模型嚴重依賴英語作為中介,例如,中文譯成法文的步驟通常是從中文譯成英文,然後再從英文譯成法文。在大多數情況下,這種模型都可以很好地工作,但是在涉及更複雜的句子和短語時通常不準確。
Facebook表示,M2M-100可以直接從中文翻譯成法語,或者在100多種語言對之間進行翻譯,從而更好地保留含義,而無需使用英語作為中介。
在這麼多不同的語言對之間進行翻譯不是一件容易的事,因為模型需要訪問海量的高質量訓練數據。Facebook人工智慧研究員Angela Fan在一篇博客文章中解釋了她和她的團隊如何著手創建一個龐大的「多對多」數據集,其中包含100多種不同語言的超過75億個句子。
這些數據根據諸如語言分類、地理和文化相似性等參數分為14種不同的語言組。然後,在每個語言組中,Facebook為每個語言標識一到三種「過渡語言」,作為將其翻譯成不同語言的基礎。
M2M-100模型比Facebook當前使用的以英語為中心的多語言模型準確度更高。該公司聲稱,M2M -100在評估機器翻譯的BLEU度量標準上比之前模型高出「10分」。
Facebook最終希望用M2M-100替換之前的翻譯模型,以提高其翻譯質量。(釘科技根據《siliconangle》消息編譯)