近日,Facebook 宣稱已經開發出一種人工智慧翻譯系統,能夠在 100 種語言之間進行精確翻譯,而不需要像許多現有 AI 翻譯那樣先翻譯成英語在翻譯成目標語言。
圖 | 新翻譯系統使 Facebook 每天能做 200 億份翻譯任務(來源:incamerastock / Alamy)
在學術機構用來自動評估機器翻譯質量的 100 分制中,該人工智慧的表現比同類翻譯系統高出 10 分。該模型的翻譯也由人類進行了翻譯評估,其準確率約為 90%。
Facebook 的研究人員在網上收集了 100 種語言的 75 億對句子,然後對翻譯 AI 進行訓練。當然,並非所有語言的句子對數量都相同。Facebook 智能翻譯項目負責人安吉拉範 (Angela Fan) 說:「全球有很多地區使用兩種語言,而且其中並不包括英語。我真正感興趣的是,我們不需要再用英語作為『中間人』。」
該翻譯 AI 的訓練方法關注的是那些通常需要相互切換的語言,然後根據地理和文化相似性將語言分為 14 個不同的集合。這確保了對更常用的交流進行高質量的翻譯,並更準確地訓練模型。
對於一些語言對來說,新翻譯系統比現有的翻譯質量有了顯著提高。例如,將西班牙語翻譯成葡萄牙語的難度特別大,因為西班牙語是世界上使用人數第二多的官方語言,這意味著研究人員可以獲得大量的訓練數據。英語和白俄羅斯語之間的翻譯質量也比現有系統有所提高,因為白俄羅斯語和俄語有相似之處,AI 通過翻譯俄語進行了訓練。
目前該系統還沒有在社交網站上使用,但 Facebook 計劃很快將其投入使用。Facebook 希望藉助它來處理人們每天使用 160 多種語言撰寫的帖子時產生的 200 億份翻譯任務。未來,Facebook 還將解決其他語言上的翻譯難題,Fan 說,「特別是那些我們沒有很多數據的語言,比如東南亞和非洲的語言。」
愛爾蘭都柏林聖三一大學 ADAPT 中心的 Sheila Castilho 說,這項工作 「打破了以英語為中心的翻譯模式,並試圖建立更多樣化的多語言翻譯模式,讓人耳目一新。」 但 Castilho 表示,人類只評估考察了一小部分翻譯實例,這是否是對人工智慧表現的準確判斷尚未可知。
她還擔心,這項評估是由雙語志願者完成的,而不是專業的翻譯人員。她說:「非專業人士缺乏翻譯知識,因此可能不會注意到一個翻譯比另一個翻譯更好的細微差別。」
她在 ADAPT 中心的同事 Andy Way 認為,Facebook 並沒有和最先進的翻譯系統進行公平的比較。他說:「他們聲稱新系統比『以英語為中心』的翻譯模式有了很大的進步,這種說法有點空洞,因為大多數時候,人們已經不這麼做了」。然而 Facebook 不同意這種說法,稱通過英語翻譯仍然是普遍現象。