打破語言藩籬,重建巴別塔是人類的遠古夢想,如今全球化語境下,更是一種當務之急。如何做到多語言交流和跨語義理解,也是人工智慧的「聖杯」課題。最近,百度人工智慧模型ERNIE-M,取得自然語言領域最新進展,它通過一個算法可以學習並同時掌握 96 門語言,不僅刷新5項經典多語言理解任務的世界最好成績,還一舉超越谷歌、微軟、臉書,問鼎國際權威多語言理解評測榜單 XTREME,邁出人工智慧領域自然語言處理技術的突破性一步,並在相關真實工業場景中落地,發揮出實際應用價值。
世界上存在6000餘種語言,這給不同國家與地區的交流帶來很多不便。人工智慧技術有助於打破語言的信息壁壘,搜尋引擎、智能客服、智能音箱等人工智慧系統不斷帶來更佳的用戶體驗。然而,這些系統的構建往往依賴於海量數據,使用單一語言訓練而無法直接應用於多語言,這對於數據稀少的小語種(比如布列塔尼語、冰島語)無疑挑戰巨大。如何用一個單一的語言算法或模型,理解多種語言,搭建起交流的橋梁,正是ERNIE-M 的研究目標。
當前,多語言語義理解的相關研究已經展開,主要是通過單一語言的語料分別學習不同語言的語義,再使用雙語語料對齊不同語言的語義。實驗表明,雙語語料可以顯著提升多語言模型性能。然而相對大規模的單語語料,雙語語料需要專業標註,獲取成本大,難以大規模收集。這使得多語言語義理解模型的效果受限。
為克服這一難題,百度基於回譯機制,提出首個從單語語料學習多語言語義對齊關係的預訓練模型 ERNIE-M,顯著提升包括自然語言推斷、語義檢索、語義相似度、命名實體識別、閱讀理解在內的 5 種典型跨語言理解任務效果,並於2021 年1月1號,以 80.9 分的成績登頂權威跨語言理解評測XTREME 榜首。
據知,ERNIE-M 本身包含很多技術創新,它基於百度飛槳框架訓練,構建了25 萬個多語言詞表,涵蓋了漢語、英語、法語、南非語、阿爾巴尼亞語、阿姆哈拉語、梵語、阿拉伯語、亞美尼亞語、阿薩姆語、亞塞拜然語等 96 種語言的常用詞彙,訓練語料約1.5萬億字符;它的學習過程由兩階段組成,第一階段從少量的雙語語料中學習跨語言理解能力,第二階段使用回譯的思想,增強模型的跨語言理解能力。
除了上述技術突破之外,ERNIE-M應用前景也很廣泛,該技術可將基於漢語研發的人工智慧系統,拓展到我國其他民族的語言理解上,幫助我們更好地分析各民族語言。此外,ERNIE-M 技術也可輔助語言學家和考古學家去理解已經瀕危或失傳的語言,更好地保護我們的民族文化。
ERNIE-M只是百度世界級語義理解技術與平臺文心(ERNIE)的眾多技術成果之一。自2019年3月誕生以來,文心(ERNIE)已完成3次重要迭代,在自然語言生成、語言-視覺等方面推出全新的模型,提供多模態語義理解研究新思路的同時,極大推動了人工智慧技術的發展。
2020年3月,文心(ERNIE)一舉拿下全球最大規模語義評測SemEval 5項世界冠軍;5月,文心(ERNIE)提出預訓練語言生成技術ERNIE-GEN,在語言生成領域實現重大突破;7月,文心(ERNIE)提出業多模態預訓練模型ERNIE-ViL,在多項典型多模態任務上刷新世界最好效果,並登頂多模態權威榜單VCR;同樣在7月,2020世界人工智慧大會最高獎項SAIL獎頒出,文心(ERNIE)獲獎。
值得一體的是,剛剛結束的 Wave Summit + 2020 峰會上,文心(ERNIE)又推出自然語言處理開發套件,其基於業界領先的語義理解技術,對外提供更加靈活的自然語言定製與服務能力,面向開發者和企業進行開放賦能。目前,文心(ERNIE)已通過百度AI開發平臺開放,廣泛應用於金融、通信、教育、網際網路等各行各業,大幅提升產品的智能化體驗,帶來了顯著經濟和社會效益。
— 完 —