機器之心報導
機器之心編輯部
2021 年伊始,百度在自然語言處理領域取得最新突破,發布多語言預訓練模型 ERNIE-M。ERNIE-M 通過對 96 門語言的學習,使得一個模型能同時理解 96 種語言,該項技術在 5 類典型跨語言理解任務上刷新世界最好效果。在權威跨語言理解榜單 XTREME 上,ERNIE-M 也登頂榜首,超越微軟、谷歌、Facebook 等機構提出的模型。據了解,基於飛槳實現的 ERNIE-M 模型也會於近期開源。
論文連結: https://arxiv.org/pdf/2012.15674.pdf
文心平臺: https://wenxin.baidu.com/
開源地址: https://github.com/PaddlePaddle/ERNIE
跨語言理解
隨著人工智慧技術的不斷發展,搜尋引擎、智能客服、智能音箱等人工智慧系統不斷給人們帶來更好的體驗。然而,這些系統的構建往往依賴於大量的標註數據,而許多系統使用單一語言訓練,並不能直接應用於其他語言,這對於機器理解標註語料稀少的小語種(比如布列塔尼語、冰島語)來說無疑是一個巨大的挑戰。如何構建統一的語言模型,理解多種語言,是近年來自然語言處理領域研究的熱點。
多語言模型對於小語種這種低資源語言的理解十分有幫助。以情感分析系統為例,構建情感分析系統往往需要大量有標籤數據,而小語種語言中的有標籤數據十分稀缺,因而搭建小語種語言的情感分析系統十分困難。依託多語言模型的跨語言遷移能力可以解決該問題,在高資源語言標註數據上訓練的模型直接對小語種語言進行理解,搭建小語種語言的情感分析系統。
XTREME 評測是谷歌研究院、DeepMind 和卡耐基梅隆大學於 2020 年 4 月發布的涵蓋了 12 個語系 40 種語言的多語言權威評測榜單。其包括文本分類、結構化預測、語義檢索和閱讀理解等四類自然語言處理任務的 9 個數據集,自發布以來便引起了紐約大學、谷歌、微軟等頂尖國際學術機構和科技公司激烈角逐。
2021 年 1 月 1 日,ERNIE-M 在以 80.9 分的成績登頂榜首,刷新了該榜單記錄。
ERNIE-M 背景
當前的技術主要通過單語語料分別學習不同語言的語義,再使用雙語語料將不同語言的語義對齊。然而大部分語種的雙語語料十分稀疏,限制了多語言模型的效果。為了突破雙語語料規模對多語言模型的學習效果限制,提升跨語言理解的效果,百度研究人員提出基於回譯機制,從單語語料中學習語言間的語義對齊關係的預訓練模型 ERNIE-M,顯著提升包括跨語言自然語言推斷、語義檢索、語義相似度、命名實體識別、閱讀理解在內的 5 種典型跨語言理解任務效果,並登頂權威跨語言理解評測 XTREME 榜首。
ERNIE-M 原理
ERNIE-M基於飛槳PaddlePaddle框架訓練,該模型構建了大小為25萬的多語言詞表,涵蓋了96種語言的大多數常見詞彙,訓練語料包含了漢語、英語、法語、南非語、阿爾巴尼亞語、阿姆哈拉語、梵語、阿拉伯語、亞美尼亞語、阿薩姆語、亞塞拜然語等96種語言,約1.5萬億字符。ERNIE-M的學習過程由兩階段組成。第一階段從少量的雙語語料中學習跨語言理解能力,使模型學到初步的語言對齊關係;第二階段使用回譯的思想,通過大量的單語語料學習,增強模型的跨語言理解能力。
在第一階段的學習中,ERNIE-M 提出了 Cross-attention Masked Language Modeling (CAMLM) 預訓練算法。該算法在少量雙語語料上捕捉語言間的對齊信息。在 CAMLM 中,將一對雙語句子記為 <源句子,目標句子>。CAMLM 需要在不利用源句子上下文的情況下,通過目標句子還原被掩蓋的詞語。例如:輸入的句子對是 <明天會 [MASK][MASK] 嗎,Will it be sunny tomorrow>,模型需要只使用英文句子 <Will it be sunny tomorrow> 來推斷中文句子中掩蓋住的詞 <天晴>,使模型初步建模了語言間的對齊關係。
在此基礎上,ERNIE-M 又提出了 Back-translation Masked Language Modeling (BTMLM) 預訓練算法。該方法基於回譯機制從單語語料中學習語言間的對齊關係。首先,通過第一階段學習到的 CAMLM 模型生成偽平行句子,然後讓模型學習生成的偽平行句子。模型在還原被掩蓋的單詞時,不僅可以依賴原始輸入句子,也可以依賴生成的偽平行句子。例如,輸入的單語句子是 <我真的很喜歡吃蘋果>,模型首先會依據輸入的句子 <我真的很喜歡吃蘋果> 生成偽雙語平行句子 <我真的很喜歡吃蘋果,eat apples>。然後再對生成的偽平行句子 <我真的很喜歡吃[MASK][MASK],eat apples > 學習。通過這種方式,ERNIE-M 利用單語語料更好地建模語義對齊關係。
實驗效果
ERNIE-M 在跨語言自然語言推斷、閱讀理解、命名實體識別、語義相似度、跨語言檢索等 5 個公開數據集上進行了實驗,均取得了最優效果。百度研究人員通過兩種方式評測了 ERNIE-M 的效果。
1)Cross-lingual Transfer:該方式將英文訓練的模型直接在其他語言上測試,驗證模型的跨語言理解能力。例如,讓模型理解 「這家餐廳環境不錯」 是正向情感,模型需要判斷 「I am very happy.」 也是正向的情感。在實際應用中,如果缺乏某種語言的標註數據,該技術可以通過其他語言的標註數據對多語言模型訓練解決該問題,降低小語種系統的構建難度。
2)Multi-language Fine-tuning:該方式使用所有語言的標註數據對模型進行多任務訓練,驗證在有本語言標註數據的情況下,模型能否利用其他語言的數據,進一步增強該語言的理解效果。
跨語言檢索
跨語言檢索任務是在雙語語料庫中檢索語義相同的句子,如下圖所示,ERNIE-M 可使得用戶只用某一種語言,例如漢語,便可檢索到其他語言的結果,如英語、法語、德語等結果。該技術使信息跨越不同語言之間的鴻溝,幫助全球的網民搜索到更多有價值的信息。ERNIE-M 在跨語言檢索數據集 Tatoeba 上取得了準確率 87.9% 的效果。
自然語言推斷
自然語言推斷是自然語言理解中的一項重要的基準任務,該任務的目標是判斷兩句話之間的邏輯關係。多語言數據集 XNLI 數據集包含 15 種語言,既有英語、法語等常見語言也有斯瓦希裡語等小語種語言。
ERNIE-M 在 Cross-lingual Transfer 和 Multi-language Fine-tuning 兩種模式下驗證了效果,研究者用英語對 ERNIE-M 進行微調訓練,在漢語、德語、烏爾都語等語言上測試,能達到平均準確率 82.0% 的效果。如果使用所有語言的訓練語料,準確率可以進一步提升到 84.2%。
閱讀理解
閱讀理解任務的目標是根據文章回答指定問題。為了評測 ERNIE-M 在閱讀理解任務上的效果,ERNIE-M 在 Facebook 提出的 MLQA 多語言閱讀理解數據集上進行了評測。在該任務中,模型需要先在英語上進行訓練,再在其他語言的數據集上評測。此項任務可以評估模型在跨語言問答任務的效果,幫助跨語言問答系統的搭建。該任務如下圖所示,ERNIE-M 在僅使用英語訓練的情況下,不同語言的問題中有 55.3% 可以完全回答正確。
命名實體識別
命名實體識別任務的目標是識別出文章中的人名、地名、時間、機構等信息。其可以幫助人們快速地從大量文章中提取出有價值的信息。如下圖所示,使用多語言模型可以幫助我們在小語種文章上做信息抽取。ERNIE-M 在 CoNLL 數據集上進行評測,同時在 Cross-lingual Transfer 和 Multi-language Fine-tuning 兩種模式下驗證了效果。研究者用英語對 ERNIE-M 進行微調訓練,在荷蘭語、西班牙語和德語上進行了測試,平均 F1 能達到 81.6%,如果使用所有語言的訓練語料,平均 F1 可進一步提升至 90.8%。
結語
打破不同語言之間的隔閡,實現機器跨語言理解是人工智慧領域攻堅的重要難題。此次,百度的多語言預訓練模型 ERNIE-M 首次提出從單語語料中學習語義對齊關係的預訓練算法,打破了雙語語料大小對多語言模型的效果限制,為跨語言的語義理解研究提供了新的思路。ERNIE-M 技術具有廣泛的應用前景,該技術可將基於漢語研發的人工智慧系統,拓展到我國其他民族的語言理解上,幫助我們更好地分析各民族語言。此外,ERNIE-M 技術也可輔助語言學家和考古學家去理解已經瀕危或失傳的語言,更好地保護我們的民族文化。
在剛剛結束的 Wave Summit + 2020 峰會上,百度文心語義理解技術平臺(https://wenxin.baidu.com/)又推出了文心 NLP 開發套件,其基於業界領先的語義理解技術,對外提供更加靈活的 NLP 定製與服務能力,面向開發者和企業進行開放賦能。目前,文心平臺已廣泛應用於金融、通信、教育、網際網路等各行各業,助力產業智能化發展。