同時掌握96門語言,多項世界突破,百度發布預訓練模型ERNIE-M

2021-01-11 機器之心Pro

機器之心報導

機器之心編輯部

2021 年伊始,百度在自然語言處理領域取得最新突破,發布多語言預訓練模型 ERNIE-M。ERNIE-M 通過對 96 門語言的學習,使得一個模型能同時理解 96 種語言,該項技術在 5 類典型跨語言理解任務上刷新世界最好效果。在權威跨語言理解榜單 XTREME 上,ERNIE-M 也登頂榜首,超越微軟、谷歌、Facebook 等機構提出的模型。據了解,基於飛槳實現的 ERNIE-M 模型也會於近期開源。

論文連結: https://arxiv.org/pdf/2012.15674.pdf

文心平臺: https://wenxin.baidu.com/

開源地址: https://github.com/PaddlePaddle/ERNIE

跨語言理解

隨著人工智慧技術的不斷發展,搜尋引擎、智能客服、智能音箱等人工智慧系統不斷給人們帶來更好的體驗。然而,這些系統的構建往往依賴於大量的標註數據,而許多系統使用單一語言訓練,並不能直接應用於其他語言,這對於機器理解標註語料稀少的小語種(比如布列塔尼語、冰島語)來說無疑是一個巨大的挑戰。如何構建統一的語言模型,理解多種語言,是近年來自然語言處理領域研究的熱點。

多語言模型對於小語種這種低資源語言的理解十分有幫助。以情感分析系統為例,構建情感分析系統往往需要大量有標籤數據,而小語種語言中的有標籤數據十分稀缺,因而搭建小語種語言的情感分析系統十分困難。依託多語言模型的跨語言遷移能力可以解決該問題,在高資源語言標註數據上訓練的模型直接對小語種語言進行理解,搭建小語種語言的情感分析系統。

XTREME 評測是谷歌研究院、DeepMind 和卡耐基梅隆大學於 2020 年 4 月發布的涵蓋了 12 個語系 40 種語言的多語言權威評測榜單。其包括文本分類、結構化預測、語義檢索和閱讀理解等四類自然語言處理任務的 9 個數據集,自發布以來便引起了紐約大學、谷歌、微軟等頂尖國際學術機構和科技公司激烈角逐。

2021 年 1 月 1 日,ERNIE-M 在以 80.9 分的成績登頂榜首,刷新了該榜單記錄。

ERNIE-M 背景

當前的技術主要通過單語語料分別學習不同語言的語義,再使用雙語語料將不同語言的語義對齊。然而大部分語種的雙語語料十分稀疏,限制了多語言模型的效果。為了突破雙語語料規模對多語言模型的學習效果限制,提升跨語言理解的效果,百度研究人員提出基於回譯機制,從單語語料中學習語言間的語義對齊關係的預訓練模型 ERNIE-M,顯著提升包括跨語言自然語言推斷、語義檢索、語義相似度、命名實體識別、閱讀理解在內的 5 種典型跨語言理解任務效果,並登頂權威跨語言理解評測 XTREME 榜首。

ERNIE-M 原理

ERNIE-M基於飛槳PaddlePaddle框架訓練,該模型構建了大小為25萬的多語言詞表,涵蓋了96種語言的大多數常見詞彙,訓練語料包含了漢語、英語、法語、南非語、阿爾巴尼亞語、阿姆哈拉語、梵語、阿拉伯語、亞美尼亞語、阿薩姆語、亞塞拜然語等96種語言,約1.5萬億字符。ERNIE-M的學習過程由兩階段組成。第一階段從少量的雙語語料中學習跨語言理解能力,使模型學到初步的語言對齊關係;第二階段使用回譯的思想,通過大量的單語語料學習,增強模型的跨語言理解能力。

在第一階段的學習中,ERNIE-M 提出了 Cross-attention Masked Language Modeling (CAMLM) 預訓練算法。該算法在少量雙語語料上捕捉語言間的對齊信息。在 CAMLM 中,將一對雙語句子記為 <源句子,目標句子>。CAMLM 需要在不利用源句子上下文的情況下,通過目標句子還原被掩蓋的詞語。例如:輸入的句子對是 <明天會 [MASK][MASK] 嗎,Will it be sunny tomorrow>,模型需要只使用英文句子 <Will it be sunny tomorrow> 來推斷中文句子中掩蓋住的詞 <天晴>,使模型初步建模了語言間的對齊關係。

在此基礎上,ERNIE-M 又提出了 Back-translation Masked Language Modeling (BTMLM) 預訓練算法。該方法基於回譯機制從單語語料中學習語言間的對齊關係。首先,通過第一階段學習到的 CAMLM 模型生成偽平行句子,然後讓模型學習生成的偽平行句子。模型在還原被掩蓋的單詞時,不僅可以依賴原始輸入句子,也可以依賴生成的偽平行句子。例如,輸入的單語句子是 <我真的很喜歡吃蘋果>,模型首先會依據輸入的句子 <我真的很喜歡吃蘋果> 生成偽雙語平行句子 <我真的很喜歡吃蘋果,eat apples>。然後再對生成的偽平行句子 <我真的很喜歡吃[MASK][MASK],eat apples > 學習。通過這種方式,ERNIE-M 利用單語語料更好地建模語義對齊關係。

實驗效果

ERNIE-M 在跨語言自然語言推斷、閱讀理解、命名實體識別、語義相似度、跨語言檢索等 5 個公開數據集上進行了實驗,均取得了最優效果。百度研究人員通過兩種方式評測了 ERNIE-M 的效果。

1)Cross-lingual Transfer:該方式將英文訓練的模型直接在其他語言上測試,驗證模型的跨語言理解能力。例如,讓模型理解 「這家餐廳環境不錯」 是正向情感,模型需要判斷 「I am very happy.」 也是正向的情感。在實際應用中,如果缺乏某種語言的標註數據,該技術可以通過其他語言的標註數據對多語言模型訓練解決該問題,降低小語種系統的構建難度。

2)Multi-language Fine-tuning:該方式使用所有語言的標註數據對模型進行多任務訓練,驗證在有本語言標註數據的情況下,模型能否利用其他語言的數據,進一步增強該語言的理解效果。

跨語言檢索

跨語言檢索任務是在雙語語料庫中檢索語義相同的句子,如下圖所示,ERNIE-M 可使得用戶只用某一種語言,例如漢語,便可檢索到其他語言的結果,如英語、法語、德語等結果。該技術使信息跨越不同語言之間的鴻溝,幫助全球的網民搜索到更多有價值的信息。ERNIE-M 在跨語言檢索數據集 Tatoeba 上取得了準確率 87.9% 的效果。

自然語言推斷

自然語言推斷是自然語言理解中的一項重要的基準任務,該任務的目標是判斷兩句話之間的邏輯關係。多語言數據集 XNLI 數據集包含 15 種語言,既有英語、法語等常見語言也有斯瓦希裡語等小語種語言。

ERNIE-M 在 Cross-lingual Transfer 和 Multi-language Fine-tuning 兩種模式下驗證了效果,研究者用英語對 ERNIE-M 進行微調訓練,在漢語、德語、烏爾都語等語言上測試,能達到平均準確率 82.0% 的效果。如果使用所有語言的訓練語料,準確率可以進一步提升到 84.2%。

閱讀理解

閱讀理解任務的目標是根據文章回答指定問題。為了評測 ERNIE-M 在閱讀理解任務上的效果,ERNIE-M 在 Facebook 提出的 MLQA 多語言閱讀理解數據集上進行了評測。在該任務中,模型需要先在英語上進行訓練,再在其他語言的數據集上評測。此項任務可以評估模型在跨語言問答任務的效果,幫助跨語言問答系統的搭建。該任務如下圖所示,ERNIE-M 在僅使用英語訓練的情況下,不同語言的問題中有 55.3% 可以完全回答正確。

命名實體識別

命名實體識別任務的目標是識別出文章中的人名、地名、時間、機構等信息。其可以幫助人們快速地從大量文章中提取出有價值的信息。如下圖所示,使用多語言模型可以幫助我們在小語種文章上做信息抽取。ERNIE-M 在 CoNLL 數據集上進行評測,同時在 Cross-lingual Transfer 和 Multi-language Fine-tuning 兩種模式下驗證了效果。研究者用英語對 ERNIE-M 進行微調訓練,在荷蘭語、西班牙語和德語上進行了測試,平均 F1 能達到 81.6%,如果使用所有語言的訓練語料,平均 F1 可進一步提升至 90.8%。

結語

打破不同語言之間的隔閡,實現機器跨語言理解是人工智慧領域攻堅的重要難題。此次,百度的多語言預訓練模型 ERNIE-M 首次提出從單語語料中學習語義對齊關係的預訓練算法,打破了雙語語料大小對多語言模型的效果限制,為跨語言的語義理解研究提供了新的思路。ERNIE-M 技術具有廣泛的應用前景,該技術可將基於漢語研發的人工智慧系統,拓展到我國其他民族的語言理解上,幫助我們更好地分析各民族語言。此外,ERNIE-M 技術也可輔助語言學家和考古學家去理解已經瀕危或失傳的語言,更好地保護我們的民族文化。

在剛剛結束的 Wave Summit + 2020 峰會上,百度文心語義理解技術平臺(https://wenxin.baidu.com/)又推出了文心 NLP 開發套件,其基於業界領先的語義理解技術,對外提供更加靈活的 NLP 定製與服務能力,面向開發者和企業進行開放賦能。目前,文心平臺已廣泛應用於金融、通信、教育、網際網路等各行各業,助力產業智能化發展。

相關焦點

  • 登頂GLUE的百度ERNIE再突破:語言生成預訓練模型ERNIE-GEN刷新SOTA
    今日,研究團隊又在自然語言生成任務上實現新的突破。他們提出了首個基於多流(multi-flow)機制生成完整語義片段的預訓練模型 ERNIE-GEN,顯著提升了自然語言生成任務效果。藉助飛槳的高效分布式訓練優勢,百度開源了 ERNIE-GEN 的英文預訓練模型,並對開源工具進行了動靜合一升級,核心代碼精簡了 59% 。
  • AI算法瞬間學習理解96種語言 斬獲國際權威競賽冠軍
    最近,百度人工智慧模型ERNIE-M,取得自然語言領域最新進展,它通過一個算法可以學習並同時掌握 96 門語言,不僅刷新5項經典多語言理解任務的世界最好成績,還一舉超越谷歌、微軟、臉書,問鼎國際權威多語言理解評測榜單 XTREME,邁出人工智慧領域自然語言處理技術的突破性一步,並在相關真實工業場景中落地,發揮出實際應用價值。
  • 智源研究院發布超大規模新型預訓練模型「文匯」參數量級達113億
    日前,北京智源人工智慧研究院(以下簡稱智源研究院)聯合阿里、清華等多家單位發布超大規模新型預訓練模型「文匯」,旨在探索解決當前大規模自監督預訓練模型不具有認知能力的問題。項目由智源研究院發起的「悟道」攻關團隊完成,團隊成員包括智源研究院、阿里巴巴、清華大學、中國人民大學、中國科學院等。
  • AIOpen 預訓練語言模型專刊徵稿
    2018 年 ELMo、BERT 和 GPT 的成功發布,表明了預訓練語言模型(PLM)的成功,隨後又在自然語言理解和生成方面取得了重大突破。目前,在探索更有效的預訓練架構方面,已經做了很多卓有成效的工作,比如使用跨模態數據、跨語言數據和結構化知識等方法改進預訓練語言模型,或將 PLM 創新地應用於各種與 NLP 相關的任務。
  • 百度世界2020文心ERNIE吸引眾多開發者目光 推動NLP技術向產業落地
    9月15日,百度世界2020召開,作為「AI新型基礎設施」百度大腦6.0的重要組成部分,百度語義理解技術與平臺文心(ERNIE)在大會上的發布吸引了大量NLP開發者的目光,尤其基於多流機制的預訓練語言生成技術ERNIE-GEN、知識增強跨模態語義理解技術ERNIE-ViL等,均達到了世界領先水平。
  • 向語言與知識領域再下一城!百度世界2020文心升級深入產業應用
    在當天下午舉辦的百度大腦分論壇上,來自百度的傑出架構師、文心(ERNIE)負責人孫宇登臺演說,介紹知識增強語義理解框架文心(ERNIE)在語言理解、語言生成和跨模態語義理解等能力上的重大突破。此外,百度大腦提出了基於多流機制的預訓練語言生成技術ERNIE-GEN和知識增強跨模態語義理解技術ERNIE-ViL,其中,ERNIE-ViL首次將場景圖知識融入到跨模態的預訓練模型中。
  • 百度語義理解技術與平臺文心ERNIE:AI時代的文本智能化利器
    9月15日,百度世界2020召開,作為"AI新型基礎設施"百度大腦6.0的重要組成部分,百度語義理解技術與平臺文心(ERNIE)在大會上的發布吸引了大量NLP開發者的目光,尤其基於多流機制的預訓練語言生成技術ERNIE-GEN、知識增強跨模態語義理解技術ERNIE-ViL等,均達到了世界領先水平。
  • 谷歌發布最大語言模型:等於9個GPT-3,訓練成本卻低得多
    這一語言模型正是Switch Transformer,自稱是迄今為止最大的模型,其預訓練速度是谷歌以前開發的最大語言模型(T5-XXL)的4倍。在分布式訓練設置中,模型的稀疏激活層在不同設備上分配唯一的權重。所以,模型權重隨設備數量的增加而增加,同時在每個設備上保持可管理的內存和計算空間。
  • 「明日專家直播」輕鬆玩轉中文預訓練模型的詳細攻略
    今年8月,百度重磅發布語義理解技術與平臺文心(ERNIE),為企業提供了一種革新性的應用範式,集先進的預訓練模型、全面的 NLP 算法集、端到端開發套件和平臺化服務於一體,提供一站式 NLP 開發與服務,讓企業用戶更簡單、高效地定製企業級文本模型。
  • 華為諾亞方舟開源預訓練模型「哪吒」,4項任務均達到SOTA
    BERT之後,新的預訓練語言模型XLnet、RoBERTa、ERNIE不斷推出,這次,華為諾亞方舟實驗室開源了基於BERT的中文預訓練語言模型NEZHA(哪吒),寓意模型能像哪吒那樣三頭六臂、大力出奇蹟,可以處理很多不同的自然語言任務。 據介紹,當前版本的NEZHA基於BERT模型,並進行了多處優化,能夠在一系列中文自然語言理解任務達到先進水平。
  • 134個預訓練模型,百度視覺算法最強基石PaddleClas全新升級
    機器之心發布機器之心編輯部百度 PaddlePaddle 團隊開發的 PaddleClas 是一個適用於業界和學界的圖像分類任務工具集,可以幫助用戶訓練更好的計算機視覺模型並應用於真實場景中。更高精度的模型:基於百度自研的知識蒸餾方案(SSLD),PaddleClas 開源了 14 個 SSLD 分類預訓練模型,精度普遍提升 3% 以上;其中 ResNet50_vd 模型在 ImageNet-1k 數據集上的 Top-1 精度達到了 84.0%,Res2Net200
  • 百度ERNIE語義理解開源套件重磅升級 零基礎也能秒變NLP達人
    同時,新版ERNIE開源套件還為廣大初學者提供了豐富的AI Studio教程,用戶無需自己提供GPU,即可運行ERNIE來完成各類NLP任務,做到了「人人有AI學」。 除此以外,新版ERNIE的環境配置也很簡單,大部分的依賴都可以通過pip安裝。
  • 復旦邱錫鵬教授:2020最新NLP預訓練模型綜述
    根據「表徵類型的不同」,作者將預訓練模型的發展「主要劃分為了兩代」: 第一代預訓練模型由於「不是致力於解決下遊任務」,主要致力於「學習好word embeddings本身,即不考慮上下文信息(context-free),只關注詞本身的語義(semantic meanings),」,同時為了計算的考慮,這些模型通常非常淺。
  • 打破語言壁壘,百度翻譯同傳為智源大會構建跨國溝通橋梁
    針對這些難題,百度翻譯團隊展開攻關,先後提出了集成預測與可控時延的翻譯模型、語義單元驅動的上下文感知翻譯模型、融合音節與文本的聯合編碼模型、基於知識蒸餾的端到端同傳模型、語音識別與翻譯交互解碼等一系列創新技術,在語音容錯、平衡質量與時延、語篇翻譯連貫性和端到端同傳模型等方面取得突破,研發了高質量、低時延的機器同傳系統。
  • 復旦邱錫鵬超全NLP預訓練模型綜述論文:兩張圖帶你梳理完整脈絡
    自從 BERT 橫空出世以後,儘管算力要求比較大,但預訓練語言模型仍層出不窮,有點類似當年 GAN 大量更新的盛況。雖然只過去了一兩年,但形形色色的預訓練語言模型確實讓我們弄不清楚整體狀況到底是什麼樣的。
  • 從百度AI的成績單看出百度走向下一個十年的決心
    今天,百度發布了《百度AI的2020》,回顧了過去的一年:2020年,百度AI技術上持續突破,AI進入工業化大生產,成為堅實的AI基礎設施。2020年,百度AI以更加智能的產品和業務點亮大眾生活,同時向各行各業輸送百度的AI技術成果與平臺能力,促進產業智能化升級。
  • 百度如何在世界人工智慧大會C位出道? AI硬實力光芒難掩
    同時,吳甜還詳細解析了獲得本屆世界人工智慧大會最高獎的文心(ERNIE),揭開其背後的「神秘」技術。   隨著NLP預訓練模型和遷移學習機制技術的突破,對於使用場景更加分散、場景本身更加複雜的NLP任務,百度推出了快速、高效實現開發需求的不同平臺及技術解決方案,比如2019年首次提出的文心(ERNIE)。
  • 2020啟智開發者大會開幕 百度飛槳正式發布「OpenI-星辰PPSIG共建...
    本屆啟智開發者大會上,發布了多項啟智社區重要的項目成果。百度牽頭的"OpenI-飛槳",正式發布了"OpenI-星辰PPSIG共建計劃",號召全球有志於生物計算、量子計算、貝葉斯概率網絡等十大前沿領域奮勇探索的開發者攜手創新。
  • ...語言模型提供常識知識!中科院信工所雛鷹團隊在SemEval上大顯神威
    近期一些工作表明,預訓練語言模型除了在語言理解上具有很好的性能之外,通過在大規模語料上進行學習,其內部已經習得了某些常識知識。因此,我們不僅僅將預訓練語言模型看做上下文編碼器,用以產生句子的表示,同時,我們還把預訓練語 模型看做知識存儲器,希望在問答過程中可以隱式地利用預訓練語言模型提供常識知識。