「金猿技術展」文心ERNIE——基於知識增強的語義理解技術

2021-01-11 數據猿DataYuan

該技術由百度申報並參與「數據猿年度金猿策劃活動——2020大數據產業創新技術突破榜榜單及獎項」評選。

文心(ERNIE)是一個取得世界級突破的語義理解技術與平臺,依託百度的深度學習平臺飛槳打造,將機器理解語言的水平提升到新的高度,全面刷新了各項NLP任務的世界最好效果,取得了諸多權威語義評測比賽的世界冠軍。除語言理解外,提出的基於多流機制生成完整語義片段語言生成技術ERNIE-GEN、知識增強跨模態語義理解技術ERNIE-ViL等,均達到世界領先水平。

文心平臺基於領先的語義理解核心技術,內置百度自研業界效果領先的預訓練模型集ERNIE和全面領先的算法集,將文本數據處理、基於深度學習的模型訓練、模型評估和上線部署等NLP開發流程進行易用性封裝,為NLP開發者提供一整套效果領先、簡單易用、高效靈活的NLP模型開發服務,文心平臺已廣泛應用於金融、通信、教育、電商等行業。

技術說明

文心的核心技術優勢在於,它開創性地將大數據預訓練與多源豐富知識相結合,通過持續學習技術,不斷吸收海量文本數據中詞彙、結構、語義等方面的新知識,實現模型效果不斷進化,如同人類持續學習一樣。

文心在語言生成領域也取得突破,提出了業界首個基於多流機制生成完整語義片段的預訓練語言生成技術ERNIE-GEN,該技術在各類語言生成任務上也顯著超越國際最好效果。

2020年7月,文心在多模態語義理解領域取得突破,提出了業界首個基於場景圖知識增強的多模態預訓練模型ERNIE-ViL,在多項典型多模態任務上刷新世界最好效果。

自2019年3月誕生至今,文心已經完成了3次重要迭代,並在多個公開權威語義評測中獲得了近十項世界冠軍。2019年12月,文心就在國際權威的通用語言理解評估基準 GLUE 上,首次突破90分,超過人類水平3個百分點,刷新榜單得分並獲得全球第一。2020年3月,在全球最大規模之一的語義評測 SemEval 2020上取得了5項世界冠軍。2020年7月,文心登頂視覺常識推理權威榜單 VCR。2020年7月9日,文心(ERNIE)獲世界人工智慧大會(WAIC)最高獎項SAIL獎。

文心相關創新成果也被人工智慧頂級學術會議 AAAI 2020和 IJCAI 2020收錄,並被全球頂級科技商業雜誌《麻省理工科技評論》、德國光譜雜誌,以及韓國 AITimes、日本 AI-SCHOLAR 等多國權威科技媒體官方報導。此次獲得 SAIL 獎,是對文心技術創新和應用探索的再一次肯定。

開發團隊

●帶隊負責人:孫宇

●隸屬機構:百度

北京百度網訊科技有限公司是百度旗下公司,成立於2001年6月5日,公司人員規模為5000-9999人。

相關評價

百度預訓練模型ERNIE超越微軟和谷歌獲得自然語言處理領域權威數據集GLUE最高分。GLUE測試的滿分為100分,人類的平均得分大概在87分左右,百度ERNIE則是在業界首次突破了90分。百度的成就能夠表明多樣化的貢獻參與將有助於推動人工智慧研究。ERNIE採用了連續培訓的方法,在培訓新數據和新任務的同時又不會遺忘已經積累的知識。如此,在不怎麼需要人工幹預的情況下,就能夠越來越好的執行更廣泛的任務。

——全球頂級科技商業雜誌《麻省理工科技評論》

2019年11月,ERNIE2.0論文《ERNIE 2.0: A Continual Pre-Training Framework for LanguageUnderstanding》被人工智慧頂級會議AAAI錄用並被選為Oral展示。

2020年1月,推出首個基於多流(multi-flow)機制生成完整語義片段的預訓練模型ERNIE-GEN,在摘要生成、問題生成、多輪問答等五個語言生成任務上刷新了SOTA效果。

2020年3月,在全球規模最大的語義評測比賽SemEval 2020中,ERNIE斬獲5項世界冠軍,囊括視覺媒體的關鍵文本片段挖掘、多語攻擊性語言檢測和混合語種的情感分析。

2020年4月,語言生成預訓練模型ERNIE-GEN論文被人工智慧頂級會議IJCAI錄用,在5個生成類任務上取得了SOTA效果。

2020年5月,基於知識增強的持續學習語義理解技術ERNIE榮獲《2020年度中國人工智慧學會優秀科技成果》。

2020年7月,發布ERNIE-ViL,首次將場景圖知識融入多模態預訓練,刷新了5項多模態任務紀錄,並登頂權威榜單VCR。

相關焦點

  • 中國AI領域的「文心雕龍」:百度語義理解技術與平臺文心ERNIE
    9月15日,百度世界2020召開,作為「AI新型基礎設施」百度大腦6.0的重要組成部分,百度語義理解技術與平臺文心(ERNIE)在大會上的發布吸引了大量NLP開發者的目光,尤其基於多流機制的預訓練語言生成技術ERNIE-GEN、知識增強跨模態語義理解技術ERNIE-ViL等,均達到了世界領先水平。
  • 百度語義理解技術與平臺文心ERNIE:AI時代的文本智能化利器
    9月15日,百度世界2020召開,作為"AI新型基礎設施"百度大腦6.0的重要組成部分,百度語義理解技術與平臺文心(ERNIE)在大會上的發布吸引了大量NLP開發者的目光,尤其基於多流機制的預訓練語言生成技術ERNIE-GEN、知識增強跨模態語義理解技術ERNIE-ViL等,均達到了世界領先水平。
  • 百度世界2020再曝語義理解領域新進展:文心ERNIE全景圖亮相
    而為虛擬人理解世界、理解語言起到關鍵作用的,正是語言與知識技術。在當天下午舉辦的百度大腦分論壇上,來自百度的傑出架構師、文心(ERNIE)負責人孫宇登臺演說,介紹知識增強語義理解框架文心(ERNIE)在語言理解、語言生成和跨模態語義理解等能力上的重大突破。
  • 百度世界2020大會NLP技術全面升級 文心ERNIE加速啟動產業落地
    而為虛擬人理解世界、理解語言起到關鍵作用的,正是語言與知識技術。在當天下午舉辦的百度大腦分論壇上,來自百度的傑出架構師、文心(ERNIE)負責人孫宇登臺演說,介紹知識增強語義理解框架文心(ERNIE)在語言理解、語言生成和跨模態語義理解等能力上的重大突破。
  • ...NLP模型ERNIE,基於知識增強,在多個中文NLP任務中表現超越BERT
    但是,BERT 模型的建模對象主要聚焦在原始語言信號上,較少利用語義知識單元建模。這個問題在中文方面尤為明顯,例如,BERT 在處理中文語言時,通過預測漢字進行建模,模型很難學出更大語義單元的完整語義表示。
  • 百度NLP十年:基於知識增強的語言技術,實現跨模態一體化理解
    從展示中也可以看到,在百度知心輸入法、圖片搜索、小度機器人、度秘、智能客服、數字員工等明星產品背後,百度語言與知識技術也經歷了與時俱進的演變:首先在研究方法上,百度語言與知識的研究方法從最早的基於規則的學習到機器學習,再到基於神經網絡的深度學習最後到現在基於知識增強的深度學習;第二是研究對象,百度語言與知識的研究對象從最開始的詞、短語、
  • 百度NLP十年:基於知識增強的語言技術,實現跨模態一體化理解
    從展示中也可以看到,在百度知心輸入法、圖片搜索、小度機器人、度秘、智能客服、數字員工等明星產品背後,百度語言與知識技術也經歷了與時俱進的演變:首先在研究方法上,百度語言與知識的研究方法從最早的基於規則的學習到機器學習,再到基於神經網絡的深度學習最後到現在基於知識增強的深度學習;第二是研究對象,百度語言與知識的研究對象從最開始的詞、短語、句子
  • 百度人工智慧技術文心(ERNIE)摘得2020世界人工智慧大會最高獎項...
    7月9日,2020世界人工智慧大會 (WAIC) 正式開幕,大會頒布最高獎項 SAIL 獎 (Super AI Leader,卓越人工智慧引領者),百度文心 (ERNIE) 知識增強語義理解技術與平臺獲獎,百度技術委員會主席吳華上臺領獎。
  • 百度發布NLP模型ERNIE,基於知識增強,在多個中文NLP任務中表現超越...
    但是,BERT 模型的建模對象主要聚焦在原始語言信號上,較少利用語義知識單元建模。這個問題在中文方面尤為明顯,例如,BERT 在處理中文語言時,通過預測漢字進行建模,模型很難學出更大語義單元的完整語義表示。
  • 百度世界2020文心ERNIE吸引眾多開發者目光 推動NLP技術向產業落地
    9月15日,百度世界2020召開,作為「AI新型基礎設施」百度大腦6.0的重要組成部分,百度語義理解技術與平臺文心(ERNIE)在大會上的發布吸引了大量NLP開發者的目光,尤其基於多流機制的預訓練語言生成技術ERNIE-GEN、知識增強跨模態語義理解技術ERNIE-ViL等,均達到了世界領先水平。
  • 2020世界人工智慧大會最高榮譽SAIL獎揭曉:百度文心(ERNIE)獲獎
    7月9日,2020世界人工智慧大會(WAIC)正式開幕,大會頒布最高獎項SAIL獎(Super AI Leader,卓越人工智慧引領者),百度文心(ERNIE)知識增強語義理解技術與平臺獲獎,百度技術委員會主席吳華上臺領獎。
  • 百度文心(ERNIE)榮獲世界人工智慧大會SAIL獎,加速中國產業AI化轉型
    百度文心(ERNIE)獲得SAIL獎,百度技術委員會主席吳華(左四)領獎7月9日,2020世界人工智慧大會(WAIC)最高獎項SAIL獎(Super AI Leader,卓越人工智慧引領者)在大會開幕式上頒出,百度文心(ERNIE)知識增強語義理解技術與平臺獲獎,由百度技術委員會主席吳華現場上臺領獎。
  • 百度文心ERNIE獲頒「2020年度中國人工智慧學會年度優秀科技成果」
    會上百度獲頒兩項大獎,王海峰榮獲 "2020年度中國人工智慧學會優秀科技工作者",基於知識增強的持續學習語義理解技術文心(ERNIE)獲頒"2020年度優秀科技成果",這是業界給予百度AI領軍人物及技術創新的高度認可。
  • 自然語言理解作為人工智慧皇冠上的明珠 百度真的摘到了
    AI 也不只是「一種技術」,而是「多個技術的最終集合體」,其中有任何一個技術出現短板都會影響 AI 技術水平的上限。但 AI 自己要突破最終的天花板還是要靠「自然語言理解」(即常說的 NLP) 能力的發展,這也意味著語言與知識等認知層面的技術突破將進一步促進 AI 深入發展。
  • 向語言與知識領域再下一城!百度世界2020文心升級深入產業應用
    百度大腦分論壇上,來自百度的傑出架構師、文心(ERNIE)負責人孫宇登臺演說,介紹知識增強語義理解框架文心(ERNIE)在語言理解、語言生成和跨模態語義理解等能力上的重大突破。此外,百度大腦提出了基於多流機制的預訓練語言生成技術ERNIE-GEN和知識增強跨模態語義理解技術ERNIE-ViL,其中,ERNIE-ViL首次將場景圖知識融入到跨模態的預訓練模型中。
  • 百度CTO王海峰詳解知識圖譜與語義理解
    CCKS 2019 由中國中文信息學會語言與知識計算專業委員會主辦,浙江大學承辦,以「知識智能」為主題,吸引了來自海內外的八百多名科研學者、工業界專家和知名企業代表參加。 對知識的研究貫穿於整個人工智慧的發展史,知識圖譜在人工智慧技術領域的熱度也逐年上升。王海峰認為,知識圖譜是讓機器像人類一樣理解客觀世界的基石。
  • 觀潮百度NLP十年:語言知識全布局,5款產品新發布、2大計劃
    百度提出的知識增強語義理解框架 ERNIE 以知識增強和持續學習為核心創新點,在深度學習的基礎上融入了知識,通過持續學習技術不斷吸收海量數據中的詞彙、結構、語義等方面的知識。在最具影響力的 NLP 評測基準 GLUE 上,ERNIE 在 10 個任務中的平均得分首次突破 90,刷新了榜單最高分,超越了人類水平。
  • 「明日專家直播」輕鬆玩轉中文預訓練模型的詳細攻略
    今年8月,百度重磅發布語義理解技術與平臺文心(ERNIE),為企業提供了一種革新性的應用範式,集先進的預訓練模型、全面的 NLP 算法集、端到端開發套件和平臺化服務於一體,提供一站式 NLP 開發與服務,讓企業用戶更簡單、高效地定製企業級文本模型。
  • 一文讀懂最強中文NLP預訓練模型ERNIE
    基於飛槳開源的持續學習的語義理解框架ERNIE 2.0,及基於此框架的ERNIE 2.0預訓練模型,在共計16個中英文任務上超越了BERT和XLNet, 取得了SOTA效果。本文帶你進一步深入了解ERNIE的技術細節。
  • 「今日專家直播」輕鬆玩轉中文預訓練模型的詳細攻略
    今年8月,百度重磅發布語義理解技術與平臺文心(ERNIE),為企業提供了一種革新性的應用範式,集先進的預訓練模型、全面的 NLP 算法集本周二(12月22日),「三小時 AI 開發進階」公開課第二講,百度資深研發工程師將會帶來 NLP 語義理解與預訓練技術講解、文心原理解析與最新技術解讀、技術應用實例分享,一小時課程乾貨滿滿,等你加入!