該技術由百度申報並參與「數據猿年度金猿策劃活動——2020大數據產業創新技術突破榜榜單及獎項」評選。
文心(ERNIE)是一個取得世界級突破的語義理解技術與平臺,依託百度的深度學習平臺飛槳打造,將機器理解語言的水平提升到新的高度,全面刷新了各項NLP任務的世界最好效果,取得了諸多權威語義評測比賽的世界冠軍。除語言理解外,提出的基於多流機制生成完整語義片段語言生成技術ERNIE-GEN、知識增強跨模態語義理解技術ERNIE-ViL等,均達到世界領先水平。
文心平臺基於領先的語義理解核心技術,內置百度自研業界效果領先的預訓練模型集ERNIE和全面領先的算法集,將文本數據處理、基於深度學習的模型訓練、模型評估和上線部署等NLP開發流程進行易用性封裝,為NLP開發者提供一整套效果領先、簡單易用、高效靈活的NLP模型開發服務,文心平臺已廣泛應用於金融、通信、教育、電商等行業。
技術說明
文心的核心技術優勢在於,它開創性地將大數據預訓練與多源豐富知識相結合,通過持續學習技術,不斷吸收海量文本數據中詞彙、結構、語義等方面的新知識,實現模型效果不斷進化,如同人類持續學習一樣。
文心在語言生成領域也取得突破,提出了業界首個基於多流機制生成完整語義片段的預訓練語言生成技術ERNIE-GEN,該技術在各類語言生成任務上也顯著超越國際最好效果。
2020年7月,文心在多模態語義理解領域取得突破,提出了業界首個基於場景圖知識增強的多模態預訓練模型ERNIE-ViL,在多項典型多模態任務上刷新世界最好效果。
自2019年3月誕生至今,文心已經完成了3次重要迭代,並在多個公開權威語義評測中獲得了近十項世界冠軍。2019年12月,文心就在國際權威的通用語言理解評估基準 GLUE 上,首次突破90分,超過人類水平3個百分點,刷新榜單得分並獲得全球第一。2020年3月,在全球最大規模之一的語義評測 SemEval 2020上取得了5項世界冠軍。2020年7月,文心登頂視覺常識推理權威榜單 VCR。2020年7月9日,文心(ERNIE)獲世界人工智慧大會(WAIC)最高獎項SAIL獎。
文心相關創新成果也被人工智慧頂級學術會議 AAAI 2020和 IJCAI 2020收錄,並被全球頂級科技商業雜誌《麻省理工科技評論》、德國光譜雜誌,以及韓國 AITimes、日本 AI-SCHOLAR 等多國權威科技媒體官方報導。此次獲得 SAIL 獎,是對文心技術創新和應用探索的再一次肯定。
開發團隊
●帶隊負責人:孫宇
●隸屬機構:百度
北京百度網訊科技有限公司是百度旗下公司,成立於2001年6月5日,公司人員規模為5000-9999人。
相關評價
百度預訓練模型ERNIE超越微軟和谷歌獲得自然語言處理領域權威數據集GLUE最高分。GLUE測試的滿分為100分,人類的平均得分大概在87分左右,百度ERNIE則是在業界首次突破了90分。百度的成就能夠表明多樣化的貢獻參與將有助於推動人工智慧研究。ERNIE採用了連續培訓的方法,在培訓新數據和新任務的同時又不會遺忘已經積累的知識。如此,在不怎麼需要人工幹預的情況下,就能夠越來越好的執行更廣泛的任務。
——全球頂級科技商業雜誌《麻省理工科技評論》
2019年11月,ERNIE2.0論文《ERNIE 2.0: A Continual Pre-Training Framework for LanguageUnderstanding》被人工智慧頂級會議AAAI錄用並被選為Oral展示。
2020年1月,推出首個基於多流(multi-flow)機制生成完整語義片段的預訓練模型ERNIE-GEN,在摘要生成、問題生成、多輪問答等五個語言生成任務上刷新了SOTA效果。
2020年3月,在全球規模最大的語義評測比賽SemEval 2020中,ERNIE斬獲5項世界冠軍,囊括視覺媒體的關鍵文本片段挖掘、多語攻擊性語言檢測和混合語種的情感分析。
2020年4月,語言生成預訓練模型ERNIE-GEN論文被人工智慧頂級會議IJCAI錄用,在5個生成類任務上取得了SOTA效果。
2020年5月,基於知識增強的持續學習語義理解技術ERNIE榮獲《2020年度中國人工智慧學會優秀科技成果》。
2020年7月,發布ERNIE-ViL,首次將場景圖知識融入多模態預訓練,刷新了5項多模態任務紀錄,並登頂權威榜單VCR。