「金猿技術展」文心ERNIE——基於知識增強的語義理解技術

2021-01-11 數據猿DataYuan

該技術由百度申報並參與「數據猿年度金猿策劃活動——2020大數據產業創新技術突破榜榜單及獎項」評選。

文心(ERNIE)是一個取得世界級突破的語義理解技術與平臺,依託百度的深度學習平臺飛槳打造,將機器理解語言的水平提升到新的高度,全面刷新了各項NLP任務的世界最好效果,取得了諸多權威語義評測比賽的世界冠軍。除語言理解外,提出的基於多流機制生成完整語義片段語言生成技術ERNIE-GEN、知識增強跨模態語義理解技術ERNIE-ViL等,均達到世界領先水平。

文心平臺基於領先的語義理解核心技術,內置百度自研業界效果領先的預訓練模型集ERNIE和全面領先的算法集,將文本數據處理、基於深度學習的模型訓練、模型評估和上線部署等NLP開發流程進行易用性封裝,為NLP開發者提供一整套效果領先、簡單易用、高效靈活的NLP模型開發服務,文心平臺已廣泛應用於金融、通信、教育、電商等行業。

技術說明

文心的核心技術優勢在於,它開創性地將大數據預訓練與多源豐富知識相結合,通過持續學習技術,不斷吸收海量文本數據中詞彙、結構、語義等方面的新知識,實現模型效果不斷進化,如同人類持續學習一樣。

文心在語言生成領域也取得突破,提出了業界首個基於多流機制生成完整語義片段的預訓練語言生成技術ERNIE-GEN,該技術在各類語言生成任務上也顯著超越國際最好效果。

2020年7月,文心在多模態語義理解領域取得突破,提出了業界首個基於場景圖知識增強的多模態預訓練模型ERNIE-ViL,在多項典型多模態任務上刷新世界最好效果。

自2019年3月誕生至今,文心已經完成了3次重要迭代,並在多個公開權威語義評測中獲得了近十項世界冠軍。2019年12月,文心就在國際權威的通用語言理解評估基準 GLUE 上,首次突破90分,超過人類水平3個百分點,刷新榜單得分並獲得全球第一。2020年3月,在全球最大規模之一的語義評測 SemEval 2020上取得了5項世界冠軍。2020年7月,文心登頂視覺常識推理權威榜單 VCR。2020年7月9日,文心(ERNIE)獲世界人工智慧大會(WAIC)最高獎項SAIL獎。

文心相關創新成果也被人工智慧頂級學術會議 AAAI 2020和 IJCAI 2020收錄,並被全球頂級科技商業雜誌《麻省理工科技評論》、德國光譜雜誌,以及韓國 AITimes、日本 AI-SCHOLAR 等多國權威科技媒體官方報導。此次獲得 SAIL 獎,是對文心技術創新和應用探索的再一次肯定。

開發團隊

●帶隊負責人:孫宇

●隸屬機構:百度

北京百度網訊科技有限公司是百度旗下公司,成立於2001年6月5日,公司人員規模為5000-9999人。

相關評價

百度預訓練模型ERNIE超越微軟和谷歌獲得自然語言處理領域權威數據集GLUE最高分。GLUE測試的滿分為100分,人類的平均得分大概在87分左右,百度ERNIE則是在業界首次突破了90分。百度的成就能夠表明多樣化的貢獻參與將有助於推動人工智慧研究。ERNIE採用了連續培訓的方法,在培訓新數據和新任務的同時又不會遺忘已經積累的知識。如此,在不怎麼需要人工幹預的情況下,就能夠越來越好的執行更廣泛的任務。

——全球頂級科技商業雜誌《麻省理工科技評論》

2019年11月,ERNIE2.0論文《ERNIE 2.0: A Continual Pre-Training Framework for LanguageUnderstanding》被人工智慧頂級會議AAAI錄用並被選為Oral展示。

2020年1月,推出首個基於多流(multi-flow)機制生成完整語義片段的預訓練模型ERNIE-GEN,在摘要生成、問題生成、多輪問答等五個語言生成任務上刷新了SOTA效果。

2020年3月,在全球規模最大的語義評測比賽SemEval 2020中,ERNIE斬獲5項世界冠軍,囊括視覺媒體的關鍵文本片段挖掘、多語攻擊性語言檢測和混合語種的情感分析。

2020年4月,語言生成預訓練模型ERNIE-GEN論文被人工智慧頂級會議IJCAI錄用,在5個生成類任務上取得了SOTA效果。

2020年5月,基於知識增強的持續學習語義理解技術ERNIE榮獲《2020年度中國人工智慧學會優秀科技成果》。

2020年7月,發布ERNIE-ViL,首次將場景圖知識融入多模態預訓練,刷新了5項多模態任務紀錄,並登頂權威榜單VCR。

相關焦點

  • 百度ERNIE語義理解開源套件重磅升級 零基礎也能秒變NLP達人
    話不多說直接上才藝:如此簡潔易用,得益於本次ERNIE語義理解開源開發套件的全新升級。藉助國產深度學習框架飛槳動態圖優勢,本次升級實現了「動態圖」與「靜態圖」的完美結合,即「一套代碼,兩種運行方式」,使得開發者更加高效、方便的使用ERNIE解決工業生產中的各類NLP問題,達到簡單幾行代碼即可實現基於ERNIE的文本分類、情感分析等經典NLP任務。
  • 一文讀懂最強中文NLP預訓練模型ERNIE
    基於飛槳開源的持續學習的語義理解框架ERNIE 2.0,及基於此框架的ERNIE 2.0預訓練模型,在共計16個中英文任務上超越了BERT和XLNet, 取得了SOTA效果。本文帶你進一步深入了解ERNIE的技術細節。
  • 中國人工智慧學會2020年度優秀科技成果出爐,百度文心入選
    會上百度獲頒兩項大獎,王海峰榮獲 "2020年度中國人工智慧學會優秀科技工作者",基於知識增強的持續學習語義理解技術文心(ERNIE)獲頒"2020年度優秀科技成果"。最終,共有包括北京農業信息技術研究中心趙春江、百度王海峰、湖南大學王耀南等13位專家學者榮獲"2020年度中國人工智慧學會優秀科技工作者","智慧無人農場關鍵技術與裝備"、"基於知識增強的持續學習語義理解技術ERNIE"、"腦網絡組圖譜繪製及其應用"等14項技術成果榮獲"2020年度優秀科技成果"。
  • 「2018年全國知識圖譜與語義計算大會」開始徵文!
    全國知識圖譜與語義計算大會是兩個全國性會議的合併:中文知識圖譜研討會 the Chinese Knowledge Graph Symposium (CKGS) 和中國語義網際網路與 Web 科學大會 Chinese Semantic Web and Web Science Conference (CSWS)。
  • 百度EasyDL全新升級,文心(ERNIE)3項能力助力快速定製企業級NLP模型
    近日,百度文心(ERNIE)重磅發布三項功能,新增定製多標籤文本分類、情感傾向分析模型等功能,同時數據管理能力也進一步增強,更好地滿足自然語言處理(NLP)領域開發者需求,開發者可通過百度AI開發平臺EasyDL進行使用。
  • 「金猿產品展」Stratifyd——AI驅動的增強智能數據分析平臺
    3)核心文本分析功能利NLP、NLU技術結合聚類算法快速處理批量然語本數據,提煉流話題,了解客戶情感態度和觀點意圖。結合定義本話題標籤具Taxonomy,定向監控重要議題發展趨勢。4)語音轉寫與分析基於自然語言處理技術,支持將呼叫中心的電話錄音轉換成文本數據,並導入AI數據分析平臺。
  • 百度工程師詳解技術選型與模型...
    「百度EasyDL AI開發公開課」中,百度資深研發工程師、文心語義理解平臺技術負責人龍心塵結合世界領先的文心(ERNIE)語義理解技術,通過產業實踐案例,深入解析技術選型和模型調優的方法,分享了工程實踐中的經驗。
  • 百度NLP | 神經網絡語義匹配技術
    傳統的文本匹配技術如信息檢索中的向量空間模型 VSM、BM25 等算法,主要解決詞彙層面的匹配問題,或者說詞彙層面的相似度問題。而實際上,基於詞彙重合度的匹配算法有很大的局限性,原因包括:1)語言的多義同義問題相同的詞在不同語境下,可以表達不同的語義,例如「蘋果」既表示水果,也表示一家科技公司。
  • AI算法瞬間學習理解96種語言 斬獲國際權威競賽冠軍
    為克服這一難題,百度基於回譯機制,提出首個從單語語料學習多語言語義對齊關係的預訓練模型 ERNIE-M,顯著提升包括自然語言推斷、語義檢索、語義相似度、命名實體識別、閱讀理解在內的 5 種典型跨語言理解任務效果,並於2021 年1月1號,以 80.9 分的成績登頂權威跨語言理解評測XTREME 榜首。
  • 前沿|通用句子語義編碼器,谷歌在語義文本相似性上的探索
    近年來,基於神經網絡的自然語言理解研究取得了快速發展(尤其是學習語義文本表示),這些深度方法給人們帶來了全新的應用,且還可以幫助提高各種小數據集自然語言任務的性能。本文討論了兩篇關於谷歌語義表示最新進展的論文,以及兩種可在 TensorFlow Hub 上下載的新模型。
  • 李偉:輿情事件等級評估及基於語義理解實現文本精細化分類
    與會的數據建模、計算機技術應用、輿情領域專家學者就如何有效地利用新技術完善重大風險評估體系建設進行了分享和探討。人民網輿情數據中心主任數據分析師李偉分享的主題是:輿情事件等級評估及基於語義理解實現文本精細化分類。
  • 機器之心獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類
    翻譯質量對比,來自 Google Research Blog即便如此,網友發現其翻譯效果雖有顯著提升,但仍未避免將「我想下班」翻譯為「I want to work」等低級錯誤(第二天已被修復)。事實上百度的在線翻譯系統,一年前就應用了基於神經網絡的翻譯方法(NMT)。
  • YOCSEF「知識圖譜」專題探索班成功舉辦,五大高校、三大企業共話...
    目前,金融行業面臨著金融體系主體繁多、股權網絡龐大、結構複雜等難題,但他們有自己的優勢,他們有國內 400 多家商業銀行的股權信息,在工商銀行也有超過一億三元組信息數據。金融知識圖譜有助於實現股權「穿透式」監管,協助金融主管部門進行系統性金融風險的識別、防範與化解。基於金融知識圖譜,洪亮副教授團隊建立了知融金融大數據平臺。
  • CVPR 2018:新型語義分割模型:動態結構化語義傳播網絡DSSPN
    不同於只將每個神經元的父神經元的特徵傳遞進來,受 DenseNets [16] 影響,本研究引入了一種新型密集語義增強神經塊,它緊密地集成了所有 ancestor 神經元的特徵來深化學習每個神經元的特徵表示。通過將所有 ancestor 神經元習得的知識廣播到每個子神經元中,DSSPN 可以更有效地利用語義相關性和繼承性來進行特徵學習。
  • 研發空間智能技術,「宸境科技」想要打造城市級別鏡像世界
    隨著5G的全面鋪開和AI技術的日趨成熟,空間智能技術逐漸得到了市場關注。空間智能(Spatial Intelligence)是指通過空間計算能力和AI技術將空間、場景、數據和用戶連接起來,結合時間維度拓寬用戶的感知邊界。「宸境科技」是國內一家專注於空間智能技術的創業公司。
  • 解鎖三角獸,語義分析如何成就爆款產品?
    比如用戶搜索時說「半月傳」,系統也可以明白用戶的意圖,輸出「羋月傳」的結果。還有「神探夏洛特」也可以自動識別成「神探夏洛克」。4A 被小米稱為首臺人工智慧語音電視,這背後集聚了三角獸科技的模糊語義理解和問答技術,而這家公司也曾因為向錘子科技 Big Bang 語義識別功能提供底層技術而備受關注。
  • 入門| 一文了解什麼是語義分割及常用的語義分割方法有哪些
    語義分割是計算機視覺中的基礎任務,我們通常會使用基於 CNN 加 CRF 的方法或直接使用對抗性的訓練實現端到端的分割。本文簡要介紹了這兩種方法及它們的特點。人類是如何描述場景的?我們可能會說「窗戶下有一張桌子」,或者「沙發右邊有一盞燈」。
  • 李航:人工智慧的未來 ——記憶、知識、語言
    他直奔門前,高喊「太好了」,並張開雙臂緊緊地抱住黛博拉。克萊夫一邊和黛博拉親吻,一邊說「你來了,真讓我吃驚」。接著兩人又開始擁抱,好像分別已久。坐下來後,黛博拉用溫柔的眼光看著克萊夫說「其實我今天早上也來過」,克萊夫搖搖頭反駁道「不可能,這是我今天第一次見到你。」這樣的場景每天都在黛博拉和克萊夫之間重複上演。
  • AI晶片、框架、語言與知識、量子計算……百度大腦6.0發布
    百度大腦分論壇帶來這些「黑科技」的全面揭秘,展示了百度大腦的技術升級與演進。百度CTO王海峰發布了百度大腦6.0,升級為「AI新型基礎設施」。「知識增強的跨模態深度語義理解」讓百度大腦的理解能力更加強大,飛槳深度學習平臺與百度崑崙晶片的升級則為開發者提供了更優的算法開發平臺和更強大的算力。