百度世界2020再曝語義理解領域新進展:文心ERNIE全景圖亮相

2020-12-18 光明網

語言與知識技術的相關研究進展,影響著人工智慧理解世界的方式。9月15日,一年一度的科技圈盛會百度世界2020大會於線上召開,總臺央視主持人康輝,與百度創始人、董事長兼執行長(CEO)李彥宏的「虛擬人」在千萬觀眾面前亮相,不僅動作自然、栩栩如生,更與真人進行多輪流暢交互,引發網友驚嘆,滿足了人們對未來時代「智能管家」的許多想像。

而為虛擬人理解世界、理解語言起到關鍵作用的,正是語言與知識技術。在當天下午舉辦的百度大腦分論壇上,來自百度的傑出架構師、文心(ERNIE)負責人孫宇登臺演說,介紹知識增強語義理解框架文心(ERNIE)在語言理解、語言生成和跨模態語義理解等能力上的重大突破。此外,百度大腦提出了基於多流機制的預訓練語言生成技術ERNIE-GEN和知識增強跨模態語義理解技術ERNIE-ViL,其中,ERNIE-ViL首次將場景圖知識融入到跨模態的預訓練模型中。孫宇還介紹,百度文心語義理解技術平臺可為企業提供一整套NLP定製與應用能力,目前已累計支持2萬餘名開發者,覆蓋金融、通信、教育、電商等行業。

百度傑出架構師、文心(ERNIE)負責人孫宇

語義理解核心技術升級,文心多項NLP技術全球領先

據了解,知識增強語義理解框架文心(ERNIE)於去年發布,大幅提升機器理解語言的水平,更在國際權威的通用語言理解評估基準 GLUE上首次突破 90大關,超越人類三個點,獲得全球第一。文心的創新點在於,將大數據預訓練與多源豐富知識相結合,持續學習海量文本中詞彙、結構、語義等方面的知識,實現模型效果不斷進化,如同人類持續學習一般。

分論壇上,孫宇介紹,百度文心語義理解技術包括基於預訓練的語義表示、文章理解、文本匹配、文本生成等技術,以及可識別理解法律、金融文本的領域語義理解技術,並布局了跨模態、多語言、圖理解等前沿技術,形成了涵蓋基礎、應用、領域、拓展四大層面的全景圖。

在常識知識、多粒度語言知識、場景圖知識等多源知識學習的支持下,文心語義理解能力、語言生成能力和多模態語義理解能力都得到了進一步提升和拓展。同時,基於海量數據,百度大腦構造了多粒度自編碼任務和指代消解任務,推動文心在情感分析、文本分類、閱讀理解等八項典型自然語言理解任務效果上獲得進一步顯著提升。

自然語言生成方面,文心提出了基於多流機制的預訓練語言生成技術:ERNIE-GEN,在摘要生成、問題生成、多輪問答等自然語言生成任務上效果突出。同時,文心設計了多流注意力機制,融合逐詞生成和逐片段生成學習目標,學習語言中多粒度知識後,全面刷新了語言生成任務的世界最好效果,在學術界和產業界具備非常大的研究價值與應用價值。

文心更在多模態語義理解上取得重大突破,視覺推理技術ERNIE-ViL可以通過物體識別體育運動圖片中的運動場地及圖中人物,進一步區分人員衣服顏色,根據知識判斷穿出裁判和運動員的身份。理解細粒度語義的能力在這個推理的任務中發揮了關鍵的作用。ERNIE-ViL是業界首次將場景圖知識融入到跨模態的預訓練模型中,已廣泛應用於工業場景。

能力平臺化,百度大腦文心實現語義理解技術工業級應用落地

在人工智慧技術落地的進程中,實際需求往往呈現出應用複雜、成本高企、耗時過長、可迭代性差等痛點。對此,文心語義理解技術平臺應運而生。

孫宇介紹,文心平臺基於領先的語義理解技術,可為企業提供一整套NLP定製與應用能力,讓開發者更加簡單高效地定製企業級NLP模型。在文心平臺化服務中,提供了針對數據處理、模型訓練、模型評估、模型部署等環節的「工具箱」,一站式滿足開發者各類應用需求。此外,文心還提供了零門檻AI開發平臺EasyDL和全功能AI開發平臺BML兩種平臺支持方式。

一站式的NLP開發能力,既可以滿足開發者的需求,也降低了定製開發的成本。在落地實踐中,傳統產品需要5100條數據標註以訓練模型,而文心平均僅需220條,降低了90%的數據標註量。同時,文心通過預訓練模型,降低了90%以上的算力投入,及86%的模型開發時長,周期從一周縮短為一天,這對企業開發者更加友好。

文心的另一大優勢在於經過真實場景淬鍊。據介紹,文心已應用於百度內部包括搜尋引擎、推薦系統、智能音箱、智能客服等幾十條產品線,其工業級應用能力已得到驗證。目前,文心已經將NLP技術輸送到金融、通信、教育、電商等行業,顯著提升了這些企業智能應用的效果和效率。

作為「人工智慧皇冠上的明珠」,NLP領域向來是人工智慧技術研發與落地實踐的前沿,在新基建的大潮下,也催生出大量自然語言處理方面的需求。從2010年百度成立自然語言處理部算起,在NLP從技術和產業上全面布局已經走過整整十個年頭,不僅技術上形成先發優勢,更完成了產業落地的絕對領先,致力於將AI技術下沉到千行萬業,讓人和機器互相理解的圖景全面到來,造就更智能的未來時代。

相關焦點

  • 中國AI領域的「文心雕龍」:百度語義理解技術與平臺文心ERNIE
    9月15日,百度世界2020召開,作為「AI新型基礎設施」百度大腦6.0的重要組成部分,百度語義理解技術與平臺文心(ERNIE)在大會上的發布吸引了大量NLP開發者的目光,尤其基於多流機制的預訓練語言生成技術ERNIE-GEN、知識增強跨模態語義理解技術ERNIE-ViL等,均達到了世界領先水平。
  • 向語言與知識領域再下一城!百度世界2020文心升級深入產業應用
    原標題:向語言與知識領域再下一城!百度世界2020文心升級深入產業應用   語言與知識技術的相關研究進展,
  • 2020世界人工智慧大會最高榮譽SAIL獎揭曉:百度文心(ERNIE)獲獎
    7月9日,2020世界人工智慧大會(WAIC)正式開幕,大會頒布最高獎項SAIL獎(Super AI Leader,卓越人工智慧引領者),百度文心(ERNIE)知識增強語義理解技術與平臺獲獎,百度技術委員會主席吳華上臺領獎。
  • 百度人工智慧技術文心(ERNIE)摘得2020世界人工智慧大會最高獎項...
    7月9日,2020世界人工智慧大會 (WAIC) 正式開幕,大會頒布最高獎項 SAIL 獎 (Super AI Leader,卓越人工智慧引領者),百度文心 (ERNIE) 知識增強語義理解技術與平臺獲獎,百度技術委員會主席吳華上臺領獎。
  • 百度語義理解技術與平臺文心ERNIE:AI時代的文本智能化利器
    9月15日,百度世界2020召開,作為"AI新型基礎設施"百度大腦6.0的重要組成部分,百度語義理解技術與平臺文心(ERNIE)在大會上的發布吸引了大量NLP開發者的目光,尤其基於多流機制的預訓練語言生成技術ERNIE-GEN、知識增強跨模態語義理解技術ERNIE-ViL等,均達到了世界領先水平。
  • 百度文心(ERNIE)榮獲世界人工智慧大會SAIL獎,加速中國產業AI化轉型
    百度文心(ERNIE)獲得SAIL獎,百度技術委員會主席吳華(左四)領獎7月9日,2020世界人工智慧大會(WAIC)最高獎項SAIL獎(Super AI Leader,卓越人工智慧引領者)在大會開幕式上頒出,百度文心(ERNIE)知識增強語義理解技術與平臺獲獎,由百度技術委員會主席吳華現場上臺領獎。
  • 百度文心ERNIE獲頒「2020年度中國人工智慧學會年度優秀科技成果」
    為幫助海內外觀眾實時順暢了解各項報告內容,百度AI同傳為大會提供了同傳服務,效果頗佳。會上百度獲頒兩項大獎,王海峰榮獲 "2020年度中國人工智慧學會優秀科技工作者",基於知識增強的持續學習語義理解技術文心(ERNIE)獲頒"2020年度優秀科技成果",這是業界給予百度AI領軍人物及技術創新的高度認可。
  • CCHI2018:王海峰展示百度大腦最新能力「多模態深度語義理解」
    百度大腦是百度AI技術多年積累和業務實踐的集大成,包括視覺、語音、自然語言處理、知識圖譜、深度學習等AI核心技術和AI開放平臺,對內支持百度所有業務,對外全方位開放,助力合作夥伴和開發者,加速AI技術落地應用,賦能各行各業轉型升級。  百度大腦的演進,從基礎技術積累,到建立完整的技術體系,再到核心技術進入多模態深度語義理解階段,同時伴隨著百度多年的業務實踐和AI能力的全面開放。
  • 百度EasyDL全新升級,文心(ERNIE)3項能力助力快速定製企業級NLP模型
    近日,百度文心(ERNIE)重磅發布三項功能,新增定製多標籤文本分類、情感傾向分析模型等功能,同時數據管理能力也進一步增強,更好地滿足自然語言處理(NLP)領域開發者需求,開發者可通過百度AI開發平臺EasyDL進行使用。
  • 百度發布語言與知識三款新產品:文心、TextMind、AI同傳會議解決方案
    在今天舉辦的百度大腦語言與知識技術峰會上,百度集團副總裁吳甜接續發布語義理解技術與平臺文心(ERNIE)、智能文檔分析平臺TextMind和AI同傳會議解決方案3大新產品,同時發布了6項升級,包括智能創作平臺的3個場景方案、以及智能對話定製與服務平臺UNIT的3項全新升級。產品覆蓋語言理解、語言生成、對話、機器翻譯4大NLP領域重點研究方向。
  • CCKS 2019|百度CTO王海峰詳解知識圖譜與語義理解
    機器之心發布機器之心編輯部8 月 24 日至 27 日在杭州召開的 2019 年全國知識圖譜與語義計算大會(CCKS 2019)上,百度 CTO 王海峰發表了題為《知識圖譜與語義理解》的演講。對知識的研究貫穿於整個人工智慧的發展史,知識圖譜在人工智慧技術領域的熱度也逐年上升。王海峰認為,知識圖譜是讓機器像人類一樣理解客觀世界的基石。在演講中,他用生動的實例展示了百度在知識圖譜和語義理解領域的技術探索及應用,並探討了其未來的發展方向。
  • 百度集團副總裁吳甜:語言與知識技術沉澱匯聚加速產業智能化
    8 月 25 日,以「掌握知識、理解語言、擁有智能」為主題的百度大腦語言與知識技術峰會在線上舉辦,百度 CTO 王海峰深入解讀百度語言與知識技術的發展歷程與最新成果,分享技術及產業發展趨勢和展望,百度集團副總裁吳甜重磅推出 5 款產品的新發布,百度技術委員會主席吳華發布數據共建計劃和算力共享計劃,進一步為人工智慧大規模應用提速。
  • 世界人工智慧大會最高獎揭曉:IBM、聯影、百度、卡內基梅隆、清華...
    作為世界人工智慧大會的最高獎項,卓越人工智慧引領者(Super AI Leader,簡稱SAIL獎)今天上午在大會開幕式上舉行了頒獎儀式。 今年SAIL獎經過初評、複評角逐出入圍TOP30的項目,由SAIL終評專家評審選出2020 SAIL獲獎項目,並形成2020年度SAIL榜單。同時,今年SAIL與青年優秀論文獎合作,評選推薦人工智慧領域的優秀論文納入SAIL獲獎項目。
  • 機器之心獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類
    為此,機器之心專訪百度自然語言處理部技術負責人吳華、高級總監吳甜,就神經網絡機器翻譯系統的優缺點、如何獲得高質量訓練數據及百度翻譯目前進展展開話題。同時也藉此機會了解百度自然語言處理部及其開展的 NLP 技術研發工作。以下為採訪內容整理,以饗讀者。NMT、SMT 的優與缺機器之心:能請您先介紹一下百度 NLP 部門嗎?
  • 一文讀懂最強中文NLP預訓練模型ERNIE
    基於飛槳開源的持續學習的語義理解框架ERNIE 2.0,及基於此框架的ERNIE 2.0預訓練模型,在共計16個中英文任務上超越了BERT和XLNet, 取得了SOTA效果。本文帶你進一步深入了解ERNIE的技術細節。
  • 百度大腦3.0首提語義價值 視覺語義化將開啟AI新風口
    被誤認為真人的AI客服是今年百度展示的AI能力之一,它的背後是百度大腦的自然語言理解和語音識別與合成技術。會上,百度大腦3.0隆重發布。「百度大腦3.0的核心是『多模態深度語義理解』」,百度高級副總裁、AI技術平臺體系總負責人王海峰表示,「百度大腦3.0已經對外開放了110多項領先的AI能力。
  • 科技圈中X大未解之謎之一:谷歌BERT和百度ERNIE是什麼關係
    谷歌BERT,對於混跡於科技圈的程序猿肯定不陌生,如果你的研究領域剛好是NLP,可能會對BERT有更深入的了解,它是去年由谷歌發布的預訓練模型,曾在機器閱讀理解頂級水平測試SQuAD1.1中表現優異。
  • 百度AI的2020上半年
    2020 錄用;22篇論文入選計算機視覺領域「奧斯卡」CVPR 2020,且一舉拿下8項挑戰賽世界冠軍,涵蓋全視覺領域;百度基於飛槳平臺自研的知識增強的語義理解技術與平臺文心(ERNIE)連拿全球規模最大的語義評測比賽
  • 百度世界2020:百度AI新基建在央視「三軍會師」
    誠然,在「數字中國」的建設上,人工智慧已然是其中一種不可欠缺的新動能。隨著新基建的大幕來開,數位化時代的浪潮洶湧而來,在9月15日百度與央視新聞聯合舉辦的AI盛宴「萬物智能——百度世界2020」上,我們也能看到,以新動能推動新發展,以新發展創造新輝煌的數字中國場景正在加速走來。
  • 百度世界2020啟動,百度量子平臺用技術開啟量子時代大門
    9月15日,百度聯合央視新聞舉辦的「百度世界2020」大會在線上召開,廣大開發者、企業及合作夥伴不僅看到了百度AI全年最新、最前沿的技術、產品、解決方案等成果,也認識到了它背後的技術支撐——百度大腦。百度量子計算研究所自2018年3月8日成立以來,便一直以實現「百度量子,量子百度」為使命,希望通過進行技術儲備、人才培養以及生態建設等方面的努力,成為世界一流的量子人工智慧研究所,使百度做好迎接量子計算時代的準備;同時,在這一過程中不斷用量子計算賦能百度核心技術,積極探索量子創新業務。