百度世界2020文心ERNIE吸引眾多開發者目光 推動NLP技術向產業落地

2021-01-10 砍柴網

語言與知識技術,被歸類為認知智能,一直是人工智慧最熱門的研究與應用領域。9月15日,百度世界2020召開,作為「AI新型基礎設施」百度大腦6.0的重要組成部分,百度語義理解技術與平臺文心(ERNIE)在大會上的發布吸引了大量NLP開發者的目光,尤其基於多流機制的預訓練語言生成技術ERNIE-GEN、知識增強跨模態語義理解技術ERNIE-ViL等,均達到了世界領先水平。

文心(ERNIE)是百度在語言與知識領域深耕多年的技術大成,同時登頂國際權威榜單GLUE也代表著中國語義理解技術在世界舞臺的地位。

隨著企業智能化轉型的深入,智能文本處理得需求廣泛存在,通用API/SDK已無法充分滿足需求,而傳統的NLP 定製方法在實際的產業應用中面臨著不少問題,包括:需要較多高質量的人工標註數據、缺少NLP技術選型與模型調優經驗、迭代調優耗時長等,再加上往往需要高昂的算力花費,讓不少企業望而生畏。對此,在今年8月25日的百度大腦語言與知識技術峰會上,百度集團副總裁吳甜重磅發布語義理解技術與平臺文心(ERNIE),為企業提供了一種革新性的應用範式,集先進的預訓練模型、全面的NLP算法集、端到端開發套件和平臺化服務於一體,提供一站式NLP開發與服務,讓企業用戶更簡單、高效地定製企業級文本模型。

百度通過將世界領先的NLP技術成果開放給業界,降低了NLP技術的準入門檻,讓各大產業都能快速擁有構建和應用文本智能的能力,為產業智能化提供了全新的加速度。在今年7月的世界人工智慧大會(WAIC)上,文心(ERNIE)更是摘得了大會最高榮譽SAIL獎(Super AI Leader,卓越人工智慧引領者),在人工智慧領域技術創新和應用探索等方面獲得權威肯定。

目前,文心(ERNIE)累計支持2萬餘名開發者,覆蓋金融、通信、教育、電商等行業,並在多個公開權威語義評測中獲得了近十項世界冠軍。

破局NLP建模難題,為企業NLP應用按下加速鍵

從數據到應用,文心提供一整套文本建模能力

文心(ERNIE)基於領先的語義理解核心技術,內置百度自研業界效果領先的預訓練模型集ERNIE和全面領先的算法集,將文本數據處理、基於深度學習的模型訓練、模型評估和上線部署等NLP開發流程進行易用性封裝,為NLP開發者提供一整套效果領先、簡單易用、高效靈活的NLP模型開發服務。

豐富的文本數據處理能力,擺脫繁瑣數據處理流程

不論是網際網路領域還是傳統行業,大量的企業核心信息都分布在非結構化的文本數據中。在IDC的報告中也提及:「最近幾年全球新增的數據中,有80%來自非結構化數據。」一方面,這些文本數據蘊含著的高價值信息,對企業的良性發展至關重要;另一方面,對這些信息的處理往往要耗費大量的人力,也是一筆不小的成本。

數據是模型訓練的起點。而在實際業務應用中,文本數據在數據處理的環節就要面臨數據標註成本高、數據樣本不均衡、數據質量不高、格式處理繁瑣等一系列問題。

數據標註成本高?交給文心「智能標註」能力

一般來說,高質量的標註數據越多,模型的效果就會越好。但數據標註本身就是件耗時耗力又耗錢的事情,如何能夠低成本獲取大量高質量標註數據對企業來說至關重要。文心(ERNIE)提供了全新的「智能標註」能力,開發者只需要標註少量數據,文心就可以基於這部分數據學習、優化,結合人工校正,快速完成大量無標註數據的高質量標註。

(體驗文心智能標註功能,可登錄EasyDL)

數據樣本分布不均?「數據增強」功能試一試

在實際的應用場景中,往往會面臨文本數據的樣本分布不均的情況。比如NLP領域常見的文本審核任務,需精準分類出正常文本和敏感文本,是一個典型的文本分類問題。但在實際的數據收集中,正常樣本與敏感樣本的數量很容易失衡,經常會遇到9:1(90%的正常樣本),甚至差異更大的情況,但又要求訓練出的模型能夠更全召回敏感文本。這種情況就需要文本「數據增強」的功能,來豐富和擴展敏感樣本的數量,讓數據更豐富、比例更適合。

此外,還有數據噪聲多、格式處理繁瑣等問題,文心也一一提供了解決方案:文本「數據降噪」幫助開發者快速定位高噪聲數據,支持豐富數據格式和配套的預處理能力。

超強實力的預訓練模型和算法集,快速get高質量模型

文心(ERNIE)內置百度自研業界效果領先的中文預訓練模型和NLP優質算法集。其中ERNIE預訓練模型開創性地將大數據預訓練與多源豐富知識相結合,通過持續學習技術,不斷吸收海量文本數據中詞彙、結構、語義等方面的新知識,實現模型效果不斷進化,如同人類持續學習一樣。這些硬核實力也讓它在去年12月,斬獲自然語言理解權威榜單GLUE榜首。

文心(ERNIE)模型集包括通用模型、任務模型、領域模型、輕量級模型等預訓練模型,為業界提供最完備的預訓練模型能力。

全面的評估工具和部署能力,模型落地無憂

為了滿足各行業模型應用的需求,文心(ERNIE)還配套了完整的模型評估與部署能力。文心提供了10餘套常用NLP評估工具,包括多標籤分類評估、準召率、宏/微平均、正逆序比、BLEU值、ROUGE值、馬修斯相關係數等,同時也支持用戶靈活自定義評估指標。

在部署方面,文心(ERNIE)也很好地支持了模型的公有雲部署和本地化部署兩種方式,方便用戶根據不同的業務需求來選擇合適的部署方式。

從世界級技術突破到產業級NLP應用能力

聚焦企業業務價值,面向不同業務需求提供豐富產品形態

為了讓文心(ERNIE)的世界級技術突破轉化為企業發展的動能,在產業應用中發揮更大價值,文心還提供了多種使用方式,讓不同需求、不同開發層次的企業開發者都能快速掌握。

零門檻、無代碼的雲端開發體驗:EasyDL-NLP

百度EasyDL是一個零門檻的AI開發平臺,支持開發者一站式定製高精度AI模型。文心通過EasyDL提供了一整套簡單高效的NLP開發能力,提供零代碼、少代碼的模型訓練方式,同時也支持高階用戶進行靈活組網調參。開發者無須了解算法細節,最快5分鐘即可上手,快速定製NLP模型。目前EasyDL已支持了單標籤和多標籤的文本分類、短文本匹配、情感傾向分析等NLP常用任務類型。

可深度定製的企業級全功能開發能力:BML-智能文本

百度BML平臺是全功能的百度機器學習平臺,為企業用戶提供一站式人工智慧模型建設功能服務。文心(ERNIE)通過百度BML平臺建設BML-智能文本產品能力,基於各類文本處理場景提供豐富的自動化產線,實現一站式文本建模開發與應用。

真實業務實踐淬鍊,豐富場景化落地經驗

文心已在金融、媒體、電商等業務場景中嶄露頭角

目前,文心(ERNIE)已廣泛應用於搜尋引擎、信息流、智能音箱等網際網路產品中,同時也在金融、電商、媒體、教育等行業中落地,成為推動產業智能化轉型的利器。

某網際網路金融企業,攜手文心,基於用戶數據快速建模,實現高效評估借貸用戶風險的能力。結合文心的預訓練模型,對用戶行為信息進行語義層面深度建模,用戶風控少量訓練數據進行精細Fine-tuning,在較短時間內完成模型收斂取得準確率顯著提升。金融風控領域模型準確率背後關乎著企業的收入,模型的效果提升,帶來的是真實的價值收益!

某綜合性電商平臺使用EasyDL中的文心(ERNIE)搭建起了完整的智能評分系統平臺架構。AI賦能後的服務考核監督機製得以升級,用戶的差評反饋都會被自動分析處理,大大提升了服務效率與服務質量。該系統將負面問題處理率由先前的60%提升到100%,客服運營人力由5人/日降至3人/日。

文心與企業開發者共同成長

全流程技術服務支持,真正做到「授之以漁」

除了基於預訓練技術提供完善的開發工具外,文心(ERNIE)還面向企業用戶提供全流程技術服務配套。包括業務問題分析、技術選型指導、模型優化指導、開發者使用培訓等服務,真正做到"授之以漁"。

百度大腦推出文心(ERNIE),正是為了幫助企業在NLP賽道上跨過技術、工具、算力、人才等門檻,開發者和企業進行開放賦能,讓語義理解等技術在產業內「遍地開花」,真正幫助企業降本增效,並發展出智能化的新業態。百度大腦正在通過語義理解研究新思路,在推動人工智慧技術的發展的同時,進一步推動產業智能化發展,讓文心(ERNIE)成為AI時代的文本智能化利器。

相關焦點

  • 百度NLP十年:基於知識增強的語言技術,實現跨模態一體化理解
    王海峰還為我們全面分享了百度近十年來在語言與知識技術上積累的成果。十年前,百度NLP事業部成立,作為國內最早設立NLP研發部門、最早參與NLP學術頂會的企業,百度NLP事業部在技術和產品兩條線上的創新和落地應用,正是這十年NLP領域發展的一個縮影。百度在這個時點召開「百度大腦語言與知識技術峰會」,正是在表達這樣一個信息:NLP已經進入了技術和產業結合的快車道。
  • NLP開發者盛宴!百度大腦開放日釋放自然語言處理最新黑科技
    作為人工智慧理解信息的核心手段,近年來自然語言處理技術(NLP)突破頻頻,並開始往更多垂直場景落地應用。7月31日,百度大腦開放日NLP專場於中關村創業大街的百度大腦創新體驗中心舉行。ERNIE2.0可通過建模海量數據中的詞、實體及實體關係,學習真實世界的語義知識,目前累計學習超過10億條知識,已在百度眾多產品應用中顯現效果。根據測試對比,ERNIE2.0在16個中英文任務上表現優於BERT和XLNet。
  • 「OpenI/O 2020啟智開發者大會」共話開源 百度飛槳引領行業發展
    2020年12月2日,「OpenI/O 2020啟智開發者大會」在北京國家會議中心召開。大會以「啟智築夢 開源先行」為主題,立足於國際國內開源大環境和發展趨勢。開源領域頂尖專家學者和企業領軍人物共聚一堂,探討開源開放呈現出的新形勢、新格局、新機遇。百度飛槳全面參與,並承辦深度學習專場,展現了飛槳的最新技術進展及成果。
  • 開發者達265萬,超越Facebook,百度飛槳居中國學習市場份額第二
    百度CTO王海峰認為,開放源碼開放是推動技術創新和產業發展的核心動能,在以深度學習為代表的人工智慧發展浪潮中,產業界已成為主導開放源碼開放的重要力量,成熟的開放源碼技術生態和開放平臺也在加快社會各界融合發展。
  • 2020中國新基建加速落地,新型技術成主要推動力量
    數據顯示,截至2020年10月,中國累計開通5G基站超過70萬座,終端連接數超過1.8億個;國家電網開發的智慧車聯網平臺,已接入充電樁超過103萬個;推進智能製造、柔性定製,全國範圍內「5G+工業網際網路」建設項目超過1100個……新基建的快速發展能給中國帶來什麼?經濟學家任澤平認為,長期來看,新基建能夠培育新經濟、新技術和新產業,打造中國經濟新的增長點。
  • 飛槳、崑崙雲伺服器、ERNIE……2019年百度用這些技術讓中國AI自主...
    面對當今世界大變局,回顧近 20 年的創新發展歷程,我們越發明白,唯有堅持自主創新,中國才能在複雜的國際環境中贏得主動、保持定力。2019 年,中國科技自主創新的成就斐然,在新一代信息技術、新能源、製造技術等方面打造出一批批國家產業新名片。
  • 百度發起「星辰計劃」 召集開發者共推AI公益
    5月13日,百度在線上召開了「萬象·2020百度移動生態大會」,並啟動了一項重磅公益計劃——百度星辰計劃。以「用科技讓複雜的世界更簡單」為使命的百度,將依託人工智慧技術,更全面地賦能社會公益事業。百度集團副總裁袁佛玉表示,百度星辰計劃將建立一個開放的平臺,聯動開發者、創作者與合作夥伴,推動人工智慧等重要技術在社會責任領域的應用落地。除技術能力開放共享外,百度還將提供流量、資源、資金等多個方面的支持。  不僅如此,袁佛玉還強調,百度未來還將與社科院、科研機構、高等院校、NGO組織等保持緊密的合作,聯合公益機構和開發者共建AI公益生態。
  • 飛槳閃耀2019百度雲智峰會,軟硬結合助力產業智能化
    剛剛結束的2019中國國際智能產業博覽會上,百度董事長兼執行長李彥宏的一句「人工智慧不再講究酷炫,我們要做的就是紮實地推進人工智慧在各個產業領域的滲透」餘音未落,8月29日召開的「ABC SUMMIT 2019百度雲智峰會」,就向外界全面展示了百度通過「雲+AI」紮實推動AI工業化及產業智能化的嶄新成果
  • 百度世界2020光鮮登場,百度大腦6.0、飛槳、智能雲勾勒AI藍圖
    不用腦補了,這一如同科幻電影般的場景,已經在「百度世界2020」大會上演了。9月15日,百度聯合央視新聞舉辦的「百度世界2020」大會以線上直播的形式召開。在這場以「萬物智能」為主題的大會上,央視主持人康輝、百度創始人、董事長兼CEO李彥宏和20多年前的「小康」、「小李」兩位虛擬人,展開了一場「跨越時空」的精彩對話,也讓全國觀眾認識了其背後的技術支撐——百度大腦。
  • 百度飛槳亮相服貿會:發布最新成果 獲「科技創新服務示範案例」
    9月5日,百度參加了2020年中國國際服務貿易交易會,在數字貿易發展趨勢和前沿高峰論壇中,百度CTO王海峰出席並發表主題演講,他表示:作為人工智慧平臺型公司,百度將持續加大在人工智慧等前沿領域的技術研發與落地實踐,進一步攜手服務業等產業發展新業態、新模式,加強在國際貿易中的競爭力與吸引力,有效帶動國內國際經濟發展的『雙循環』、助力中國經濟實現高質量發展的同時,為推動世界經濟復甦貢獻力量
  • 百度打造開放式AI生態 開發者對如何盈利存疑慮
    7月5日早上9點,距離2017百度開發者大會正式開始還有1個小時的時間,大會現場展臺區已人頭攢動。大會正式開始後,不僅會場坐席爆滿,在會場偏後的看臺區域,也有很多找不到座位、直接坐在臺階上的參會者。  推動開發者們熱情高漲的,是百度的人工智慧開放平臺計劃。
  • 新基建浪潮下,百度將成為推動人工智慧落地重要力量
    來源:時刻頭條企業智慧財產權正在加速推動中國人工智慧新基建發展。近日,國家知識產權局智慧財產權發展研究中心發布了《新基建領域(人工智慧)智慧財產權發展狀況調查研究報告》(以下簡稱為報告),報告認為,以專利為核心的智慧財產權在人工智慧關鍵技術創新和產業應用中具有強烈的關聯性和控制力。以百度、華為等為代表的我國企業有效推動了人工智慧技術落地應用。
  • 「技術流」百度智能雲助力產業拉開「十四五」建設大幕
    譬如,人工智慧技術,包括相關的雲計算、大數據等前沿技術到了突破的臨界點;國家層面重視;民眾的接受度也很高;客戶、開發者都積極擁抱科技帶來的各種改變,等等因素都將繼續加速未來產業智能化的發展。百度CTO王海峰那麼,以此回顧過去與展望未來,下一個十年的產業路徑是否清晰?
  • 不變的初心,百度飛槳開源生態的堅持與堅守
    百度首席技術官王海峰在12月20日召開的「WAVE SUMMIT+2020」深度學習開發者峰會上演講時表示,「開源開放的精神內涵,已不僅是技術開發領域的協作機制,更是驅動技術創新和加速產業發展的核心動能」。被稱為AI時代作業系統和百度AI底座的開源深度學習平臺飛槳也帶來了八大全新發布與升級。
  • IDC公布中國深度學習市場綜合份額:百度超越Facebook位列第二
    百度CTO王海峰認為,開源開放是驅動技術創新和加速產業發展的核心動能,在以深度學習為代表的人工智慧發展浪潮中,產業界已經成為驅動開源開放的重要力量,而成熟的開源開放技術生態與開放平臺,也正在推動社會各界加快融合發展。
  • 「軟」有百度飛槳、「硬」有百度崑崙 自主研發的AI技術還看百度
    近日,由科學技術部、中科院、中國科協、北京市政府主辦的「2020中關村論壇」在北京召開。其中在9月18日,百度與中國科協學會學術部共同主辦的「AI開源創新與產業智能化」平行論壇上,十餘位產學研各界頂級專家共話AI開源生態構建以及自主核心AI技術應用價值成果。
  • 百度世界2020大會亮點密集
    今年,百度世界2020大會首次由央視新聞與百度聯合出品,一個是由中央廣播電視總臺主辦,擁有億級觀眾;一個是中國人工智慧的名片及科技領軍企業,雙方將合作為國民呈現一場AI盛宴。百度世界2020可以說是百度今年面向行業、媒體、合作夥伴和廣大用戶規格最高、規模最大的峰會,最創新、最代表未來的產品將會在百度世界大會上亮相。
  • 百度研究院:2020年量子計算將迎來新一輪爆發!為AI和雲計算「改天...
    過去的2019年中,多技術融合正在加快,AI開發門檻迅速降低,產業智能化讓第四次工業革命的晨曦噴湧而出。在2019年的末尾,百度研究院發布了2020年十大科技趨勢預測,涵蓋人工智慧、晶片、自動駕駛、物聯網、量子計算、區塊鏈等前沿科技領域,為2020年的發展提供了一份可靠的指引。
  • 讓AI人才在產業界閃閃發光:百度之星的「神奇濾鏡」是怎樣煉成的?
    經過152天的鏖戰,一個由人才與產業推動的AI疆域,正在悄然延展著。AI戰歌起,少年得勝還隨著AI等成為社會通用型技術,針對開發者、在校生等的技術競賽也層出不窮。2005年至今,每年的百度之星都會吸引不少高校學子和編程愛好者前來交流切磋。在眾多賽事中,被譽為技術界「奧斯卡」的百度之星自然有其過人之處。
  • AI編織下的百度世界:技術爆點頻頻 商業化進程提速
    遭遇臨時的交通管制後,寶曉峰向「5G雲代駕」求助,鏡頭切換至央視主演播室內,在百度公司董事長李彥宏及央視主持人康輝的「見證」下,雲代駕司機演示了從接到請求到協助脫困的全過程。百度智能生活事業群組(SLG)總經理景鯤更是遠至上海。在上海佘山世茂洲際酒店分會場,景鯤向網友們現場演示了通過小度智能音箱控制智能酒店客房的過程。