一口氣11項發布 一文看懂百度大腦的NLP布局

2021-01-17 網易科技

8月25日,百度CTO王海峰在百度大腦語言與知識技術峰會上,首次對外全面完整的闡述了百度的NLP布局,還推出了一攬子11項新發布。

自然語言理解(NLP)的名詞解釋是這樣的,自然語言是人類智慧的結晶,是人工智慧中最為困難的問題之一,而對自然語言處理的研究也是充滿魅力和挑戰的。

那麼,百度是如何理解這項挑戰的?他們為此做了哪些研究和布局,我們一探究竟。

知識圖譜是機器認知世界的基礎

王海峰表示,在百度語言與知識技術的布局和發展中,始終在注意把握兩個趨勢,即技術發展趨勢和產業發展趨勢,並力爭引領趨勢。

對此,2010年,他們就成立了自然語言處理部,「縱覽百度語言與知識技術發展歷程,從研究方法、研究對象、研究方向、產業應用等各個層面,布局完整,始終與應用的發展趨勢、需求一脈相承,與產業接軌。」

一手是技術探索,一手是應用落地,王海峰認為缺一不可。

他指出,知識圖譜是機器認知世界的重要基礎,百度的大規模知識圖譜有超50億實體和5500億事實,並在不斷演進和更新,「目前每天的調用次數超過400億次。」

另外,百度不斷在語言理解能力方面進行攻關,此前就提出了知識增強的語義理解框架ERNIE,在深度學習的基礎上融入知識,同時具備持續學習能力,據介紹,基於知識圖譜和語義表示,突破了閱讀理解、對話理解以及跨模態深度語義理解等技術。

還有一點至關重要是語言生成,語言生成是語言與知識技術中的重要組成部分,百度提出基於多流機制的語言生成預訓練技術,兼顧詞、短語等不同粒度的語義信息。與此同時,還提出了知識圖譜驅動的對話控制技術,以及基於隱空間的大規模開放域對話模型PLATO等,實現規模化應用。

據披露,百度翻譯目前可支持200多種語言,每天響應超過千億字符的翻譯請求。

讓語言與知識技術在應用中產生價值

王海峰談到要抓住技術發展趨勢和產業發展趨勢,那在產業發展方面百度有何布局?

百度集團副總裁吳甜給出了答案,她連續發布了語義理解技術與平臺文心、智能文檔分析平臺TextMind和AI同傳會議解決方案3大新品,同時發布了6項升級,包括智能創作平臺的3個場景方案、以及智能對話定製與服務平臺UNIT的3項全新升級。

吳甜在講解中表示,我們希望讓語言與知識技術凝聚成一系列技術平臺和產品,在應用中產生大量價值。

具體來說,此次推出的語義理解技術與平臺文心,基於深度學習平臺飛槳,依託語義理解核心技術,集成預訓練模型、NLP算法集、端到端開發套件和平臺,提供一站式NLP開發與服務。「具備工業級落地實能力」吳甜談到。

而在智能文檔分析平臺TextMind方面,基於OCR、NLP技術,以文檔解析為核心,支持文檔對比與文檔審核,希望促進企業辦公智能升級。

百度大腦智能創作平臺則針對媒體應用場景升級,推出智能策劃、智能採編、智能審校三大媒體場景方案。還有AI同傳會議解決方案,吳甜現場展示了如何只用一臺電腦和一部手機搭建一套同傳服務。

在智能對話定製與服務平臺UNIT方面,也發布了一攬子新特性,其中包括任務式對話理解、表格問答和融合通用的新對話引擎。據介紹,此次UNIT的升級,將進一步降低任務式對話、智能問答的定製成本。

值得一提的是,數據匱乏、算力不足歷來是語言與知識技術研發中面臨的瓶頸。

針對這樣的問題,百度聯合中國計算機學會、中國中文信息學會發起中文自然語言處理數據共建計劃「千言」,千言一期由來自國內11家高校和企業的數據資源研發者共同建設,涵蓋開放域對話、閱讀理解等7大任務,20餘個中文開源數據集。

百度技術委員會主席吳華表示,「計劃在未來3年,面向20多個任務,收集和建設不少於100個中文自然語言處理數據集,覆蓋語言與知識技術全部領域。」

本文來源:網易科技報導 責任編輯: 毛新思_NBJS11624

相關焦點

  • 一文看懂!杭州城市大腦是這樣煉成的
    當前城市大腦已經在多地開始建設,目前全國宣布要做城市大腦的城市就達500多個,幾乎涵蓋所有副省級以上城市和地級市。阿里巴巴的ET城市大腦、百度的AI CITY、騰訊的數字城市、華為的城市神經等解決方案讓各個城市可以選擇適合自己的智能城市建設方案。
  • 斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言
    新智元報導 來源:stanfordnlp.github.io編輯:肖琴【新智元導讀】斯坦福團隊最新發布一個NLP任務的軟體包StanfordNLP,通過Python接口為53種語言提供標記、依存句法分析等NLP任務的重要工具
  • 央視網、國美、縱橫文學齊上陣:百度大腦開放日分享NLP技術應用
    開發者NLP需求與日俱增 百度大腦致力降低技術門檻  據介紹,百度大腦經過多年深耕,形成了完整的語言與知識技術布局,以知識圖譜為基礎,實現語言理解與語言生成能力,並進一步形成深度問答、對話系統、智能創作、機器翻譯等功能
  • 百度大腦升級至6.0發布養成類虛擬助手「度曉曉」
    新浪科技訊 9月15日上午消息,在2020百度世界大會直播現場,百度CTO王海峰在現場發布全新升級的百度大腦6.0。據介紹,核心技術方面,百度大腦6.0已具備「知識增強的跨模態深度語義理解」能力。基於掌握的5500億知識,以及「知識增強的持續學習語義理解」技術,百度大腦綜合語音、語言、視覺等不同信息,實現跨模態語義理解,獲得對世界的統一認知。有了這一能力,機器就能聽懂語音,看懂圖像視頻,理解語言,進而理解真實世界。此外,百度還發布了一款搜索創新產品 「度曉曉」。
  • 手把手教你使用百度大腦地址識別API
    想到各家快遞公司,都有獨立的下單平臺,出於好奇筆者在網上搜索了下,發現百度大腦竟然有地址識別接口,趕緊來試一波。測試後發現,這個接口能大幅提升地址文本的處理效率,非常適合物流、快遞、電商、貿易行業,有了它就可以自己搭建快遞下單平臺了。
  • 一口氣發布6項科技成果 之江實驗室在哪些領域發力了?
    9月2日,之江實驗室在杭州舉行智能科學與技術系列成果發布會,一口氣對外集中發布了「立體顯微內窺成像系統」等6項科技成果,多項研究成果已進入產業轉化階段。另一項成果「多中心智能醫學信息平臺」則以大數據為基礎,從「沉睡」在不同醫療機構的海量醫療數據中打撈出有用信息,實現對腎臟病、肺癌、腸癌、小兒抽動症等疾病的早期篩查。項目負責人、網絡健康大數據研究中心主任李勁松介紹,目前,平臺已接入浙江省內多家大型三甲醫院,實現了原始數據不出醫療機構情況下,多中心臨床信息共享及深度利用。
  • 百度大腦獲中國電子學會年度科技獎,王海峰詳解語言與智能
    百度高級副總裁、AI 技術平臺體系 (AIG) 和基礎技術體系(TG)總負責人王海峰發表題為《語言與智能》的演講。此外,作為國內最早投身人工智慧的科技巨頭,百度於 2016 年發布的 AI 核心技術引擎「百度大腦核心技術及開放平臺」榮獲 2018 年度中國電子學會科學技術獎科技進步獎一等獎。
  • 百度大腦震撼發布 自然語言處理成熟度尚不及圖像處理
    百度大腦震撼發布 自然語言處理成熟度尚不及圖像處理  語音合成是李彥宏的下一個演示。現場出現了張國榮的合成音,並按照正常人的語調播放了出來。 圖像演示在現場出現了一個笑點。李彥宏表示,現在人臉識別的準確率已經達到了99.7%,大屏幕上突然出現了現場視頻,並在一片笑意中由百度大腦順利識別出了百度副總裁朱光等人。
  • 2019百度AI開發者大會前夕,解讀百度大腦的半年「豹變」
    以百度輸入法為例,在百度大腦的AI技術賦能下,百度輸入法變身真正的AI輸入法,可以精準識別中英混輸以及其他漢語方言混合語音輸入、進行實時翻譯,支持AR表情,目前,已有超過60%的百度輸入法AI探索版用戶選擇語音輸入。與此同時,百度大腦持續開放AI能力,累計已開放178項AI技術,開發者突破120萬,廣泛應用在網際網路、交通、工業、醫療、零售、金融等諸多領域。
  • 百度大腦首場開放日:AI已經滲透到了產業的毛細血管
    研發不是炫技 是對技術賦能的踐行作為百度在人工智慧領域多年研究的集大成,百度大腦在2016年正式開放後,已經開放了語音技術、視覺技術、自然語言處理、知識圖譜、機器學習等近160項通用AI能力,有著超過100萬的開發者,已然成為服務規模最大的AI開放平臺。
  • AI晶片、框架、語言與知識、量子計算……百度大腦6.0發布
    百度大腦分論壇帶來這些「黑科技」的全面揭秘,展示了百度大腦的技術升級與演進。百度CTO王海峰發布了百度大腦6.0,升級為「AI新型基礎設施」。「知識增強的跨模態深度語義理解」讓百度大腦的理解能力更加強大,飛槳深度學習平臺與百度崑崙晶片的升級則為開發者提供了更優的算法開發平臺和更強大的算力。
  • 李彥宏:人工智慧就是「百度大腦」
    百度董事長兼執行長李彥宏在開場時發布了關於百度人工智慧的主題報告。本屆百度世界大會的主題是「AI is the new Electricity」,亦即「人工智慧是新電能」。今年6月份李彥宏曾在百度峰會上表示,網際網路即將進入以「人工智慧」為平臺的下一幕場景中。
  • 一文回顧百度人工智慧2020上半年,王海峰:百度AI助力新基建提速
    2020年,百度在核心賽事和頂級會議上接連取得佳績:28篇論文被AAAI 2020收錄,較AAAI 2019的15篇入選成績提升近一倍;22篇論文入選計算機視覺領域「奧斯卡」CVPR 2020,一舉拿下8項挑戰賽世界冠軍,涵蓋全視覺領域;11篇論文被國際自然語言處理領域頂級學術會議ACL 2020錄用;百度基於飛槳平臺自研的知識增強的語義理解技術與平臺文心(ERNIE)連拿全球規模最大的語義評測比賽
  • 百度大腦語音能力引擎論壇即將在京召開
    11月28日,百度大腦將在北京舉行語音能力引擎論壇。屆時,百度CTO王海峰博士、百度語音首席架構師賈磊、百度AI技術生態部總經理喻友平等將發表主題演講,為前來參會的開發者、企業夥伴等分享百度大腦語音技術的前沿進展和最新成果,並將在現場發布多項全新的語音引擎開放能力。論壇還邀請到來自不同領域的生態夥伴分享和展示基於百度大腦語音能力引擎的創新應用。
  • 百度大腦開放日召開機器翻譯專場 百度AI同傳翻譯性能可媲美人類
    12月1日,百度大腦開放日舉辦了以「機器翻譯 溝通全世界」為主題的專場活動。2015年5月,百度發布全球首個網際網路神經網絡翻譯系統,領先谷歌1年4個月; 2019年在國際權威機器翻譯評測WMT中,百度超越國內外知名企業,在中英翻譯位列第一;而在多語言翻譯方面,針對語言數量多,分布不均衡,實現難度大的難題,百度研發了基於神經網絡的多語言翻譯統一框架,世界範圍內首次突破200種語言互譯,翻譯質量業內領先。
  • 循證AI賦能基層醫療,盤點百度在數字健康領域的布局大事件
    動脈橙產業智庫梳理了百度自2012年至今在數字健康領域的醫療大事件。一. 百度數字健康之智慧醫療百度在智慧醫療領域已發布三款醫療AI產品:AI眼底篩查一體機、智能分導診、CDSS輔助診斷系統。9)百度與東軟最新落地成果,盛京醫院上線「智慧臨床、智慧管理、智慧服務」2019-11-0311月1日,東軟解決方案論壇2019上,百度與東軟聯合推出新型智慧城市整體解決方案,雙方將在城市建設治理與醫療健康等領域加深合作。雙方在醫療健康領域的合作基於靈醫智惠(百度大腦技術驅動的AI醫療品牌)展開。
  • 自研晶片+自主AI框架,百度CTO王海峰攜百度大腦6.0亮相
    百度大腦十年進化「臺上一分鐘,臺下十年功。」為了讓虛擬人具備語音、視覺、知識等多方技能,作為技術底座的百度大腦「十年磨一劍」,才實現了現場酷炫的虛擬人對話效果。今年對百度大腦來說意義尤為特殊,因為它真的走過了十年,經歷了AI技術從沉寂到興盛:2010年,百度大腦開始基礎能力積累,AI布局初具雛形;2016年,百度大腦1.0正式發布,開源飛槳深度學習框架上線;2017年,百度大腦2.0形成了完整的技術體系,AI能力全面開放;
  • 一文解讀NLP中的注意力機制
    注意力機制首先從人類直覺中得到,在nlp領域的機器翻譯任務上首先取得不錯的效果。簡而言之,深度學習中的注意力可以廣義地解釋為重要性權重的向量:為了預測一個元素,例如句子中的單詞,使用注意力向量來估計它與其他元素的相關程度有多強,並將其值的總和作為目標的近似值。既然注意力機制最早在nlp領域應用於機器翻譯任務,那在這個之前又是怎麼做的呢?
  • 一文看懂MSDS
    看懂MSDS的重要性---有些朋友會提及在中國做化工等危險品產品的出口運輸,一般都需要上海化工研究院或北京迪捷姆(北京DGM)等出具專業危險品分析報告,另外MSDS在中國也有造假情況,所以能否看懂MSDS不是太重要。
  • 國內自然語言處理(NLP)研究組
    中國大陸地區:微軟亞研自然語言計算組 Natural Language Computing (NLC) Grouphttps://www.microsoft.com/en-us/research/group/natural-language-computing/www.microsoft.com百度自然語言處理百度自然語言處理 - 理解語言,擁有智能,改變世界