百度大腦獲中國電子學會年度科技獎,王海峰詳解語言與智能

2020-12-01 機器之心Pro

4 月 20 日,第十四屆中國電子信息技術年會在合肥開幕。以「智聯網與未來」為主題,大會開展了學術交流、技術研討和成果轉化、展覽展示等系列活動。百度高級副總裁、AI 技術平臺體系 (AIG) 和基礎技術體系(TG)總負責人王海峰發表題為《語言與智能》的演講。此外,作為國內最早投身人工智慧的科技巨頭,百度於 2016 年發布的 AI 核心技術引擎「百度大腦核心技術及開放平臺」榮獲 2018 年度中國電子學會科學技術獎科技進步獎一等獎。

王海峰詳解語言與智能

百度大腦斬獲科學技術獎是百度多年人工智慧技術積累的成果。在這波因深度學習崛起的 AI 浪潮中,自然語言處理是核心研究領域。正如王海峰所說,「理解和運用自然語言是人工智慧的核心問題之一。大數據、機器學習、深度學習和知識圖譜等技術的發展,正在給語言與智能的發展帶來突破。」

在今年中國電子信息技術年會上發表的題為《語言與智能》的演講中,王海峰以翻譯為例介紹了人工智慧技術的演進,闡釋近期語言與知識技術和大數據、深度學習等技術結合帶來的突破、行業應用,以及技術趨勢和挑戰。

王海峰是人工智慧研究及應用,尤其是自然語言處理領域的領軍者,在國內外學界和工業界享有盛譽。他先後為百度開創和發展了自然語言處理、機器翻譯、語音、圖像、深度學習、數據挖掘、知識圖譜等技術方向,帶領百度 AI 取得了大量領先業界的技術成果,並推動了百度大腦的對外開放工作,被業界稱譽為少有的學術與工程並舉的科學家。剛剛斬獲 2018 年度中國電子學會科學技術獎科技進步一等獎的「百度大腦核心技術及開放平臺」就是由王海峰主導研發的。

王海峰表示,通俗來講,人工智慧是讓機器可以像人一樣,具備聽覺、視覺、語言、行為能力,可以進行邏輯計算和推理規劃,並基於知識學習持續進化。

語言是人類思考的媒介,是人類特有的高級智力活動。早期的簡單符號,到甲骨文,到紙質的書,以及現代網際網路上的文本,語言文字這一載體讓知識得以凝鍊和傳承,可以說,語言文字促進了人類文明的發展。因此,如何理解和運用自然語言,是人工智慧需要解決的核心問題之一。

當下,大數據、知識圖譜、機器學習、深度學習等技術快速發展,並與自然語言處理密切結合,推動語言智能持續發展和突破,並越來越多地應用於各個行業。

自然語言處理是人工智慧皇冠上的明珠,而填補語言鴻溝的機器翻譯則是自然語言處理最典型的應用技術之一。王海峰在這一領域深耕近 30 年,他以親身經驗梳理、介紹了人工智慧技術的發展和演化歷程。

從現代計算機誕生之初,就開始有人提出用計算機來進行語言翻譯的設想。在早期發展過程中,研究者們很多採用理性主義、規則系統、知識工程的方法來進行研究。王海峰從 1993 年開始從事機器翻譯的相關研究,初期便採用基於規則的方法,在國家「863」評測中獲得第一。

早在 1999 年,王海峰在博士論文中即開始探索神經網絡機器翻譯的可能性,但由於當時算力和數據的制約,他轉而嘗試統計機器翻譯與大規模規則翻譯系統的結合,並開創性地提出樞軸語言翻譯方法以解決小語種翻譯語料稀缺的難題。

2008 年,王海峰主持研發的統計機器翻譯系統參加了國際口語機器翻譯評測比賽 IWSLT,在所參加的 5 項任務 15 個評測指標中,共取得 12 項第一、3 項第二的優異成績。

2010 年加入百度後,他帶領團隊融合統計與規則、實例和神經網絡等方法,實現了多方面的技術創新,打造出服務億萬用戶的百度翻譯,並在 2015 年率先發布神經網絡翻譯系統。目前,百度翻譯可支持全球 28 種語言互譯,覆蓋 756 個翻譯方向,超過 15 萬家第三方應用接入百度翻譯 API,每日翻譯字符數超過千億。百度翻譯因此榮獲 2015 年國家科技進步二等獎。

2018 年的百度世界大會上,百度又發布了世界上首個集成了預測和可控延遲的語音實時翻譯系統,這是自然語言處理方面的重大技術突破。

王海峰表示,機器翻譯的發展從最初運用規則系統,到統計的機器學習方法,後又解決算法、算力等各方面的問題,不斷登上新的臺階。人工智慧的發展脈絡與機器翻譯也很相似,經歷多種方法的探索和實踐,有過低谷和高潮,總的趨勢是在持續進步。

近年來,隨著深度學習的崛起,自然語言處理也由淺層統計模型步入深層神經網絡。

在自然語言處理領域,深度學習模型具有比傳統機器學習模型更強的數據學習能力,使得基於深度學習的依存句法分析等基礎 NLP 任務得到大幅提升。

目前,深度學習領域主要有強化學習、監督學習、無/自監督學習三種學習範式,而無/自監督學習可以類比人類學習,是重要的一種學習方式。

自監督學習讓基於大規模無標記語料的語言模型得到了長足的發展。近期,Google、百度分別提出了無監督文本的預訓練語言模型 BERT、ERNIE,將 NLP 任務的性能提升到新高度。

百度提出的基於知識增強的 ERNIE 模型,通過建模海量數據中的實體概念等先驗語義知識,學習真實世界的語義關係。相較於 Google BERT 基於字單元的語義建模,ERNIE 直接對先驗語義知識單元進行建模,並通過海量文本數據學習實體間的語義關係。這種融合知識的語義建模大幅增強了模型語義表示能力,在包括語言推斷、語義相似度、命名實體識別、情感分析、問答匹配等自然語言處理各類任務上的多個公開中文數據集上,ERNIE 均取得了優於 BERT 的效果。

依託深度學習技術的發展,語音、圖像等感知技術取得了巨大進步,但認知技術的突破,會越來越依賴知識,需要提升對知識和大規模知識圖譜的運用。在物理世界、人類社會和網絡空間中,匯聚了大量的多元、異構、多模態的數據,百度藉助無標籤大數據開放域知識挖掘、知識體系自動擴展、知識整合等技術,基於海量數據構建起了超大規模知識圖譜。

目前,百度擁有世界上最大的多元異構知識圖譜,除了包含數億實體、千億級事實,能夠滿足 90% 用戶需求的實體圖譜,針對不同的應用場景和知識形態,百度還建立起關注點圖譜、行業知識圖譜、POI 圖譜、事件圖譜等多種知識圖譜。比如在醫療領域,能夠從病歷等原始文本中,抽取出實體及多元關係,並進行文本結構化,最終構建起醫療圖譜,同時結合醫療大數據、醫療認知計算,應用於醫療臨床輔助決策服務中。

多模態知識、語音、視覺等技術結合,發展進入「多模態深度語義理解」階段。例如,基於知識圖譜的視頻理解技術,能夠視頻中抽取結構化語義知識,真正「看懂」視頻。

語言理解技術持續發展,並通過與知識圖譜、深度學習等技術融合,不斷提高各種應用的智能化程度。

王海峰在演講中介紹,百度創新地融合知識圖譜、自然語言處理及深度學習技術,研發了能夠深刻理解用戶意圖、精準滿足搜索需求、提供更豐富知識內容的智能搜尋引擎,並結合語音、圖像、AR 等感知技術能力,更便捷地與用戶交互,為用戶提供更精準高效的信息服務。

例如,用戶用自然語言搜索「林徽因的丈夫的父親是誰」,智能搜尋引擎能夠理解用戶的意圖,並結合知識圖譜以圖文並茂的形式把答案「梁啓超」精準呈現給用戶。又如,用戶搜索「上面草字頭下面句子的句是什麼字」,智能搜尋引擎能夠為用戶提供「苟」的讀音、筆畫、釋義等豐富的信息。

除了智能搜索方面的應用,百度還基於語言理解和生成技術提供智能寫作等能力。智能寫作適用於財經、體育、天氣、熱點與娛樂事件等多領域的輔助與自動寫作,大幅提升創作效率。比如,基於結構化的股票數據,可以生成關於股市的快訊新聞。結合視覺技術的智能春聯,可通過刷臉檢測出人物性別、年齡、微笑程度、性格特徵等,生成特徵詞,然後基於神經網絡生成技術創作出應景的春聯,讓人工智慧技術融入大眾的文化娛樂生活。

智能客服是結合自然語言處理、知識圖譜和語音等技術打造的行業解決方案。在智能客服場景中,基於語音語義一體化技術,百度大腦可以準確識別出用戶的話語,理解用戶意圖,進而通過行業知識圖譜理解業務流程,為用戶提供相應的服務。整個服務過程流暢自然,實現了與用戶無障礙溝通,提升業務效率並滿足用戶需求。

百度領先的語言與知識技術,不僅廣泛應用於智能搜索、深度問答、對話系統、智能寫作、機器翻譯等領域,為廣大用戶提供更智能的體驗,滿足用戶對信息和服務的需求,還通過百度大腦平臺全面開放,促進行業應用和創新。

當然,自然語言理解技術還面臨著眾多挑戰,例如大數據環境下數據稀疏、知識的有效利用、語用等。王海峰總結,這些挑戰可通過相應的研究來解決,如通過基於無標註、弱標註數據的學習方法來解決數據稀疏問題;深度融合神經網絡與知識來有效利用知識;語用研究可與應用場景深度結合。

王海峰表示,「隨著技術發展,我們會越來越深入地理解自然語言、掌握知識,推動人工智慧發揮更大的價值,為人類社會發展提供更大的助力。」

中國電子學會年度科技獎花落百度大腦

百度高級副總裁、AI 技術平臺體系 (AIG) 和基礎技術體系(TG)總負責人王海峰領獎

科學技術獎是中國電子學會經國家科技獎勵工作辦公室批准,於 2003 年設立的獎項,主要獎勵在電子信息領域科學研究、技術創新與開發、科技成果推廣應用和實現產業化方面取得卓著成績或者做出突出貢獻的集體和個人。科學技術獎分為自然科學類、技術發明類和科技進步類 3 個類別,分別設一等獎、二等獎、三等獎三個獎勵等級。

如今,中國電子學會科學技術獎已經成為國內電子信息技術發展的風向標。

百度作為國內最早布局人工智慧的企業,近年來不斷進行 AI 技術的研究探索和應用落地實踐,為推動 AI 技術應用和創新積極貢獻力量。

科學技術獎評議認為,百度大腦突破了聽覺、視覺和語言一體化的多模態語義理解技術難題,成果支持零門檻深度學習定製化訓練和千億特徵的神經網絡訓練,打造了一個完整的人工智慧技術開放體系,並通過統一人工智慧開放平臺向社會共享,帶動了網際網路行業技術創新,推動了傳統行業的智能化轉型。

目前,百度大腦已獲相關技術發明專利授權 200 餘項,在頂級國際期刊和學術會議上發表相關論文 100 多篇,多次在 WebVision、ActivityNet、NIPS、SemEval 等國際知名人工智慧競賽或測試中奪得桂冠。百度連續三年上榜全球知名科技媒體《麻省理工科技評論》「全球十大突破性技術」榜單。國際頂級期刊 Nature 評價稱「百度已成長為以 AI 技術為重心的科技巨頭」。

在產業方面,百度大腦已對外開放了 160 多項領先的 AI 能力,廣泛應用於網際網路、交通、工業、醫療、零售、金融等諸多領域。比如,在電信、銀行等行業,基於百度大腦的智能客服系統可以精準理解用戶的需求、識別客戶情緒並推薦合理的服務,既可以接聽用戶電話,也可以主動外呼,從而輔助人工客服,降低客服業務成本,提升用戶體驗;在醫療領域,基於百度大腦能力打造的百度靈醫,布局診療全流程,幫助提升診療效率,從而惠及更多患者;在農業領域,智能搖杆拍攝光譜可以藉助圖像識別技術精準估算不同田地的農藥使用量,有針對性地施藥殺蟲,減少了用藥浪費的情況,也更符合環保需求;工業應用方面,基於百度深度學習平臺 PaddlePaddle 打造的智能零件分揀機,分揀精度可達到 90%,預測速度較同類產品快 20%……同時,百度大腦與政府合作,如與雄安新區管委打造智能城市、與天津市政府打造「天津智港」等,提升公共服務和城市管理能力,讓 AI 惠及普羅大眾。

除了百度大腦項目,其他獲得 2018 年中國電子學會科學技術獎科技進步獎項一等獎的項目包括北理工等完成的「基於海量知識智能理解與推理關鍵技術及智能政務應用」,深圳大學、華為等完成的「雲數據交換與服務裝備關鍵技術及產業化」等 7 個項目。

相關焦點

  • 百度CTO王海峰獲第十三屆光華工程科技獎
    11月9日消息,第十三屆光華工程科技獎揭曉儀式於11月8日在北京舉行,百度CTO王海峰榮獲該獎項,成為AI產業界首位獲此殊榮的科技工作者。「中國工程界最高獎項」,旨在對我國工程科技及管理領域做出傑出貢獻的科學家、工程師進行表彰。
  • 深耕自然語言處理近30年 王海峰獲光華工程科技獎
    11月8日,第十三屆光華工程科技獎揭曉儀式在北京舉行。該獎項被譽為「中國工程界最高獎項」,旨在對我國工程科技及管理領域做出傑出貢獻的科學家、工程師進行表彰。百度CTO王海峰因其在人工智慧領域、尤其是自然語言處理領域的卓越貢獻,成為AI產業界首位獲此殊榮的科技工作者。
  • 百度CTO王海峰榮膺第十三屆光華工程科技獎
    11月8日,第十三屆光華工程科技獎揭曉儀式在北京舉行。該獎項被譽為「中國工程界最高獎項」,旨在對我國工程科技及管理領域做出傑出貢獻的科學家、工程師進行表彰。百度CTO王海峰因其在人工智慧領域、尤其是自然語言處理領域的卓越貢獻,成為AI產業界首位獲此殊榮的科技工作者。
  • 百度CTO王海峰獲光華工程科技獎 為中國工程科技界最高獎
    11 月 8 日,第十三屆光華工程科技獎揭曉儀式在北京舉行。該獎項被譽為「中國工程界最高獎項」,旨在對我國工程科技及管理領域做出傑出貢獻的科學家、工程師進行表彰。百度 CTO 王海峰因其在人工智慧領域、尤其是自然語言處理領域的卓越貢獻,成為 AI 產業界首位獲此殊榮的科技工作者。
  • 中國人工智慧學會2020年度優秀科技成果出爐,百度文心入選
    11月14日,由中國人工智慧學會(CAAI)主辦的2020第十屆中國智能產業高峰論壇(CIIS 2020)正式開幕,CAAI理事長戴瓊海院士、何積豐院士、何友院士、王恩東院士、陸軍院士等多位中外院士、專家齊聚嘉興南湖,共話智能技術和產業的未來發展。
  • 深耕自然語言處理近30年 王海峰獲中國工程科技界最高獎
    11月8日,第十三屆光華工程科技獎揭曉儀式在北京舉行。該獎項被譽為「中國工程界最高獎項」,旨在對我國工程科技及管理領域做出傑出貢獻的科學家、工程師進行表彰。百度CTO王海峰因其在人工智慧領域、尤其是自然語言處理領域的卓越貢獻,成為AI產業界首位獲此殊榮的科技工作者。
  • 百度王海峰獲得光華工程科技獎
    北京商報訊(記者 魏蔚)11月8日,第十三屆光華工程科技獎揭曉,百度CTO、人工智慧專家王海峰等39位專家獲得光華工程科技獎,中國工程院核動力專家彭士祿獲得光華工程科技成就獎,中國工程院醫藥衛生學部全體院士獲得光華工程科技特別貢獻獎。
  • 第十三屆光華工程科技獎公布,彭士祿、張伯禮、王海峰等獲獎
    光華工程科技獎由中國工程院發起,每兩年頒發一次。今年,人工智慧領域也有傑出的科學家獲獎,獲獎者王海峰來自百度,這也是歷史上首位AI產業界科技工作者獲得「光華工程科技獎」。在語言理解方面,王海峰提出了語言知識融合機器學習的多層次語言結構分析和多源信息融合的深度語義理解方法,系統突破跨模態語義理解技術瓶頸,成功研製智能搜尋引擎,讓用戶更便捷高效獲取信息
  • 百度王海峰出席中國認知計算和混合智能學術大會 深度解析「多模態...
    8月25日,為期兩天的首屆中國認知計算和混合智能學術大會(CCHI2018)在西安舉辦,百度高級副總裁、AI技術平臺體系(AIG)總負責人王海峰與中國科學院院士陳霖、蒲慕明等學界知名專家共同研討與交流認知科學、神經科學與人工智慧學科領域交叉融合的最新進展和前沿技術。
  • AI晶片、框架、語言與知識、量子計算……百度大腦6.0發布
    9月15日,科技界年度盛會「百度世界2020」線上開幕。今年的百度世界大會由百度與「央視新聞」聯合呈現,上午剛剛結束的主論壇精彩紛呈,反響熱烈,花式登上熱搜:百度創始人、董事長兼CEO李彥宏與央視主持人康輝「虛擬人」亮相、顛覆搜索形態的「度曉曉」、去安全員的「全自動駕駛」……這些炫酷的背後離不開百度大腦的支撐。
  • 中科院陸汝鈐獲吳文俊人工智慧最高成就獎,百度王海峰獲吳文俊人工...
    他設計並主持研製了知識工程語言 TUILI 和大型專家系統開發環境《天馬》,首次把異構型 DAI 和機器辯論引進人工智慧領域,發表了國際上第一篇異構型分布式人工智慧文章,研究出基於「類自然語言理解」的知識自動獲取方法,並開發出基於知識的應用軟體自動生成技術,在藝術創造領域內發展了人工智慧技術。1999年,他當選為中國科學院院士。2003年,他獲得了中國數學界的終身成就獎——華羅庚獎。
  • 自研晶片+自主AI框架,百度CTO王海峰攜百度大腦6.0亮相
    百度說,這是具備認知能力、可機機對話的終端虛擬人。而這一場對話背後,百度積攢了10年的技術。驅動「小康」、「小李」兩位虛擬人的,是10年來不斷進化的「百度大腦」。百度CTO王海峰表示兩位虛擬人整合了視覺、語音、語言與知識等多種模態的AI技術,具備了認知能力。但這還只是百度大腦最新能力的「冰山一角」。
  • 百度機器翻譯獲國家科技進步獎
    1月8日,2015年度國家科學技術獎勵大會在人民大會堂舉行,百度機器翻譯項目獲頒國家科學技術進步獎二等獎,這是該獎項首次出現網際網路巨頭(BAT)的身影。   機器翻譯一直被公認為人工智慧領域最難的課題之一,百度機器翻譯的突破性成果,使我國掌握了網際網路機器翻譯的核心技術,佔領了技術制高點。
  • 一口氣11項發布 一文看懂百度大腦的NLP布局
    8月25日,百度CTO王海峰在百度大腦語言與知識技術峰會上,首次對外全面完整的闡述了百度的NLP布局,還推出了一攬子11項新發布。知識圖譜是機器認知世界的基礎王海峰表示,在百度語言與知識技術的布局和發展中,始終在注意把握兩個趨勢,即技術發展趨勢和產業發展趨勢,並力爭引領趨勢。對此,2010年,他們就成立了自然語言處理部,「縱覽百度語言與知識技術發展歷程,從研究方法、研究對象、研究方向、產業應用等各個層面,布局完整,始終與應用的發展趨勢、需求一脈相承,與產業接軌。」
  • 王海峰出席CCHI2018 深度解析「多模態深度語義理解」
    8月25日,為期兩天的首屆中國認知計算和混合智能學術大會(CCHI2018)在西安舉辦,百度高級副總裁、AI技術平臺體系(AIG)總負責人王海峰與中國科學院院士陳霖、蒲慕明等學界知名專家共同研討與交流認知科學、神經科學與人工智慧學科領域交叉融合的最新進展和前沿技術。
  • 百度王海峰:人工智慧是新一輪科技革命的核心驅動力
    來源:中國經營網原標題:直擊烏鎮|百度王海峰:人工智慧是新一輪科技革命和產業變革的核心驅動力量本報實習記者 陳溢波 記者 張靖超 烏鎮報導10月21日,第六屆世界網際網路大會在水鄉烏鎮繼續隆重召開。在當天下午召開的人工智慧分論壇中,百度首席技術官、深度學習技術及應用國家工程實驗室主任王海峰作了一場題為《人工智慧進入工業大生產時代》的演講。《中國經營報》記者從現場了解到,已經開放216項能力,每天調用次數已過萬億次,上面有150多萬名開發者,有大量的模型發布出來。
  • 中國AI的底牌與前路:王海峰團隊十篇論文入選ACL的價值釋讀
    中國AI的底牌與前路:王海峰團隊十篇論文入選ACL的價值釋讀 今年的自然語言處理領域頂級會議 ACL已經放榜,每每AI頂會放榜之時,也是科技企業們集體關注自身學術研究進度的時候。近年來隨著中國科技企業對AI技術的研究日益深入和產學結合的趨勢發展,各個AI頂會上科技企業的出沒也愈發頻繁。
  • 外媒評選20位中國AI領袖 百度系佔據半壁江山
    3.王海峰 百度副總裁,人工智慧技術平臺體系負責人 吳恩達從百度離職後,王海峰接任成為了百度AI技術平臺體系(AIG)的負責人。該平臺包括深度學習實驗室、大數據實驗室、矽谷AI實驗室、增強現實實驗室、自然語言處理部、人工智慧平臺部等部門。
  • 百度王海峰Quora總結百度工程師品質:務實,自驅,負責到底
    【慧聰通信網】近日,百度副總裁王海峰博士受美國問答網站Quora邀請回答網友提問,回答了頗具代表性的十個問題,覆蓋從中國人工智慧的發展階段到百度工程師的日常工作狀態,十問十答的形式,為美國網友打開了解百度,了 【慧聰通信網】近日,百度副總裁王海峰博士受美國問答網站Quora邀請回答網友提問
  • 獨家對話百度副總裁王海峰:NLP 的路還很長
    同時,機器之心與百度聯合推出技術專欄,探討百度在自然語言處理領域的研究成果、實踐經驗與心得。王海峰博士也表示,「理解語言、擁有智能、改變世界,希望我們的專欄能一起朝這個方向努力」。此篇專訪作為合作專欄的開篇,希望讀者能從中有所獲益。