北語信息院院長荀恩東:語言智能的核心是語義理解丨CCF-GAIR 2020

2020-12-22 雷鋒網

作者 | 青暮

編輯 | 叢末

2020 年8 月7日-8月9日,在中國深圳,由中國計算機學會(CCF)主辦,香港中文大學(深圳)、雷鋒網(公眾號:雷鋒網)聯合承辦,鵬城實驗室、深圳市人工智慧與機器人研究院協辦的第五屆CCF-GAIR全球人工智慧與機器人峰會,在深圳前海華僑城 JW 萬豪酒店正式拉開帷幕。

深圳市人工智慧與機器人研究院執行院長、國際歐亞科學院院士、IEEE Fellow李世鵬擔任專場主持人。第一位演講的嘉賓是北京語言大學信息科學學院院長荀恩東教授。荀恩東教授的研究領域涉及漢語語義計算和語言資料建設,主持開發過國內外最大的在線語料庫——BCC 語料庫,並在多個領域開展過漢語語義理解落地應用工作。荀恩東教授的演講主題是《語言智能核心問題——語義理解》。

在演講中,荀恩東教授表示,隨著大數據紅利褪去,語義理解已經成為自然語言處理中越來越重要的層面,並且不可避免。他首先討論了自然語言的兩個特點,即歧義和多樣性,並指出這兩個特點是語言理解的難點所在。然後他提到,語言理解的一般目標,是對自然語言進行結構化。最後,荀恩東教授介紹了一種新型的語義表示方案,即意合圖,力求促進自然語言的語義理解。

以下是演講全文,AI科技評論進行了不改變原意的整理:

今天我分享的話題跟語言智能、語義理解相關,演講主要內容是:語言智能及其應用類型;語言理解的目標、途徑和方法;語義理解中的語義表示和構建。

語言智能及其應用

人工智慧發展經歷了幾個階段,計算智能、感知智能、認知智能和創造智能。我們在感知智能取得了非常大的進步,感知智能處理的對象是視覺和語音。認知智能處理的主要對象是自然語言,因為語言是認知的工具。

相比視覺和語音,認知智能或語言智能是更有挑戰性。因為認知智能處理的對象是自然語言,自然語言非常靈活。在視覺和語音階段解決的是識別問題,到語言階段就涉及到理解問題。

語言智能這麼難是由自然語言的特點決定的。我們知道自然語言的歧義無處不在,歧義包括語義、詞法、語法、語意、語用、語境等方面。

舉幾個例子,比如說「魯迅著作」在不同語境裡有歧義:是指魯迅寫的文學作品,還是關於魯迅的某種論述呢?「我們研究所有東西」屬於分詞歧義,也即語法歧義。「我在汽車上畫畫」,在語法上沒有歧義,但是在語義上有歧義。需要用一般常識告訴我們,人肯定不是在汽車頂上畫畫,應該是坐在汽車裡畫畫。「有同事孩子考上名校很優秀」,「同事孩子考上名校很開心」,對於誰開心、誰優秀,也屬於語義上的歧義。「在冬天能穿多少穿多少,夏天能穿多少穿多少」。這兩句的字面意思一樣,結合語境就完全不一樣了。這就是語言的歧義性。

語言的多樣性也是造成語言處理困難的主要方面,包括主題不同、表達不規範等等。我們理解語言往往要調用外部的知識,比如世界知識。讓計算機處理語言,面臨著知識獲取的瓶頸,以及文化習俗的密切影響,文化習俗是動態、約定俗成的,有時候甚至是不講道理的。

目前語言智能在多個領域有應用,主要是四種類型:分類、生成、抽取和校對。

分類問題:也就是給語言對象打標籤,語言對象可以是句子、篇章、文檔集,標籤可以是二值、多值標籤,在不同領域有不同的含義。

生成問題:給定原文本生成另一種文本表達,典型的應用是機器翻譯,給定原語言生成目標語言,以及人機對話、自動寫作等等。

抽取問題:從研究對象提取想要的答案,有兩種情況。1、從原文裡直接摘取答案,比如信息檢索和機器問答。2、從原文摘取內容並經過加工和處理,以滿足某種需求,屬於挖掘類問題。比如說給定文檔數據集,以生成知識圖譜,知識圖譜來源於大數據,但是,知識圖譜是經過了再加工和再處理,用來滿足某種需求。還有文本摘要問題,也是一樣。

校對問題:讓計算機對給定的處理對象,回答對應信息是否齊全、是否一致、是否準確的問題。這個問題有多個場景應用,比如合同審查、公文審查、稿件校對、知識圖譜補全等等。在合同審查時,起草合同一定有必添的事項,比如甲方、乙方、金額、引用的法律條款等等。這些信息是否存在不一致,是否存在缺失,是否存在引用不準確,都是審查的對象。

知識圖譜裡有一個很重要任務就是知識圖譜補全。從文檔集生成知識圖譜,難免存在數據稀疏的問題,使得構造的圖譜信息不夠完備,必須通過其他的信息源補全缺失信息。

語言理解是語言智能的主要任務

語言理解是語言智能的主要任務,涉及到語言理解的目標、途徑和主要模型。計算機對語言的理解是指什麼?實際上,在處理語言時,所謂的理解就是確定了概念與語言單元的映射,以及知道承載概念單元的語言屬性,和知曉不同語言單元之間的關係。

語言單元在不同的場景裡有不同的表現,有的可能是詞和詞之間的關係,有的可能是句子和句子之間的關係,或者是段落和段落之間的關係等等。那麼我們如何確定表達概念的語言單元、單元屬性和單元之間的關係呢?

舉兩個例子,第一個例子給一個句子,然後給出語義,生成意合圖。比如「警方嚴厲打擊經濟犯罪」,這句話涉及兩個類別的概念:一是事件類概念,二是實體類概念。

如下圖所示,圓角矩形是事件,方角矩形就是實體。「打擊」和「嚴厲」是事件,警方和犯罪是實體,這就把實體之間的關係構造出來了。在「打擊」和「嚴厲」下面還有屬性,有命題信息和情態信息。

第二個例子是一個知識圖譜,如上圖所示,其中有四個對象,我們要構建四個對象之間的關係。張三和李四是同學關係,張三畢業於北語,李四畢業於礦大,北語和礦大是鄰居關係。

此外還有屬性,屬性可以作用在單元上,也可以作用在關係上。在單元上,張三的屬性是男、年齡28歲。屬性也可以作用在邊上,比如張三和李四之間的同學關係的屬性,是高中,所以他們是高中同學關係。關係的屬性,以及控制關係的條件,是知識圖譜中非常重要的內容。

語言理解的一般目標,是對自然語言進行結構化。自然語言處理涉及一系列的任務,對象層面涉及句子、篇章和文本集,任務層面涉及分詞任務、NER、摘要、信息挖掘、信息抽取等等。

不管針對哪類對象和執行哪種任務,核心的計算過程都是將語言轉換成單元和關係上的屬性,屬性有兩類,一是無序標籤;二是無序的關鍵值對。

語言關係在數學上表現為序列關係、集合關係、樹的形態和圖的形態,複雜的問題是這些形態的組合。所以做語言理解實際上就是把自然語言結構化,這種結構化是計算機可操作的方案,很容易對接落地的需求。

目前語言理解、語言信息處理主要依靠端到端模型。我們利用數據執行任務,從數據構建模型,並從輸入直接得到輸出,中間過程交給機器學習完成。此外還有組合模型,用到了機器學習和符號運算組合的策略。

端對端的運算有四種模型,做自然語言處理都逃不過這四種模型:1、分類模型。給個對象,打標籤;2、序列標註模型。對序列的對象,給予每一個對象安排一個標籤,即序列標註;3、信道模型。即編碼器解碼器模型,把原信息做成某種編碼表示,之後做解碼和輸出;4、相似度計算。這種計算可以是針對詞的相似度,也可以是針對有上下文的詞的相似度,可以針對短語、句子或篇章。針對端對端的運算,都涉及這四類模型,其他模型都是這四類模型的組合。

組合類的模型解決的問題一定是端到端方案解決不了的,或者是端到端方案解決不好的問題。這類問題要麼是複雜問題,要麼是想要規避端對端不可解釋、不可控缺陷的問題。組合類模型有兩類,一類是以符號運算統領全局,可以把複雜的輸入、複雜的問題做子問題分解,對每個子問題找到合適方案,再做輸出。各個子問題輸出之後,通過符號運算做推導,再得到問題的答案。一類以機器學習做統領,把複雜問題化為子問題,不同子問題找到合適方案,再做輸出,把輸出統一在機器學習網絡架構下得到問題的答案。

其中後者是學界正在探索的,就是把人類的結構化知識和可控的信息融入到機器學習的框架裡。前者是工程化的解決方案。

語義理解是語言理解的核心

語義理解是語言理解的核心。語言理解可以在多個層面進行,有語法層面、語義層面和語用層面(跨過語法和語義層面)。

當然,隨著大數據的紅利褪去,我們越來越不能迴避語義理解的問題,越往深走這個問題越發凸顯。不管是語言問題還是其他問題,比如語音、圖像等等,都面臨語義理解的問題。

以前行業裡都認為,做自然語言處理的語義理解是個大坑。因為脫離了實際場景做語義是不切實際的。

但現在有一種可能,就是在具體場景還不明確的時候做語義分析。一旦分析結果和跟場景需求相結合,就能快速地得到解決方案,這是我們的目標。我們在語義層面進行探索,需要得到一種表示,這種表示可以非常容易地轉化成落地的應用。

語義表示是自然語言學界一直在探討的問題。通常我們用依存圖來理解自然語言,但是在實際場景中遠遠不是這樣。目前關於語義理解,AMR比較受學者的追捧。有一些大廠開源了語義分析的引擎,是為了提供得到中間表示的工具,而不是終端解決方案。

不管哪種表示形態,一般的套路就是確定一個概念體系,然後開始標註,之後學模型。但是在實際場景解決問題的時候會面臨很大的問題,就是確定的概念體系和標記語料,跟實際場景相差很遠,應用成本高。

為了得到更貼近應用的語義表示方案,我們提出了意合圖。意合圖是什麼呢?舉個例子,「它圓圓地畫了一個圈」,我們怎麼理解這句話?

我們從一般語言的角度來提取這句話裡最根本的東西,即事件和實體。意合圖是針對漢語意合語言的特點來做的。意合圖包括事件複合體和實體複合體,如下圖所示,圓角矩形是事件複合體,直角矩形是實體複合體。

我們把事件主體找出來,就是「畫」這個動詞。誰畫了什麼?然後我們需要找到主體和客體兩個實體複合體,找到了「他」和「圈」,這樣就把實體和事件之間進行了關聯。

如果對所有自然語言做出這樣的表達,對於理解語言是有幫助的。但問題是,這種表示的完備性和泛化性如何?另外,這種表示是不是可計算的。

再舉幾個例子。「雖然你不出門,卻知天下事。」事件類有「出門」和「知」,這兩個事件具有轉折關係。與「出門」和「知」相關的實體是「你」和「天下事」。

「出門」和「知」在詞條級做加工和處理,因為這種詞條是穩定的。我們可以在大數據將經常搭配的詞條和類型找出來,進行匹配。

還有一種意合圖是,句子中沒有完備的事件實體結構,但是存在自定義的或者是隱性的關係。比如說眼睛,一說到眼睛,我們就知道這是指某個生物的眼睛。眼睛一定有一個主人,從「他哭腫了眼睛」,我們知道眼睛是「他」的。 

這個例子也一樣,「我吃飯比他快」,「快」是比較的詞語,是比較兩個吃的動作,不能說「我吃飯」跟「他」比。這裡面的「他」和「我」產生了共享,共享就是指「吃飯」和「他」進行了組合。

那麼,怎麼構建意合圖?下圖展示了我們的技術路線。給一個句子,不採用端到端的解決方案做意合圖,否則需要標記很多數據。我們的理念是,意合圖是不可標的,因為數量太龐大。我們藉助塊依存結構來做意合圖,先做結構,再從結構做語義。

在結構階段,我們採用了語塊依存的做法,針對漢語的特點和實際應用的要求,,構造了超大規模的北語樹庫。

在語塊依存的結構分析基礎上,我們利用各類的搭配,比如命題搭配、情態搭配和事理搭配數據,通過符號運算,生成意合圖。

在這裡,各類搭配數據,是在大數據自動學習得到的,經過前期或後期的人工校對,保證搭配數據的質量。

做結構的時候依靠樹庫標註,北語這幾年發布了幾個千萬量級的樹庫,基於分層分階段建設規劃,包括樹庫1.0(組塊語結構),樹庫2.0(預設結構還原),樹庫3.0(句間關係),等等。我們的標註數據基於篇章,規模很大,涉及很多領域。

下圖展示了塊依存樹1.0中組塊語結構的例子。我們通過簡單的標註操作,得到快依存結構。

下圖展示了塊依存樹2.0中預設結構還原的例子。在1.0的基礎上,我們針對事件類的謂詞,標註了具有預設的依存結構,構造了主、謂、賓、狀、補自足的結構,這為下一步生成意合圖提供了充分的結構基礎。

有了意合圖,我們能做很多任務,意合圖是一種抽象表達,可以用於對話、推理和生成圖譜、寫作等等。例如:我們可以在意合圖的基礎上引入第三方知識,比如知識圖譜,做推理;如果大數據中句子都分析成意合圖形態,可以做意合圖的融合,形成意合圖圖譜,進一步可以生成知識圖譜、事理圖譜等;也可以做複述,從抽象的意合圖生成句子;可以從意合圖中抽取答案,做問答系統,可以從意合圖中提取至命題,做蘊含分析等等。

我們團隊已經在專利、健康等領域初步應用了意合圖,顯示了強大的功能,為語義理解研究和開發開闢了新的領域。 雷鋒網雷鋒網雷鋒網


雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • CCF-GAIR 2020 震撼來襲:16 大專場,論道 AI 新...
    2020 全球人工智慧與機器人峰會(簡稱 CCF-GAIR 2020),將於 2020 年 8 月 7 日至 9 日在深圳舉行。南京大學教授,南京大學計算機科學與技術系主任兼人工智慧學院院長,歐洲科學院外籍院士,IEEE / ACM / ICPR / AAAI / AAAS Fellow。
  • | CCF-GAIR 2020
    對話的一個核心問題是理解語言,但理解語言並不是對話的最終極目標。在很多的複雜人機對話和交互裡面,交互是多模態的,另外目的也超過了簡單的理解意圖。比如說諮詢導購,這是一種很常見的人和人之間對話的任務,但這個任務的目的不只是為了理解用戶、回答用戶諮詢,很多時候是要完成一個「銷售」的任務。這是更深層次的一個系列的博弈和決策,最後使得銷售的任務可以達成。從這個角度來說,文本只是一種呈現形式。
  • 空天信息院粵港澳大灣區研究院揭牌
    空天信息院粵港澳大灣區研究院揭牌 2019-09-03 空天信息研究院 【字體:大 中 小】   大灣區研究院將聚焦太赫茲源和探測器的研發,通過探索新理論、新方法、新材料、新工藝,從微波和光學兩個方向瞄準太赫茲核心技術的突破,力爭產出國際領先的原創性成果,凝聚國內外優秀太赫茲人才。
  • 諾貝爾獎得主、皇家院士、IEEE Fellow……CCF-GAIR 2019 震撼來襲
    在語音、NLP、大數據分析、企業智能、網際網路搜索、機器智能、深度學習等多個領域,鄧力曾獲 70 多項美國或國際專利,並著有多本深度學習、語音處理、判別機器學習和自然語言處理的技術書籍。香港中文大學電子工程學系系主任,加拿大工程院院士,香港工程師學院院士,IEEE Fellow
  • 深耕語義智能技術 拓爾思拓展AI「硬科技」
    「人工智慧大致分三個階段: 第一個階段解決計算智能相關的問題,第二個階段是實現感知相關的智能,如語音識別、人臉識別等弱人工智慧,第三個階段是實現認知相關的智能,如語言理解、知識獲取和推理等,我們廣義上定義為語義智能,屬於人工智慧的高級階段——強人工智慧。」
  • 乾貨滿滿,亮點多多 2020 全球人工智慧與機器人峰會圓滿落幕 | CCF...
    《語音智能核心問題——語義理解》  鵬城實驗室副主任、香港中文大學(深圳)校長講座教授、IEEE Fellow 陳長汶《視頻物聯網——新一代智能化物聯網》  在長達 40 分鐘的遠程視頻報告中,高文院士從智慧城市建設的角度出發,探討了城市大腦從 1.0 到
  • 2020 全球人工智慧與機器人峰會圓滿落幕 | CCF...
    、CCF 會士、ACM/AAAI/IEEE/AAAS/IAPR Fellow 周志華《反繹學習(Abductive Learning)》香港中文大學(深圳)校長講座教授、AIRS 中心主任、中科院雲計算中心首席科學家、IEEE Life Fellow 黃鎧《5G Cloud, AIoT and Edge Computing》北京語言大學信息科學院院長荀恩東《
  • 加快科技創新 攻關語言智能
    語言智能是當前人工智慧研究中需要集中攻關的關鍵核心技術之一,其基礎理論與關鍵技術研究的突破對我國發展人工智慧具有重要意義。  人工智慧是引領未來的戰略性技術,世界主要發達國家近年來都把發展人工智慧作為提升國家競爭力、維護國家安全的重大戰略,加緊出臺規劃和政策,圍繞核心技術、頂尖人才、標準規範等強化部署。從我國發展現狀來看,語言智能是當前人工智慧研究中需要集中攻關的關鍵核心技術之一,其基礎理論與關鍵技術研究的突破對我國發展人工智慧具有重要意義。
  • 百度語義理解技術與平臺文心ERNIE:AI時代的文本智能化利器
    語言與知識技術,被歸類為認知智能,一直是人工智慧最熱門的研究與應用領域。9月15日,百度世界2020召開,作為"AI新型基礎設施"百度大腦6.0的重要組成部分,百度語義理解技術與平臺文心(ERNIE)在大會上的發布吸引了大量NLP開發者的目光,尤其基於多流機制的預訓練語言生成技術ERNIE-GEN、知識增強跨模態語義理解技術ERNIE-ViL等,均達到了世界領先水平。
  • 語言智能亮點頻出,世界人工智慧大會達觀數據發布智能辦公機器人集群
    語言智能作為AI領域的關鍵核心技術,越來越多地應用於各個行業,達觀數據和浦東青聯聯合主辦的「智能時代,『語』你同行」主題論壇7月10日在雲端再次掀起語言智能發展的討論熱點。  浦東新區副區長管小軍,浦東新區團委書記、浦東新區青聯主席林廷鈞出席雲端峰會。
  • 2020語言與智能技術競賽啟動,百度提供最大規模中文數據集
    語言是人類信息傳遞最重要的媒介,讓機器理解語言並使用語言進行交互是實現通用人工智慧的重要挑戰,3月10日,2020語言與智能技術競賽正式啟動,面向全球開發者開啟報名通道。本次競賽共設立五個任務,包括機器閱讀理解、面向推薦的對話、語義解析、關係抽取和事件抽取,涉及到語言理解、人機對話、知識抽取等複雜技術,這些任務的研究對於智能搜索、智能推薦、智能交互等人工智慧應用具有重要意義
  • 圓夢北語,學有所成——北京語言大學2021屆春季畢業典禮暨學位授予...
    1月6日,北京語言大學2021屆春季畢業典禮暨學位授予儀式隆重舉行,來自埃及、巴基斯坦、韓國、日本、美國、古巴、俄羅斯、法國、義大利等43個國家的192名同學完成了本科、研究生、博士生培養計劃,圓滿完成學業,即將開啟新徵程。北京語言大學校長劉利,副校長張旺喜,副校長張寶鈞,校長助理、研究生院院長、漢語國際教育學部主任郭鵬出席典禮並參與學位授予儀式。
  • 北京語言大學積極推廣「北語模課」平臺
    北京語言大學注重現代教育理念和技術手段,將大型開放式網絡課程(MOOC)應用於教學實踐中,通過「北語模課」平臺進行整合,探索全新模式的教學改革。  開發「北語模課」在線學習系統。與北京世紀超星公司合作研發了符合北語辦學特色和教學要求的網絡資源共享平臺:「北語模課」在線學習系統。
  • 對話翁嘉頎:暢聊竹間智能情感計算技術與商業落地 | CCF-GAIR 2018
    在自然語言處理專場上,竹間智能CTO翁嘉頎受邀作為「自然語言處理的落地難點及應用未來」圓桌討論嘉賓,分享了自己的觀點。會後,雷鋒網對翁嘉頎進行了一對一的專訪。竹間智能成立於2016年,主要是做文本分析、自然語義理解、情感計算。竹間智能主要有兩條產品線,一條是類腦對話機器人,包含了客服機器人、導購機器人、金融機器人、營銷機器人、個人助理、品牌IP機器人等;一條是多模態情感識別系統,包括情緒識別分析系統、人臉表情識別系統、印象分析系統、廣告效果分析系統、呼叫中心質檢系統、課堂情緒分析系統等。
  • 直播預告丨ICLR 2020:動作語義網絡,考慮多智能體系統中動作的影響
    CVPR 2020 系列論文解讀公開課第四期,就在4月23日(本周四)20:00 整(北京時間)進行。而【ICLR 2020系列論文解讀公開課】更是其中重要的組成部分,除此之外,專題還包括系列論文文字解讀,會議數據分析,會議資源下載等。
  • 向語言與知識領域再下一城!百度世界2020文心升級深入產業應用
    百度世界2020文心升級深入產業應用) 語言與知識技術的相關研究進展,影響著人工智慧理解世界的方式。
  • 同唱逐夢之歌,不斷追求優秀——北京語言大學2020級新生開學典禮...
    9月18日,伴隨著「我們都是追夢人」的動人旋律和鏗鏘歌聲,北京語言大學2020級新生開學典禮在學校體育場上隆重舉行。來自世界各地的2781名新生身著白色T恤衫,整齊地坐在臺下;同時開學典禮面向全球直播,世界各地的北語人云端相聚,共襄盛舉。黨委書記倪海東,校長劉利,黨委副書記魏暉,黨委副書記、紀委書記馬貴生,副校長張旺喜、副校長張寶鈞、副校長黃益方出席典禮。
  • 留學為你來 | 北京語言大學
    留學為你來 | 北京語言大學 2020-07-24 21:22 來源:澎湃新聞·澎湃號·媒體
  • AI算法瞬間學習理解96種語言 斬獲國際權威競賽冠軍
    AI算法瞬間學習理解96種語言 斬獲國際權威競賽冠軍打破語言藩籬,重建巴別塔是人類的遠古夢想,如今全球化語境下,更是一種當務之急。如何做到多語言交流和跨語義理解,也是人工智慧的"聖杯"課題。然而,這些系統的構建往往依賴於海量數據,使用單一語言訓練而無法直接應用於多語言,這對於數據稀少的小語種(比如布列塔尼語、冰島語)無疑挑戰巨大。如何用一個單一的語言算法或模型,理解多種語言,搭建起交流的橋梁,正是ERNIE-M 的研究目標。當前,多語言語義理解的相關研究已經展開,主要是通過單一語言的語料分別學習不同語言的語義,再使用雙語語料對齊不同語言的語義。
  • CCF-NLP走進高校第七期「走進天津大學&南開大學」
    本期活動由中國計算機學會自然語言處理專業委員會(CCF-NLP)主辦,天津大學、南開大學、AI研習社聯合承辦,AI科技評論和機器學習算法與自然語言處理作為戰略合作媒體,活動將通過線上直播分享方式舉行。前六期報告會分享詳情請見文末「往期回顧」。