EMNLP 2019 | 哈工大劉挺團隊,基於事件背景知識進行 If-Then 類型常識推理

2021-03-02 機器學習算法與自然語言處理


原標題:賽爾原創 | EMNLP 2019 基於上下文感知的變分自編碼器建模事件背景知識進行If-Then類型常識推理。

論文名稱:Modeling Event Background for If-Then Commonsense Reasoning Using Context-aware Variational Autoencoder

論文作者:杜理,丁效,劉挺,李忠陽

原創作者:杜理,丁效

下載連結:https://arxiv.org/abs/1909.08824

轉載自:哈工大SCIR

理解事件並推斷事件相關常識知識對於多種NLP任務具有重要意義。給定某一特定事件,人類可以輕易推斷出該事件的意圖、效應等,然而這類If-Then推理任務對於AI仍具相當挑戰性。針對此,研究者提出了一個If-Then類型事件常識推理數據集Atomic和基於RNN的Seq2Seq模型以進行此類推理。然而,同一事件可能對應多個意圖,基於RNN的Seq2Seq模型傾向於生成語義接近的答案。此外,學習事件背景知識將有助於理解事件並進行If-Then推理任務。為此,我們提出一個上下文感知的變分自編碼器以學習事件背景知識並進行If-Then推理任務。實驗結果顯示相比於基線方法該方法能有效提高推理結果的準確性與多樣性。

事件相關常識知識推理近年來日益受到研究者的關注。為此,Rashkin等人(2018)與Sap等人(2018)分別提出了事件相關If-Then類型推理數據集Event2Mind與Atomic。這兩個數據集關注於給定事件後,推斷事件的原因、結果等知識。同時他們還提出利用經典的基於RNN的Seq2Seq框架以進行此類推理。

然而If-Then推理問題仍存在兩個挑戰。首先,如圖1所示,給定某一事件,對於該事件的感受可能是多樣的。對於此類一對多生成問題,研究顯示,傳統基於RNN的Seq2Seq模型可能傾向於給出某些泛泛的回答(li等人,2016,; Serban等人,2016)。其次,生成合理答案需要建立在對事件背景知識的了解之上。如圖1所示,對事件「PersonX finds a job」的感受可能是多樣的。然而,在給定事件上下文「PersonX isfired」後,合理的感受將局限於"needy"或"Stressed out"。

為更好應對這兩個挑戰,我們提出了一個上下文感知的變分自編碼器(context-aware variationalautoencoder, CWVAE)。基於變分自編碼器的方法被廣泛利用於提高一對多生成問題中模型生成的多樣性(Bowman等人,2015; Zhao等人, 2017)。在傳統變分自編碼器的基礎上,我們引入了一個額外的上下文感知隱變量(Context aware latent variable)以學習事件背景知識。在預訓練階段,CWVAE在一個故事語料構成的輔助數據集上(包含豐富的事件背景知識)預訓練,以使用上下文感知隱變量學習事件背景知識。隨後,模型在Atomic/Event2Mind數據集上微調,以使得模型適應各個If-Then推斷目標(如事件意圖,事件效應等)。

圖1 If-Then推理問題的兩個挑戰同一事件可能使人產生多種感覺。背景知識有助於If-Then推斷過程。但是這一知識在數據集中並不存在。

在介紹Atomic與EventMind數據集以及正式定義問題之前,為清晰起見,我們定義以下術語:

Base event:If-Then推理的前提事件,如圖1中的「PersonX finds a new job「。

Inference dimension:特定的If-Then推理類型,如事件意圖、事件效應。

Target:推理目標。如圖1所示,給定base event 「PersonX finds a new job「和Inference dimension"XReact", Target可以是"needy"或"relieved"。注意同一base event可能對應多個 target。

Event2Mind數據集通過眾包形式構建,包含約25K條base event,以及300K target。表1展示了一個Event2Mind數據集中的例子。

表1 Event2Mind數據集中的一個例子。」x「和」o「分別指PersonX和others。

Atomic數據集相比於Event2Mind規模更大。表2展示了一個Atomic中的例子。儘管Atomic同時包含Event2Mind中的inference dimension,二者的base event並不完全相同。

表2 Atomic數據集中的一個例子。」x「和」o「分別指PersonX和others。

問題定義 If-Then推理問題可以定義為一個一對多的條件生成問題:給定base event ,和一個inference dimension ,模型需要生成target 並使其儘量接近於人工標註,其中均由一系列詞構成。

本文將If-Then推理問題概括為[(background), event]-target關係,並利用CWVAE建模這一關係。為實現這一目的,如圖2(a)所示,在CWVAE中,我們引入了一個上下文獲取隱變量(context-acquire latent variable) 用以直接獲取事件背景知識,和一個上下文感知隱變量(context-aware latent variable)用以從處學習事件背景知識。因為Atomic與Event2Mind數據集中並不存在事件背景知識,我們設計了一個兩階段訓練過程:

預訓練:從輔助數據集上學習事件背景知識 如圖3(a)所示,在預訓練階段, 上下文獲取隱變量能夠直接獲取到有關於事件上下文的知識。隨後,通過最小化與上下文感知隱變量之間的距離,事件背景知識得以從傳遞至

微調:使學到的事件背景知識適應於每個Inference Dimension 如圖2(b)所示,在此階段,CWVAE在Atomic與Event2Mind的每個inference dimension上進行微調。進而,如圖2(c)所示,在推斷階段,給定事件後,CWVAE得以利用中蘊含的有關於事件背景的知識生成targets。

圖2 CWVAE的預訓練、微調與生成過程

圖3展示了CWVAE的具體結構。模型總體分為四部分:編碼器(Neural Encoder)將編碼為向量表示,先驗網絡(Prior Network)建模,識別網絡(Recognition Network)建模,解碼器(Neural Decoder)則整中蘊含的信息以生成

圖3 CWVAE的具體結構

編碼器由雙向GRU構成,將上下文, base event 與target 編碼至向量表示,, 與

識別網絡利用向量表示, , 建模, , 。上述三個分布均為各向同性的高斯分布(換言之,協方差陣為對角陣)。

我們提出了一個基於注意力機制的推理模塊ABI(Attention Based Inferer)以估計上述分布的均值和標準差

(1)

ABI的具體結構見下文。

先驗網絡 利用建模。上述兩分布同樣為各向同性的高斯分布。其均值與方差亦利用ABI估計:

(2)

解碼器 給定, ,解碼器以如下方式生成:

(3)

, 是前饋神經網絡。是注意力機制中的上下文向量(context vector), 是解碼器中的隱含狀態。我們按照Bahdanau等人(2014)的方式定義 。但隱含狀態,其中中第個詞的詞嵌入向量。通過這種方式,在解碼過程中CWVAE能夠直接利用中蘊含的事件背景知識。此外, 中的隨機性可以增強生成的多樣性。

基於注意力機制的推斷器 受Parikh等人(2016)的啟發,基於注意力機制,我們按以下方式計算 的均值與方差:給定兩個向量序列(如上下文與base event的表示 ),我們首先利用互注意力機制(Parikh等人,2016)得到向量序列的上下文向量序列。隨後,對於兩組上下文向量序列進行平均池化操作可得兩個向量

通過上述操作,攜帶了序列與序列的語義交互信息。在的基礎上,通過下列操作,我們得到均值與標準差

(4)

5.1輔助數據集的構建

輔助數據集基於三個故事數據集構建:ROCStory(Mostafazadeh等人,2016), VIST(Huang等人,2016),WritingPrompts(Fan等人, 2018)。我們將上述數據集中的每個故事分成長為5句話的子段落,並將每個子段落的前三句話定義為base event的上下文,第四句話定義為base event,第五句定義為target。表3給出了一個例子。

表3 輔助數據集的一個例子


5.2 評價指標

我們使用BLEU與困惑度作為衡量生成準確性的指標,利用distinct-1gram與distinct-2gram的數量作為衡量生成多樣性的指標(Li等人, 2017)。此外,我們還從生成的準確性,多樣性與流暢性三個角度對模型進行了人工評價。

表4 (a) Event2Mind數據集上的perplexity與BLEU score;

(b) Event2Mind數據集上的distinct-1與distinct-2

表5 Atomic數據集上的perplexity與BLEU score

表6 Atomic數據集上的distinct-1與distinct-2



5.3 整體結果

表4--6展示了CWVAE與基線方法在Event2Mind與Atomic上的BLEU與困惑度,以及distinct-1與distinct-2指標。從中可以觀察得出:

通過將基於變分的Variational Seq2Seq,VRNMT, CWVAE-unpretrained以及 CWVAE與其他基於RNN Seq2Seq的模型發現,基於變分法的模型生成的多樣性總體而言高於其他基於RNN Seq2Seq的模型。這確認了採用基於變分的模型提高生成多樣性的合理性 。

通過將CWVAE-unpretrained與其他基線模型對比發現,總體而言CWVAE-unpretrained在兩個數據集上均表現出了較好的準確性與多樣性。這顯示了CWVAE在捕獲target的潛在語義分布、生成合理推理結果上的能力。

將CWVAE-unpretrained與CWVAE對比發現,總體而言預訓練能夠提高模型在準確性與多樣性兩方面上的表現。這是由於,事件背景知識能夠指導推理過程。而通過預訓練,模型能夠學到事件背景知識。

人工評價結果見表7。總體而言,在兩個數據集上,CWVAE也表現出了較好的準確性,多樣性與一致性。

表7 (a)Event2Mind數據集上的人工評價結果; (b)Atomic數據集上的人工評價結果

針對If-Then推理問題,本文提出了一個上下文感知的變分自編碼器(CWVAE)和一個兩階段的訓練過程。利用額外的上下文感知隱變量,CWVAE得以學習事件背景知識,並利用這種知識指導If-Then推理過程。通過兩階段訓練過程中的預訓練階段,CWVAE學習事件背景知識。在隨後的微調階段,使得學到的背景知識適應於各類推理目標。實驗結果顯示CWVAE在兩個數據集上均表現出了較高的準確性與多樣性。

相關焦點

  • EMNLP 2020即將召開,中國學者最高產:單人9篇主會論文!
    論辯對挖掘任務:邴博士團隊首次提出了從構成辯論關係的兩篇文檔中,抽取論辯對的任務。現有論辯挖掘的任務是基於單一文本進行抽取,如法律文件、論文等。辯論對挖掘任務第一次探索從兩篇文檔中,挖掘互相構成論辯關係的文本片段。
  • AAAI 2020學術會議提前看:常識知識與常識推理
    .pdf論文引入常識問答往往需要那些並沒有在問題中顯著表達的背景知識。(2)基於圖的推理部分:基於圖的推理部分包含兩個模塊:(a)基於圖的上下文表示學習模塊,該模塊利用圖結構信息重新定義單詞之間的距離以學習更好的上下文單詞表示。
  • EMNLP 2019 | 法小飛:中文法律智能助手
    本文介紹了哈工大訊飛聯合實驗室(HFL)在自然語言處理頂級國際會議EMNLP 2019上發表的DEMO論文。
  • 知識圖譜推理框架:基於向量空間的推理和數值邏輯推理
    基於知識圖譜的推理作為知識圖譜問答的基礎,也是有著不同的解決框架,本文解讀了兩篇不同框架的論文:一篇是基於知識圖譜的向量嵌入技術,完全基於向量操作進行推理演算;另一篇是基於 Neural Logic Programming 框架,並進一步解決了數值推理的問題。
  • 基於空間認知的知識表示和推理探討
    基於符號的知識推理的方法多利用人工編寫的或者從已有知識庫習得的邏輯規則進行知識推理。人工編寫邏輯規則的方法難以適應大規模知識推理的需求,存在推理覆蓋度低和推理效率低的問題。知識庫的不完備性也使得從稀疏數據中學習得到的邏輯推理規則準確性不高,尤其是隨著推理規則階數的增加,規則的準確性下降迅速。
  • 知識圖譜前沿跟進,看這篇就夠了,Philip S. Yu 團隊發布權威綜述...
    基於知識的模型得益於異構信息、豐富的知識表徵本體和語義,以及多種語言知識的集成。因此,在常識理解能力和推理能力取得進步的同時,諸如推薦系統和問答系統等許多真實世界中的應用也走向了繁榮。微軟的 Satori 和谷歌的知識圖譜等現實世界中的產品,已經展現出了提供更多高效服務的強大能力。
  • 第六屆中文語法錯誤診斷大賽,哈工大訊飛聯合實驗室再獲多項冠軍
    訊飛、阿里、上交、南大、有道、外研社、新華社等團隊均有精彩表現。其中,哈工大訊飛聯合實驗室(下文簡稱HFL)團隊獲得綜合排名第一的成績,多項核心指標保持領先。A.I.也能改作文,我們拿下多項冠軍!主辦方會挑選外國人寫作的中文句子作為考題,參賽團隊需要利用A.I.算法技術對其中的語法語義錯誤進行識別,對部分類別錯誤進行修正,並進行系統性能評估。可別小看了這場「語法批改大賽」,它所考驗的能力十分綜合。
  • 基於數值數據理解和重要信息驗證的數據到文本生成模型
    論文名稱:Enhancing Content Planning for Table-to-Text Generation withData Understanding and Verification論文作者:龔恆,閉瑋,馮驍騁,秦兵,劉曉江,劉挺原創作者:龔恆論文連結:https://www.aclweb.org/anthology/2020.findings-emnlp
  • ...語言模型提供常識知識!中科院信工所雛鷹團隊在SemEval上大顯神威
    在本屆SemEval-2020國際語義評測大賽中,中國科學院信息工程研究所胡玥老師帶領的參賽團隊雛鷹團隊(系統名:III-ENLP-NUT)(團隊成員:邢璐茜、謝玉強、彭偉)在Task4: Commonsense Validation and Explanation (常識驗證與解釋, 子任務A-常識驗證及子任務B-常識解釋選擇上均取得了Top-3的好成績。
  • 困擾人工智慧發展的,是最簡單的常識問題
    常識推理——用關於世界的基本知識進行對世界的推理的能力,比如「火柴」加「木頭」一般等於「生火」的事實,數十年來一直在抵抗著AI研究人員的努力。Marcus把對AI突擊考試的結果發布到了自己Twitter帳號上,並加上了自己的評論:「笑死我了」(LMAO,網際網路語)。神經網絡的語言模仿能力也許令人印象深刻,但顯然缺乏基本常識。
  • 讓計算機「擁抱」常識 | 翻譯徵文 | 雷鋒字幕組
    儘管如此,常識推理研究進展還是慢得出奇。起初,研究人員試圖將常識轉換為計算機語言:邏輯。他們認為,如果可以寫下人類常識的所有不成文規則,計算機就應該能夠用它們進行推理,就像做算術一樣。這類方法後來被稱為「良好的老式人工智慧(GOFAI)」。雖然取得一些早期成功,但嚴重依賴人工定義,使其無法進行擴展。
  • 第三代AI突破的關鍵:相關人才基於不懈努力做出的創新
    究其原因在於,AI 正面臨著制約其向前發展的瓶頸問題:大規模常識知識庫與基於認知的邏輯推理。而基於知識圖譜、認知推理、邏輯表達的認知圖譜,則被越來越多的國內外學者和產業領袖認為是「目前可以突破這一技術瓶頸的可行解決方案之一」。 目前,人工智慧的發展經歷了從表示、計算到感知兩個階段,下一個階段的核心是認知。
  • 哈工大(深圳)科研成果入選2019年度中國光學十大進展
    基於 「二維碼」結構的片上彎曲波導和交叉器件。哈工大(深圳)供圖中新網深圳3月20日電 (鄭小紅 朱族英)記者20日從哈爾濱工業大學(深圳)獲悉,由哈工大(深圳)徐科、宋清海課題組牽頭完成的「可密集集成和任意路由的模分復用光子晶片」入選「2019年度中國光學十大進展」。
  • 抽取+生成:一種基於背景知識的參考感知網絡對話模型
    近些年來,有些研究通過改進目標函數或者引入話題信息來嘗試解決這一問題,也有研究通過引入背景知識來解決這一問題,我們稱之為基於背景知識的對話。如圖 2 所示,其任務目標為同時基於外界背景知識與對話上下文,生成自然、高信息量的回覆。
  • 哈工大 ACL 第二彈!三大實驗室,三場直播!
    相信在第一期的「哈工大 SCIR 系列解讀」中,大家就對哈工大社會計算與信息檢索研究中心 (HIT-SCIR)在自然語言處理領域中所嶄露的實力有目共睹。作為致力於產學結合的實驗室,哈工大企業與服務智能研究中心在今年 ACL 上同樣結出了碩果。5月21日,徐曉飛教授、葉允明教授的高徒張博聞將分享今年被 ACL 收錄的一篇關於如何解決跨目標立場檢測的工作,主題是「利用可轉移的語義情感知識增強跨目標立場檢測」。
  • 哈工大經管學院院長葉強應邀出席2020「中國商學院」教育盛典
    應主辦方邀請,哈工大經管學院院長葉強教授將出席2020 「中國商學院」教育盛典,分享哈工大經管學院在MBA教育中獨特的發展路徑。 基於哈工大的工科背景和信息技術優勢,哈工大經管學院在MBA教育長期的發展中逐漸形成了鮮明的工科底蘊和信息技術特色,著重輸出在商業活動中與技術相關的新型知識體系。
  • 哈工大經管理學院院長葉強應邀出席2020「中國商學院」教育盛典
    應主辦方邀請,哈工大經管學院院長葉強教授將出席2020 「中國商學院」教育盛典,分享哈工大經管學院在MBA教育中獨特的發展路徑。基於哈工大的工科背景和信息技術優勢,哈工大經管學院在MBA教育長期的發展中逐漸形成了鮮明的工科底蘊和信息技術特色,著重輸出在商業活動中與技術相關的新型知識體系。
  • 從Bengio演講發散開來:探討邏輯推理與機器學習
    人類使用誘因問題解決方法來解決問題的一個直觀例子是瑪雅象形文字的破譯,它反映了人類兩個顯著的智能能力:1)從象形文字中直觀地感知單個數字;2)基於數學和日曆的背景知識,象徵性地進行推理。圖 1 顯示了從帕倫克十字廟發現的瑪雅曆法,它從神話中的創世日期開始,接著是以長計數書寫的時間段,最後是由 Tzolk'in 和 Haab'日曆編碼的特定日期。圖 1.
  • 「神經+符號」:從知識圖譜角度看認知推理的發展
    ,則必須藉助外部的符號知識(如知識圖譜)進行認知推理,才能完成求解過程。綜上所述,「神經+符號」系統無疑是人工智慧的理想模型。我們可以總結出一個完美的「神經+符號」系統的特點和優勢:1.可以輕鬆處理目前主流機器學習擅長的問題;2. 對於數據噪音有較強的魯棒性;3. 系統的求解過程和結果容易被人理解、解釋和評價;4.
  • 在剛剛結束的ACL 2019上,知識圖譜領域都發生了哪些大事?
    然而,越來越明顯的是,兩種類型的智能體都必須擁有一些知識(即目標導向智能體所需領域知識,以及聊天智能體所需的更多的常識性知識)。說到對這種技術的預期,沒有比 ACL 主席周明本人解釋的更清楚了 - 在歡迎辭中,他強調了將知識圖譜,推理和上下文融入到對話系統中的重要性。我還想補充一點:KG 可以提高智能體的答案的可解釋性。