賽爾原創 | IJCAI 2018基於圖結構的實體和關係聯合抽取模型簡介

2021-03-01 哈工大SCIR

1. 前言

實體和關係抽取是信息抽取領域的的重要研究問題。如圖1所示,其輸入是非結構化文本,輸出則是識別出的實體及其對應的語義關係。其中,實體與關係之間、以及關係與關係之間都存在著很強的關聯性。例如,Live_In關係往往對應著 Person 和 Location兩種實體,反之亦然。Live_In關係(對應實體「John」 和實體 「California」) 可以由Live_In關係(對應實體 「John」 和實體 「Los Angeles」) 和 Loc_In關係(對應實體 「Los Angeles「 和實體 「California」)推理出來。

以往的很多工作都是採用串聯的方式來解決這兩個任務,也就是說先識別出實體,然後再在實體識別的基礎上識別出對應的關係,這種方法的一個主要問題就是所謂的錯誤傳播,還有就是其不能很好的利用實體和關係之間的關聯性。所以,目前的一個比較主流的研究思路就是採用聯合抽取的方法。對於聯合抽取方法,一個很重要的點就是如何充分的建模實體和關係以及關係與關係之間緊密的關聯性。

聯合抽取方法可以細分為基於統計的方法和基於神經網絡的方法。基於統計的方法的性能嚴重依賴於複雜的特徵工程,而且很難利用全局的特徵。基於神經網絡的方法則可以自動學習非局部的特徵,在聯合抽取任務上取得了更好的實驗結果。但是,目前大部分的基於神經網絡的方法僅僅是通過參數共享的方式來實現聯合抽取,其導致實體和關係以及關係和關係之間的聯繫不能被很好的利用。(Zheng et al., 2017)是第一種將實體識別和關係抽取兩個任務轉化成一個任務來做的基於神經網絡的方法。其通過設計一個標籤體系,從而將聯合抽取問題轉化成一個序列標註問題。這種序列標註方法的一個主要問題是如果一個實體同時和另外兩個實體有關係,其只能識別出其中的一個關係。還有一個問題是,其並不能顯示的建模實體與關係以及關係與關係之間的聯繫。

基於以上觀察,我們通過設計一套轉化規則,將實體識別和關係抽取聯合任務轉化為一個有向圖的生成問題,並使用基於轉移的方法來直接生成該有向圖。如圖1所示,與傳統的句法任務不同,我們的輸出結構中每個節點可能含有多個或零個父節點。因此,我們提出了一種新的轉移系統,通過遞增的融合實體信息及其相應的關係信息,我們的方法不僅可以對實體和關係之間的關聯性進行建模,而且還可以很好的表示關係之間的關聯性。

圖1 實體和關係抽取(綠色表示實體弧,藍色表示關係弧)

這項工作的主要貢獻總結如下:

我們通過設計一套轉化規則,將實體識別和關係抽取聯合任務轉化為一個有向圖的生成問題,

基於有向圖的特點, 我們設計了一套轉移系統來生成該有向圖。另外,為了更好的建模關係和關係之間的依賴性,我們設計了一個特殊的遞歸神經網絡。

2. 模型介紹2.1 轉化策略

在我們定義的有向圖中,圖中的節點對應於輸入句子中的單詞。  有向弧分為兩類:

表示實體內部結構的實體弧;

表示實體之間關係的關係弧,其中父節點表示關係對應的第一個實體,子節點表示關係對應的第二個實體。

為了處理一個實體有多種關係的情況,有向圖中的每個節點可以有多個父節點,這與傳統的依存句法樹等句法任務有所區別。如圖1所示,其中輸入句子包含:1)三個實體,它們被轉換成具有實體標籤的相應的綠色有向弧;和2)三個關係,它們被轉換成具有關係標籤的相應的藍色有向弧。另外,與最終結果無關的其他詞語沒有相應的弧線。

2.2 轉移系統

為了生成該有向圖,我們採用了一種基於轉移的方法,這個方法主要受arc-eager算法(Choi and McCallum, 2013)的啟發。我們主要設計了兩類轉移動作:1)實體生成動作,用於生成實體弧; 2)關係生成動作,用於生成對應的關係弧。  

在狀態表示上,我們使用元組(σ,δ,e,β,R, E)來表示每個時刻的狀態,其中σ是一個保存已生成實體的棧,δ是一個保存被從σ臨時彈出,但是之後會被重新壓入σ的實體的棧,e是用來存儲正在被處理的部分實體塊,β是一個包含未處理詞的緩衝區。R用來保存已經生成的關係弧。E用來保存已經生成的實體弧。我們使用索引分別表示單詞和實體。A用於存儲操作歷史記錄。

表1 轉移過程(∗表示一個實體)

表1給出了具體的動作集合定義。前七個動作用於生成關係弧,最後三個動作用於生成實體弧。其中,動作添加一個從的標籤為的關係弧,並將從σ中彈出。動作在之間添加一個帶標籤的關係弧,並將δ和中的所有實體壓入σ。NO-SHIFT 動作將δ和中的所有實體壓入σ。NO-REDUCE 動作從σ中彈出ei。動作從之間添加一個帶標籤的關係弧,並將移動到δ的前端。動作從添加一個標籤的關係弧,並將移動到δ的前端。NO-PASS  動作只是將移動到δ的前端。表示從的標籤為到關係弧。表明分別是的父節點和祖先節點。另外,當β的頂部元素是單詞時,所有關係動作都將被禁止。O-DELETE從β中彈出wj。GEN-SHIFT將wj從β移動到e。GEN-NER(y) 彈出e頂部的所有元素,創建一個「塊」,用標籤y標記這個塊,將這個塊的表示壓入β中,生成的實體被添加到E。當β的頂部元素是實體時,所有實體動作都將被禁止。另外,如表 2所示,每個動作都需要滿足一定的先決條件,以確保生成的實體和關係有向圖的合理性。

表2 轉移操作的先決條件

表 3顯示了圖1中的輸入句子所對應的動作執行序列。初始狀態是([ ],[ ],[ ],[1,…,n],∅,∅),,而終止狀態是(σ,δ,[ ],[ ],R,E)。

表3 圖1中的實體和關係圖的轉換序列

2.3 搜索算法

基於上述轉換系統,我們的解碼器為每個給定句子預測其最佳動作序列。系統初始化時,把輸入句子以相反的順序壓入β中,這樣第一個單詞就在β的頂部。σ,δ,e和A每個都包含一個空棧標記。在每一步預測中,系統通過計算模型狀態的表示(由β,σ,δ,e和A決定)來預測要執行的動作。無論其他狀態如何,當β和e都為空(空棧符號除外)時,解碼完成。

圖2 表3中模型狀態6地表示

(h(*)表示每個令牌的Bi-LSTM表示,e(*)表示實體及其關係的組成)

如圖2所示,t 時刻的模型狀態mt 被定義為:

其中W是要學習的參數矩陣,st是σ的表示形式,bt是β的表示形式,pt是δ的表示形式,et是e的表示形式,at是A的表示形式,d是一個偏置項。

模型狀態mt用於計算t時刻選取動作的概率:

其中gz表示轉換動作z的列向量,qz是動作z對應的偏置項。集合A(S, B)表示在當前狀態下可以採取的合理操作的集合。給定輸入句子,任何合理的動作序列z的概率可以表示為:

後我們可以得到

因此,實體識別和關係抽取聯合任務就被集成到我們的轉移系統中。在測試的時候,我們的算法貪心的選擇最大概率的動作,直到滿足終止狀態條件。

3. 實驗

我們使用公開數據集 NYT 作為我們的數據集。我們採用標準的Precision(Prec),Recall(Rec)和F1-score來評估模型性能。跟(Zheng et al., 2017)一致,計算最終F1-score時,不考慮實體類型的標籤。也就是說,當關係類型及其對應的兩個實體的邊界都正確時,該關係被認為是正確的。跟(Zheng et al., 2017)一樣,我們從測試集中隨機抽樣10%作為開發集,並將其餘數據用作測試集。

表4 在NYT上與以前最先進的方法進行比較

(第一部分(從第1行到第3行)是管道方法,第2部分(第4行到第6行)是聯合提取方法,第3部分(第7行到第9行)是端到端方法。)

我們將我們的方法跟之前的串聯方法,聯合方法等進行對比。結果如表4所示,我們的基於圖的方法獲得了最高的F1-score,另外,模型的準確率也是最高的。為了驗證各個模塊的性能,我們做了消融實驗。結果如表5所示,我們發現在初始化β時候採用的雙向lstm表示,以及針對關係之間的聯繫而設計的遞歸遞歸神經網絡對性能提升有很重要的影響。更多具體的實驗分析可以參考我們的英文原文。

表5 NYT上的消融測試

4. 結論

針對實體識別和信息抽取聯合任務,我們通過設計一套轉化規則,將實體識別和關係抽取聯合任務轉化為一個有向圖的生成問題。基於有向圖的特點, 我們設計了一套轉移系統來生成該有向圖。我們的方法能夠很好的表示和利用實體和關係以及關係與關係之間的關聯性,在NYT數據上取得了不錯的結果。

本期責任編輯:  趙森棟

本期編輯:  賴勇魁

「哈工大SCIR」公眾號

主編:車萬翔

副主編: 張偉男,丁效

責任編輯: 張偉男,丁效,趙森棟,劉一佳

編輯: 李家琦,趙得志,趙懷鵬,吳洋,劉元興,蔡碧波,孫卓,賴勇魁

長按下圖並點擊 「識別圖中二維碼」,即可關注哈爾濱工業大學社會計算與信息檢索研究中心微信公共號:」哈工大SCIR」 。

相關焦點

  • 實體關係的聯合抽取總結
    然而,之前基於RNN的模型僅關注於這些語言結構的一種。方法:因此,作者提出了一種新穎的端到端模型,基於詞序信息和依存樹結構信息來抽取實體間的關係。該模型使用了雙向的LSTM和tree-LSTM結構,同時抽取實體及其關係。
  • 中科院:基於新標註方案的實體與關係聯合抽取
    為了解決這個問題,我們首先提出了一種新的標註方案,可以將聯合提取任務轉換為標註問題。然後,基於我們的標註方案,我們研究了不同的端到端模型來直接提取實體及其關係,而不是分別識別實體和關係。對遠程監督方法產生的公開數據集進行實驗,實驗結果表明基於標註的方法優於現有的多數流水線和聯合學習方法。此外,本文提出的端到端模型在公開數據集上取得了最好的效果。
  • 賽爾原創 | ACL 2018 基於強化學習的中文零指代消解模型
    2 任務簡介指代消解是信息抽取不可或缺的組成部分。在信息抽取中,由於用戶關心的事件和實體間語義關係往往散布於文本的不同位置,其中涉及到的實體通常可以有多種不同的表達方式,例如某個語義關係中的實體可能是以代詞形式出現的,為了更準確且沒有遺漏地從文本中抽取相關信息,必須要對文章中的指代現象進行消解。
  • 論文淺嘗 | 將文本建模為關係圖,用於聯合實體和關係提取
    連結:https://www.aclweb.org/anthology/P19-1136 動機本文提出了一種利用圖卷積網絡(GCNs)聯合學習命名實體和關係抽取的端到端抽取模型GraphRel。之前抽取模型較少的同時抽取命名實體和關係,而且對實體對間的多關係問題處理不當,並且很少考慮不同關係間的相互影響,特別是一對實體間的多個關係之間的作用。亮點與之前的模型相比,我們通過關係加權的GCN來考慮命名實體和關係之間的交互,從而更好地提取關係。
  • IJCAI 2017,清華被收錄了哪些論文?
    這個問題可以通過橋接語言來連接源語言和目標語言得以緩解,但是目前源語言-橋接語言和橋接語言-目標語言的模型在訓練時大多是相互獨立的。在我們的工作中,我們引入了基於橋接語言的神經機器翻譯的聯合訓練算法。我們提出了三種方式來連接源-橋接和橋接-目標這兩種模型,使他們在訓練過程中能夠相互作用。基於Europarl和WMT語料庫的實驗表明,這種聯合訓練在多種語言中相比比獨立訓練效果都有顯著提高。
  • 關係抽取調研——學術界
    任務定義 自動識別句子中實體之間具有的某種語義關係。根據參與實體的多少可以分為二元關係抽取(兩個實體)和多元關係抽取(三個及以上實體)。 通過關注兩個實體間的語義關係,可以得到(subject, relation, object)三元組,其中subject和object表示兩個實體,relation表示實體間的語義關係。
  • 賽爾筆記 | 事實感知的生成式文本摘要
    圖4 FASUM模型結構示意圖模型可以分為三部分:編碼器、解碼器和事實提取器(知識圖譜)。., 2019]對Wikidata(一個開放的知識庫)中的數據進行採樣,構建知識圖譜,然後使用TransE(一種知識表示的學習方法)學習實體的表示,並將學習的結果作為實體嵌入層,提供給摘要模型。模型也是基於Transformer,結構示意圖如下:
  • 模型NLP事件抽取方法總結
    主要思想 提出了一個同時進行事件和事件時序關係抽取的聯合模型。在本文中我們設計了一個transition系統以解決事件抽取問題,從左至右遞增地構建出結構,不使用可分的子任務結構。本文還是第一個使transition-based模型,並將之用於實體和事件的聯合抽取任務的研究。模型實現了對3個子任務完全的聯合解碼,實現了更好的信息組合。
  • 賽爾筆記|文檔級事件抽取簡述
    然而傳統的事件抽取任務大多數基於句子層面,但是這樣具有很明顯的缺陷:一個事件會涉及到觸發詞和多個論元,但是實際情況中,很少會有觸發詞和所有的論元都出現在一個句子中的理想情況(如圖1[1]),所以如果在實際的文本中,孤立的從單個句子抽取,很可能會得不到完整的事件信息。因此,研究文檔級別的事件抽取,如何獲取跨句子的信息,對事件抽取的實際應用是很有幫助的。
  • 【NLP基礎】信息抽取(Information Extraction:NER(命名實體識別),關係抽取)
    構成命名實體類型的是特定於任務的;人員、地點和組織是常見的。一旦提取了文本中的所有命名實體,就可以將它們連結到與實際實體相對應的集合中。關係抽取:發現和分類文本實體之間的語義關係。這些關係通常是二元關係,如子女關係、就業關係、部分-整體關係和地理空間關係。信息提取的第一步是檢測文本中的實體。
  • 知識圖譜實體與關係抽取,這3篇新論文不要錯過
    將模型部分結構用於實體類型分類任務,訓練得到的參數用作關係抽取器相應參數的初始化。 實驗進行了 held-out evaluation 和 manual evaluation,結果如下圖所示,可見取得了較好的效果。
  • 阿里AAAI2018論文:將句法信息加入實體表示模型
    近年來基於神經網絡的關係抽取模型把句子表示到一個低維空間。這篇論文的創新在於把句法信息加入到實體的表示模型裡。首先,基於 Tree-GRU,把實體上下文的依存樹放入句子級別的表示。其次,利用句子間和句子內部的注意力,來獲得含有目標實體的句子集合的表示。  研究背景和動機  關係抽取任務大規模應用的一個主要瓶頸就是語料的獲取。
  • 賽爾原創 | 基於連通圖的篇章級事件抽取與相關度計算
    篇章級事件抽取可以通過將句子級事件抽取結果疊加來實現。然而,一篇文章 往往描述了多個事件,簡單疊加句子級事件抽取的結果無法獲取篇章的核心事件。這一觀察顯示了研究從篇章級研究事件抽取的重要性。好的篇章級事件抽取模塊可以更好地對篇章進行建模,從而更好地服務於事件相關度計算。在一篇文檔中,同一實體可以與多個事件對應(見下圖)。以實體為橋梁,篇章中的事件可以使用篇章事件連通圖進行建模。
  • 賽爾原創 | ACL20 如何使用選擇機制提升自注意力網路能力?
    相比傳統的循環神經網絡以及卷積神經網絡,自注意力網絡優勢在於其高度的運算並行性以及更加靈活的建模輸入元素的依存關係能力。傳統的自注意力網絡模型在計算每個元素的表示的時候,將所有的輸入的元素考慮在內,而不管其對於當前元素的相關性。本問題提出通用的基於選擇機制的自注意力網絡模型(SSANs),其可以針對每個計算表示的元素,動態地選擇其相關性的子集,以此作為輸入進行後續的自注意力網絡的計算。
  • 清華大學韓旭:神經關係抽取模型 | AI研習社71期大講堂
    雷鋒網AI研習社按:關係抽取是自然語言處理中的重要任務,也是從文本中挖掘知識的基本途徑之一。深度學習在關係抽取中的研究在近幾年取得了廣泛關注,其中基於遠距離監督、帶有注意力機制的神經網絡模型成為解決問題的主要方法。在本次公開課中,講者將梳理神經模型在關係抽取中的發展脈絡,並分享相關領域的最新工作進展。
  • 陳丹琦新作:關係抽取新SOTA,用pipeline方式挫敗joint模型
    該方法基於兩個獨立的預訓練編碼器構建而成,只使用實體模型為關係模型提供輸入特徵。通過一系列精心檢驗,該研究驗證了學習不同的語境表示對實體和關係的重要性,即在關係模型的輸入層融合實體信息,併集成全局語境信息。此外,該研究還提出了這一方法的高效近似方法,只需要在推斷時對兩個編碼器各執行一次,即可獲得 8-16 倍的加速,同時準確率僅小幅下降。
  • 【論文解讀】IJCAI2019: 面向中文NER 基於lexicon rethinking的CNN模型
    介紹Motivation本文模型提出的動機是,儘管現有的融合了lexicon信息的RNN模型在中文NER任務中取得了一定的成功,但這類模型存在兩處缺點效率限制: 基於RNN的模型由於循環結構的限制無法進行並行操作,尤其是Lattice-LSTM;Lexicon衝突問題: 當句子中的某個字符可能與lexicon中的多個word
  • 知識圖譜從哪裡來:實體關係抽取的現狀與未來
    課題組高天宇同學等人工作 [32] 則從另一個角度出發,對於開放域的特定新型關係,只需要提供少量精確的實例作為種子,就可以利用預訓練的關係孿生網絡進行滾雪球(Neural SnowBall),從大量無標註文本中歸納出該新型關係的更多實例,不斷迭代訓練出適用於新型關係的關係抽取模型。
  • 平安人壽SemEval冠軍方案詳解:長距離語義捕捉技術攻克關係抽取
    在比賽中,壽險AI團隊圍繞解決三個賽題子任務,提出了一整套信息抽取技術方案,綜合運用聯合訓練框架、上下文實體定義位置捕獲、數據增強等前沿技術手段,大幅提升算法模型對專業概念名詞和複雜句式的理解和處理的能力,最終以滿分成績奪得關係抽取賽道排名第一。
  • 知識圖譜入門 , 知識抽取
    由於剛剛識別出來的實體可能是實體的部分表示或另類表示,因此需要結束表層名字擴展、搜尋引擎、構建查詢實體引用表等技術來對候選實體進行生成。經過該步驟生成的實體可能有多個候選項,因此需要對候選實體進行消岐,此處可使用基於圖的方法、基於概率生成模型、基於主題模型或基於深度學習的方法。經過實體消岐後得到的唯一實體候選後就可以與知識庫中的實體進行連接了。舉個例子: