關係抽取到底在乎什麼?這是來自EMNLP20上清華大學劉知遠團隊的「靈魂發問」~
關係抽取是每一位NLPer都很熟知的任務,特別是基於BERT的神經關係抽取模型已經登頂各大榜單SOTA,某些甚至直逼人類表現。但也許你和JayJay一樣,可能只是調個包、從不過問關係抽取的核心要素是啥吧~
在劉知遠老師的EMNLP20論文《Learning from Context or Names? An Empirical Study on Neural Relation Extraction》中,就「關係抽取到底在乎什麼」這一問題進行深入全面的探究,是難得的好文!
注意:本文所稱的關係抽取也稱關係分類,即判斷兩個實體
論文下載:https://arxiv.org/pdf/2010.01923.pdf
github開源:https://github.com/thunlp/RE-Context-or-Names
我們廢話不說,先po結論(劃重點):
1、對關係抽取的兩個主要特徵(上下文信息和實體信息),進行了對比分析發現:
2、構建了關係預訓練模型,基於關係抽取的實體遮蔽的對比學習框架:
Q1: 關係抽取為什麼主要利用「上下文信息」和「實體信息」?OnlyC總體高於OnlyM,可以看出:上下文信息比實體信息更重要~(PS:CNN中OnlyC沒有明顯高於OnlyM,也說明其上下文的捕捉能力不如BERT吧)
OnlyM也有較高指標,這表明:現有的數據集可能會通過實體洩漏淺層的啟發式信息,導致當前關係任務的指標虛高!
此外,本篇論文也通過Case Study進一步證明了上述結果、並有了新的發現:C+M與C+T類似,共享95.7%的正確預測和68.1%的錯誤預測,充分說明了實體提及的主要的信息來源是其類型Type信息。C+M容易對實體提及產生過高的偏置依賴,特別是容易對訓練集中的實體提及進行「死記硬背」,如下圖:模型容易死記住訓練集中「Washington」的實體提及只存在於「stateorprovinceofresidence 」關係中,從而導致關係預測錯誤。C+T不容易捕捉共指信息和語義信息,如下圖所示,「Natalie」和「she」兩個實體如果被實體Type替代後,不容易捕捉到原有的共指關係:再通過對OnlyC的case分析中發現:人類可以本能地從上下文中判斷關係,但模型似乎在捕捉上下文信息的能力上還有很大缺失。如下圖所示,具體體現在3個方面:Wrong:對於那些很清晰的關係模式仍然會預測錯誤。No pattern:對於那些不具備pattern的關係會預測錯誤。Confusing:對於困惑的關係類型缺乏魯棒能力。從上文的分析中,我們可以發現:上下文信息和實體信息對於關係模型都很重要,但在一些情況下,關係模型並不能很好地理解關係模式、會過度依賴於實體mention的淺層提示信息。為了更好地捕捉上下文信息和實體類型Type信息,論文提出了一種基於實體遮蔽的對比學習框架,來進行關係預訓練。對比學習預訓練框架如上圖所示,論文借鑑了「對比學習」的思想,通過聚合「neighbors」、分離「non-neighbors」來學習特徵表示;通過這種模式,「neighbors」具備相似的表示。因此,定義「neighbors」對於對比學習至關重要。本文定義:實體pair共享同種關係的句子是「neighbors」。為了防止模型在預訓練過程中對實體mention死記硬背、或者抽取比較淺層的表面特徵,作者採取了隨機mask實體的辦法,將實體mention替換為「BLANK」,替換率為0.7.事實上,生成預訓練數據是通過遠程監督的方法進行,這雖然會造成噪聲;但作者認為噪聲問題對於預訓練框架不是關鍵的,因為:預訓練目標是相對於像BERT這樣的原始預訓練模型,獲得相對更好的關係表示,而不是直接訓練關係模型對於下遊任務,因此數據中的噪聲是可以接受的。通過上述的對比學習生成方法,預訓練模型可以學習更好地從實體metion中掌握類型Type信息,並從文本上下文中提取關係語義:成對的兩個句子雖然包含不同的實體pair,但共享相同的關係,提示模型發現這些實體mention之間的聯繫。此外,實體mask策略可以有效地避免簡單的記憶實體mention。這最終鼓勵模型利用實體類型Type信息。生成策略提供了相同關係類型下的多種上下文集合,這有利於模型學習從多種表達方式中提取關係pattern。上述預訓練的目標函數共包含兩部分:對比學習目標( Contrastive Pre-training,CP)和遮蔽語言模型(MLM):基於對比學習的預訓練框架的關係模型最終表現如何?作者在不同的數據集上設置不同數據使用量(1%、10%、100%)進行了對比分析,發現:對比學習模型CP在不同數據集上均超過了BERT和MTB,特別是在低資源(1%數據量)條件下也能呈現較高指標,如上圖紅框所示。可見,對比學習機制相比於Google的MTB模型更具備多樣性的數據特徵、能更充分的學習實體類型Type信息。本文主要基於「關係抽取到底在乎什麼」、「上下文和實體mention如何影響關係模型」進行了討論,發現:文本上下文和實體mention都給關係模型提供了關鍵信息;關係抽取數據集可能會通過實體洩漏淺層的啟發式信息,導致當前關係任務的指標虛高!關係模型並不能很好地理解關係模式、會過度依賴於實體mention的淺層提示信息基於上述幾點,論文提出了一種基於實體遮蔽的對比學習框架來改進關係模型的表現,最終提高了多個場景下神經關係抽取模型的有效性和魯棒性(特別是在低資源條件下)。有了本文全面的實驗分析,或許未來我們可以進一步研究開放關係抽取和關係發現問題,這些需要我們考慮zero-shot問題,但可以確信:預訓練關係模型將對這些領域產生積極影響。下載1:四件套
在機器學習算法與自然語言處理公眾號後臺回復「四件套」,
即可獲取學習TensorFlow,Pytorch,機器學習,深度學習四件套!
下載2:倉庫地址共享
在機器學習算法與自然語言處理公眾號後臺回復「代碼」,
即可獲取195篇NAACL+295篇ACL2019有代碼開源的論文。開源地址如下:https://github.com/yizhen20133868/NLP-Conferences-Code
重磅!機器學習算法與自然語言處理交流群已正式成立!
群內有大量資源,歡迎大家進群學習!
額外贈送福利資源!深度學習與神經網絡,pytorch官方中文教程,利用Python進行數據分析,機器學習學習筆記,pandas官方文檔中文版,effective java(中文版)等20項福利資源
獲取方式:進入群後點開群公告即可領取下載連結
注意:請大家添加時修改備註為 [學校/公司 + 姓名 + 方向]
例如 —— 哈工大+張三+對話系統。
號主,微商請自覺繞道。謝謝!
推薦閱讀:
Tensorflow 的 NCE-Loss 的實現和 word2vec
多模態深度學習綜述:網絡結構設計和模態融合方法匯總
awesome-adversarial-machine-learning資源列表