劉知遠老師的「靈魂發問」:關係抽取到底在乎什麼?

2021-03-05 機器學習算法與自然語言處理

關係抽取到底在乎什麼?這是來自EMNLP20上清華大學劉知遠團隊的「靈魂發問」~

關係抽取是每一位NLPer都很熟知的任務,特別是基於BERT的神經關係抽取模型已經登頂各大榜單SOTA,某些甚至直逼人類表現。但也許你和JayJay一樣,可能只是調個包、從不過問關係抽取的核心要素是啥吧~

在劉知遠老師的EMNLP20論文《Learning from Context or Names?  An Empirical Study on Neural Relation Extraction》中,就「關係抽取到底在乎什麼」這一問題進行深入全面的探究,是難得的好文!

注意:本文所稱的關係抽取也稱關係分類,即判斷兩個實體

論文下載:https://arxiv.org/pdf/2010.01923.pdf

github開源:https://github.com/thunlp/RE-Context-or-Names

我們廢話不說,先po結論(劃重點):

1、對關係抽取的兩個主要特徵(上下文信息和實體信息),進行了對比分析發現:

2、構建了關係預訓練模型,基於關係抽取的實體遮蔽的對比學習框架:

Q1: 關係抽取為什麼主要利用「上下文信息」和「實體信息」?
為什麼本篇論文會選取上下文和實體信息進行對比研究呢?作者認為:上下文信息:從人的直覺來看,文本上下文是主要的信息來源;最為簡單的一種方式,就是可以用關係模板進行歸納。如上圖所示,「... be founded ... by ...」模板就可以很好地映射到某一類關係上。因此,上下文關係肯定會對關係預測結構起著某種作用。實體信息:實體信息主要包括實體類型、實體ID、實體屬性信息等,如果實體可以被連結到知識圖譜上,那麼相關信息也可以被模型所利用。既然關係抽取基於實體pair進行的分類預測,那麼實體信息就必不可少了。為了更好地進行分析驗證,本文主要主要採取CNN、BERT、MTB三種模型進行實驗(如上圖所示):採取BERT時主要是提取實體pair的相關標識符對應的表示進行關係分類。MTB是由Google在2019年提出預訓練關係模型 ,其只在獲得更好的適配於關係抽取的特徵表示,其具體的預訓練方式為:認為包含相同實體pair的句子表示相同的關係,將相似度得分作為預訓練目標,如下圖示意。為了分析「上下文信息」和「實體信息」對於關係模型的內在影響,論文設置眾多輸入格式(如上圖所示):Context+Mention (C+M) :即最為廣泛的使用方式,在原句子輸入的同時,強調實體mention:對於BERT模型,採用位置向量和特殊的實體標識符來強化metion。Context+Type (C+T) :將實體mention用其實體類型Type代替,如上圖,「SpaceX」用「organization」代替,「Elon Musk」用「person」代替。Only Context (OnlyC) :即只利用上下文信息,將實體mention用「subject」或「object」代替,通過這種方式可以將實體信息源完全阻擋。Only Mention (OnlyM) :即只利用實體提及,忽略其他文本上下文的輸入。Only Type (OnlyT) :即只利用實體類型信息,如「organization」「SEP」「person」。論文通過上述設置在最大的有監督關係數據集TACRED上(共42種關係,10w+實例)進行了相關實驗,結果如下(指標為micro F1值):由上圖的紅框(OnlyC、OnlyM、OnlyT)可以看出,只利用上下文信息或實體信息指標都大幅下降,這表明:上下文信息 和 實體信息 對於關係模型都很關鍵;由上圖的紅框可以看出,C+M和C+T表現一致,這表明:實體提及中的類型Type信息很重要!這與之前女神的SOTA《反直覺!陳丹琦用pipeline方式刷新關係抽取SOTA》中關於「類型信息」的重要性相互佐證~

OnlyC總體高於OnlyM,可以看出:上下文信息比實體信息更重要~(PS:CNN中OnlyC沒有明顯高於OnlyM,也說明其上下文的捕捉能力不如BERT吧)

OnlyM也有較高指標,這表明:現有的數據集可能會通過實體洩漏淺層的啟發式信息,導致當前關係任務的指標虛高!

此外,本篇論文也通過Case Study進一步證明了上述結果、並有了新的發現:C+M與C+T類似,共享95.7%的正確預測和68.1%的錯誤預測,充分說明了實體提及的主要的信息來源是其類型Type信息。C+M容易對實體提及產生過高的偏置依賴,特別是容易對訓練集中的實體提及進行「死記硬背」,如下圖:模型容易死記住訓練集中「Washington」的實體提及只存在於「stateorprovinceofresidence 」關係中,從而導致關係預測錯誤。C+T不容易捕捉共指信息和語義信息,如下圖所示,「Natalie」和「she」兩個實體如果被實體Type替代後,不容易捕捉到原有的共指關係:再通過對OnlyC的case分析中發現:人類可以本能地從上下文中判斷關係,但模型似乎在捕捉上下文信息的能力上還有很大缺失。如下圖所示,具體體現在3個方面:Wrong:對於那些很清晰的關係模式仍然會預測錯誤。No pattern:對於那些不具備pattern的關係會預測錯誤。Confusing:對於困惑的關係類型缺乏魯棒能力。從上文的分析中,我們可以發現:上下文信息和實體信息對於關係模型都很重要,但在一些情況下,關係模型並不能很好地理解關係模式、會過度依賴於實體mention的淺層提示信息。為了更好地捕捉上下文信息和實體類型Type信息,論文提出了一種基於實體遮蔽的對比學習框架,來進行關係預訓練。對比學習預訓練框架如上圖所示,論文借鑑了「對比學習」的思想,通過聚合「neighbors」、分離「non-neighbors」來學習特徵表示;通過這種模式,「neighbors」具備相似的表示。因此,定義「neighbors」對於對比學習至關重要。本文定義:實體pair共享同種關係的句子是「neighbors」。為了防止模型在預訓練過程中對實體mention死記硬背、或者抽取比較淺層的表面特徵,作者採取了隨機mask實體的辦法,將實體mention替換為「BLANK」,替換率為0.7.事實上,生成預訓練數據是通過遠程監督的方法進行,這雖然會造成噪聲;但作者認為噪聲問題對於預訓練框架不是關鍵的,因為:預訓練目標是相對於像BERT這樣的原始預訓練模型,獲得相對更好的關係表示,而不是直接訓練關係模型對於下遊任務,因此數據中的噪聲是可以接受的。通過上述的對比學習生成方法,預訓練模型可以學習更好地從實體metion中掌握類型Type信息,並從文本上下文中提取關係語義:成對的兩個句子雖然包含不同的實體pair,但共享相同的關係,提示模型發現這些實體mention之間的聯繫。此外,實體mask策略可以有效地避免簡單的記憶實體mention。這最終鼓勵模型利用實體類型Type信息。生成策略提供了相同關係類型下的多種上下文集合,這有利於模型學習從多種表達方式中提取關係pattern。上述預訓練的目標函數共包含兩部分:對比學習目標( Contrastive Pre-training,CP)和遮蔽語言模型(MLM):基於對比學習的預訓練框架的關係模型最終表現如何?作者在不同的數據集上設置不同數據使用量(1%、10%、100%)進行了對比分析,發現:對比學習模型CP在不同數據集上均超過了BERT和MTB,特別是在低資源(1%數據量)條件下也能呈現較高指標,如上圖紅框所示。可見,對比學習機制相比於Google的MTB模型更具備多樣性的數據特徵、能更充分的學習實體類型Type信息。本文主要基於「關係抽取到底在乎什麼」、「上下文和實體mention如何影響關係模型」進行了討論,發現:文本上下文和實體mention都給關係模型提供了關鍵信息;關係抽取數據集可能會通過實體洩漏淺層的啟發式信息,導致當前關係任務的指標虛高!關係模型並不能很好地理解關係模式、會過度依賴於實體mention的淺層提示信息基於上述幾點,論文提出了一種基於實體遮蔽的對比學習框架來改進關係模型的表現,最終提高了多個場景下神經關係抽取模型的有效性和魯棒性(特別是在低資源條件下)。有了本文全面的實驗分析,或許未來我們可以進一步研究開放關係抽取和關係發現問題,這些需要我們考慮zero-shot問題,但可以確信:預訓練關係模型將對這些領域產生積極影響。

下載1:四件套

在機器學習算法與自然語言處理公眾號後臺回復「四件套」

即可獲取學習TensorFlow,Pytorch,機器學習,深度學習四件套!


下載2:倉庫地址共享

在機器學習算法與自然語言處理公眾號後臺回復「代碼」

即可獲取195篇NAACL+295篇ACL2019有代碼開源的論文。開源地址如下:https://github.com/yizhen20133868/NLP-Conferences-Code

重磅!機器學習算法與自然語言處理交流群已正式成立

群內有大量資源,歡迎大家進群學習!

額外贈送福利資源!深度學習與神經網絡,pytorch官方中文教程,利用Python進行數據分析,機器學習學習筆記,pandas官方文檔中文版,effective java(中文版)等20項福利資源

獲取方式:進入群後點開群公告即可領取下載連結

注意:請大家添加時修改備註為 [學校/公司 + 姓名 + 方向]

例如 —— 哈工大+張三+對話系統。

號主,微商請自覺繞道。謝謝!

推薦閱讀:

Tensorflow 的 NCE-Loss 的實現和 word2vec

多模態深度學習綜述:網絡結構設計和模態融合方法匯總

awesome-adversarial-machine-learning資源列表

相關焦點

  • NLP:關係抽取到底在乎什麼
    NLP:關係抽取到底在乎什麼 高能A 發表於 2021-01-07 14:46:57 關係抽取到底在乎什麼?
  • 清華大學劉知遠:在 NLP 領域「做事」兼「發聲」
    個人主頁:http://nlp.csai.tsinghua.edu.cn/~lzy/OpenNE 和 OpenKE不論是中文詞法分析工具包 THULAC、中文文本分類工具 THUCTC、關鍵詞抽取與社會標籤推薦工具包 THUCTC,或是關鍵詞抽取與社會標籤推薦工具包 THUTag 等(部分整理可參考劉知遠此前的知乎回答
  • 關於英語的那點事兒:小學生靈魂發問,難哭英語老師
    圖片來自網絡,侵刪隨堂測驗結果出來後,軍軍看著卷子上的紅叉叉一臉糾結。英語老師注意到了軍軍的表情,就問軍軍是不是有什麼問題。小朋友一臉憤憤不平的指著卷子上的第三題問:「我前面都已經寫了是44個,為什麼pupil後面還一定要加s呢?我們平時都是說幾個人,幾個蘋果,也從來沒有說過幾個『蘋果們』啊!為什麼外國人要搞得這麼麻煩呢?」
  • 「秋天第一杯奶茶」究竟什麼梗?李佳航靈魂發問,網友的回覆亮了!
    「秋天第一杯奶茶」究竟什麼梗?李佳航靈魂發問,網友的回覆亮了! 最近這段時間,網絡上突然被一個梗給刷屏了,那就是「秋天的第一杯奶茶」,相信許多小夥伴第一次看到網絡上流行起來的這個梗時,也是一臉懵。第一杯奶茶到底是什麼梗,甚至連朋友圈都給刷屏了。
  • 對話清華NLP實驗室劉知遠:NLP搞事情少不了知識庫與圖神經網絡
    劉知遠:2018 年我們圍繞知識與語言開展了很多工作。我們認識到不同類型知識對語言理解的重要意義,是純數據驅動方法無法勝任的。所以,我們的總目標是構建知識指導的自然語言處理框架,近年來一直探索如何將世界知識、語言知識和行業知識用於自然語言理解,以及反過來如何利用深度學習技術從無結構文本中抽取各類知識。
  • 清華大學韓旭:神經關係抽取模型 | AI研習社71期大講堂
    雷鋒網AI研習社按:關係抽取是自然語言處理中的重要任務,也是從文本中挖掘知識的基本途徑之一。深度學習在關係抽取中的研究在近幾年取得了廣泛關注,其中基於遠距離監督、帶有注意力機制的神經網絡模型成為解決問題的主要方法。在本次公開課中,講者將梳理神經模型在關係抽取中的發展脈絡,並分享相關領域的最新工作進展。
  • 知識圖譜從哪裡來:實體關係抽取的現狀與未來
    課題組高天宇同學等人工作 [32] 則從另一個角度出發,對於開放域的特定新型關係,只需要提供少量精確的實例作為種子,就可以利用預訓練的關係孿生網絡進行滾雪球(Neural SnowBall),從大量無標註文本中歸納出該新型關係的更多實例,不斷迭代訓練出適用於新型關係的關係抽取模型。
  • 張杰演唱會靈魂發問:大豬蹄子是什麼意思?
    現場大家都喜歡的《延禧攻略》女主角吳謹言驚喜現身,和傑哥一起演唱了《我們都一樣》好奇寶寶張杰更是靈魂發問:「大豬蹄子是什麼意思?」「就是膠原蛋白!」張杰邊摸自己臉邊說:「噢,那我身上這個膠原蛋白……開玩笑,太自戀了」哈哈哈,真的是太逗了!
  • 博人傳138集:巳月連續靈魂發問,都是讀者的想法
    必須承認的是,日向一族是火影忍者中塑造比較失敗的一個家族,在初期設定中,日向家是木葉最古老的家族,火影知名外掛寫輪眼都是由日向一族專屬瞳術白眼演化,因此日向一族也被稱為「木葉最強一族」,然而火影后期的劇情則將這些設定盡皆推翻,創立木葉村的家族時千手和宇智波,並未見「最古老的家族」日向成員的身影,寫輪眼雖然和白眼一樣都是輝夜的瞳術,但而這並不存在演化關係,所謂「
  • 關係抽取調研——學術界
    根據處理數據源的不同,關係抽取可以分為以下三種: 面向結構化文本的關係抽取:包括表格文檔、XML文檔、資料庫數據等 面向非結構化文本的關係抽取:純文本 面向半結構化文本的關係抽取:介於結構化和非結構化之間 根據抽取文本的範圍不同
  • 大仙靈魂發問:劉備傳說皮膚回城時,孫尚香看到瑤怎麼辦?回答都是人才
    尤其是對於峽谷中,遊戲CP關係的英雄們,因為有著限定皮膚的上架,也是讓玩家們更為關注。因此,最近大仙靈魂發問:劉備傳說皮膚回城時,孫尚香看到瑤怎麼辦?回答都是人才。 在排位的遊戲裡,大仙也是在劉備的時之戀人回城時,突然靈魂發問,瑤的護盾在保護劉備回城時,被孫尚香看到,會發生什麼事情呢?
  • 【信息抽取】NLP中關係抽取的概念,發展及其展望
    作者&編輯 | 小Dream哥 1 什麼是RE 信息抽取(Information Extraction,IE)的工作主要是從非結構化的文本中抽取結構化的信息,是自然語言處理中非常重要的一個子領域。
  • 「名人百科」從一個底層士卒到真龍天子——後漢高祖劉知遠
    【生平大事】投靠李嗣源劉知遠,即後漢高祖,沙陀部人,繼位之後又改名為劉暠,有的史書上說他是東漢皇族的後代,估計也是在稱帝後才有的說法,不太可信。劉知遠世代生活在太原,由於家境非常貧寒,所以他的父親和祖父等人的事跡在史書上都沒有什麼記載。在劉知遠小的時候,他性格很內向,平時也是寡言少語,因為體質較弱,所以又經常得病。
  • 你能否回答國科大的靈魂發問
    你能否回答國科大的靈魂發問】9月13日上午,中國科學院大學2020級新生開學典禮在北京懷柔雁西湖校區舉行,中科院院長白春禮在致辭中提出「靈魂發問」:「國有疑難可問誰?」在場9000多名本科和碩士新生振聾發聵地回答:「強國一代有我在!」白院長希望每個國科大學生能成為有膽識、有擔當、有才學的一代青年,在實踐試驗中創新創造,在服務人民中成長成才。
  • 實體關係的聯合抽取總結
    ACL (1) 2016動機:在關係抽取中詞序信息和樹結構信息是可以互補的。比如,在句子「This is …, one U.S. source said」中,詞之間的依存信息不足以預測『source』和『U.S.』之間的『ORG-AFF』關係。很多傳統的基於特徵工程的關係分類方法從序列和解析樹中抽取特徵。
  • 清華大學劉知遠:自然語言理解到底難在哪兒?
    新智元推薦  來源:知乎 NLP日知錄作者:劉知遠【新智元導讀】自然語言處理(NLP)是人工智慧中非常重要的子領域,但同時也是最難的子領域之一。然而,這些例子只是讓人直覺計算機理解人類語言太難了,NLP到底難在哪裡,還缺少通俗易懂的介紹。最近剛做完會議投稿,這裡花些時間總結下我對這個問題的認識,期望對那些感興趣NLP的同學有些幫助。歡迎批評意見和建議,未來爭取不斷更新。
  • 【NLP基礎】信息抽取(Information Extraction:NER(命名實體識別),關係抽取)
    :從自然語言文本中抽取指定類型的實體、關係、事件等事實信息,並形成結構化數據輸出的文本處理技術信息抽取是從文本數據中抽取特定信息的一種技術。抽取文本數據中的名詞短語、人名、地名等都是文本信息抽取,當然,文本信息抽取技術所抽取的信息可以是各種類型的信息。本文介紹從文本中提取有限種類語義內容的技術。此信息提取過程(IE)將嵌入文本中的非結構化信息轉換為結構化數據,例如用於填充關係資料庫以支持進一步處理。命名實體識別(NER)的任務是找到文本中提到的每個命名實體,並標記其類型。
  • 這四個星座女最在乎男人什麼,金牛座在乎性格,摩羯座在乎工作
    有的人在乎對方的家世背景,而有的女生,在乎顏值。一起看看十二星座當中的這四大星座女,最在乎男人什麼吧。雙魚座雙魚座的女生,其實是十二星座當中最傲嬌的星座,他們希望在談戀愛的時候,可以被對方捧在手心裡,他們無法受到一絲一毫的委屈,所以他們最在乎的,一定是對方的脾氣,他們希望對方的脾氣很好,是可以溫暖自己,而不是帶給自己很多的傷害。
  • 心理諮詢師說:思想,意識,靈魂魂魄,到底代表了什麼
    解析:那麼第二步就是要思考,來訪者為何在經歷了失眠多夢時,考慮的問題是靈魂真的存在嗎,這樣非常嚴肅的而透著哲學思辨性質的問題呢?這裡先畫一個問號,我呢沒有就此發問,而是開始確定其諮詢的心理問題是什麼。原因找到了,那麼諮詢師要如何與來訪者探討靈魂存與否這麼充滿了幻想的話題呢?那麼按名道釋心的思考方法,我們需要進行的重要一環,就是找到來訪者所關注的「名」是什麼,第1個名是:失眠,第2個名是:託夢,第3個名是:靈魂。
  • 推薦|知乎大V、清華劉知遠「自然語言處理訓練營」
    4600次 並承擔多項國家自然科學基金 2019年 他入選《麻省理工科技評論》 「35歲以下科技創新35人」 中國區榜單 是名副其實的青年才俊 他就是劉知遠老師