NLP:關係抽取到底在乎什麼

2021-01-08 電子發燒友
NLP:關係抽取到底在乎什麼

高能A 發表於 2021-01-07 14:46:57

關係抽取到底在乎什麼?這是來自EMNLP20上清華大學劉知遠團隊的「靈魂發問」~ 關係抽取是每一位NLPer都很熟知的任務,特別是基於BERT的神經關係抽取模型已經登頂各大榜單SOTA,某些甚至直逼人類表現。但也許你和JayJay一樣,可能只是調個包、從不過問關係抽取的核心要素是啥吧~ 在劉知遠老師的EMNLP20論文《Learning from Context or Names?  An Empirical Study on Neural Relation Extraction》中,就「關係抽取到底在乎什麼」這一問題進行深入全面的探究,是難得的好文!

注意:本文所稱的關係抽取也稱關係分類,即判斷兩個實體

論文下載:https://arxiv.org/pdf/2010.01923.pdfgithub開源:https://github.com/thunlp/RE-Context-or-Names 為具備更好的閱讀體驗,本文以QA形式進行組織:

  我們廢話不說,先po結論(劃重點): 1、對關係抽取的兩個主要特徵(上下文信息和實體信息),進行了對比分析發現:

上下文信息 和 實體信息 對於關係模型都很關鍵;

上下文信息是關係模型的主要信息來源;

實體信息中最重要的實體類型信息,但模型會存在對實體信息的過度依賴問題;

現有的數據集可能會通過實體洩漏淺層的啟發式信息,導致當前關係任務的指標虛高!

2、構建了關係預訓練模型,基於關係抽取的實體遮蔽的對比學習框架:

能幫助模型更好地的藉助上下文信息和實體類型信息,避免「死記硬背」實體表面表述;

提高了多個場景下神經關係抽取模型的有效性和魯棒性,特別是在低資源場景下;

Q1: 關係抽取為什麼主要利用「上下文信息」和「實體信息」?

為什麼本篇論文會選取上下文和實體信息進行對比研究呢?作者認為:

上下文信息:從人的直覺來看,文本上下文是主要的信息來源;最為簡單的一種方式,就是可以用關係模板進行歸納。如上圖所示,「... be founded ... by ...」模板就可以很好地映射到某一類關係上。因此,上下文關係肯定會對關係預測結構起著某種作用。

實體信息:實體信息主要包括實體類型、實體ID、實體屬性信息等,如果實體可以被連結到知識圖譜上,那麼相關信息也可以被模型所利用。既然關係抽取基於實體pair進行的分類預測,那麼實體信息就必不可少了。

Q2: 關係抽取的baseline模型選擇哪些?

為了更好地進行分析驗證,本文主要主要採取CNN、BERT、MTB三種模型進行實驗(如上圖所示):採取BERT時主要是提取實體pair的相關標識符對應的表示進行關係分類。 MTB是由Google在2019年提出預訓練關係模型 ,其只在獲得更好的適配於關係抽取的特徵表示,其具體的預訓練方式為:認為包含相同實體pair的句子表示相同的關係,將相似度得分作為預訓練目標,如下圖示意。

Q3: 「上下文信息」和「實體信息」到底哪家強?

為了分析「上下文信息」和「實體信息」對於關係模型的內在影響,論文設置眾多輸入格式(如上圖所示):

Context+Mention (C+M) :即最為廣泛的使用方式,在原句子輸入的同時,強調實體mention:對於BERT模型,採用位置向量和特殊的實體標識符來強化metion。

Context+Type (C+T) :將實體mention用其實體類型Type代替,如上圖,「SpaceX」用「organization」代替,「Elon Musk」用「person」代替。

Only Context (OnlyC) :即只利用上下文信息,將實體mention用「subject」或「object」代替,通過這種方式可以將實體信息源完全阻擋。

Only Mention (OnlyM) :即只利用實體提及,忽略其他文本上下文的輸入。

Only Type (OnlyT) :即只利用實體類型信息,如「organization」「SEP」「person」。

論文通過上述設置在最大的有監督關係數據集TACRED上(共42種關係,10w+實例)進行了相關實驗,結果如下(指標為micro F1值):

由上圖的紅框(OnlyC、OnlyM、OnlyT)可以看出,只利用上下文信息或實體信息指標都大幅下降,這表明:上下文信息 和 實體信息 對於關係模型都很關鍵;

由上圖的紅框可以看出,C+M和C+T表現一致,這表明:實體提及中的類型Type信息很重要!這與之前女神的SOTA《反直覺!陳丹琦用pipeline方式刷新關係抽取SOTA》中關於「類型信息」的重要性相互佐證~

由上圖的紅框可以看出:

OnlyC總體高於OnlyM,可以看出:上下文信息比實體信息更重要~(PS:CNN中OnlyC沒有明顯高於OnlyM,也說明其上下文的捕捉能力不如BERT吧)

OnlyM也有較高指標,這表明:現有的數據集可能會通過實體洩漏淺層的啟發式信息,導致當前關係任務的指標虛高!

此外,本篇論文也通過Case Study進一步證明了上述結果、並有了新的發現:

C+M與C+T類似,共享95.7%的正確預測和68.1%的錯誤預測,充分說明了實體提及的主要的信息來源是其類型Type信息。

C+M容易對實體提及產生過高的偏置依賴,特別是容易對訓練集中的實體提及進行「死記硬背」,如下圖:模型容易死記住訓練集中「Washington」的實體提及只存在於「stateorprovinceofresidence 」關係中,從而導致關係預測錯誤。

C+T不容易捕捉共指信息和語義信息,如下圖所示,「Natalie」和「she」兩個實體如果被實體Type替代後,不容易捕捉到原有的共指關係:

再通過對OnlyC的case分析中發現:人類可以本能地從上下文中判斷關係,但模型似乎在捕捉上下文信息的能力上還有很大缺失。如下圖所示,具體體現在3個方面:

Wrong:對於那些很清晰的關係模式仍然會預測錯誤。

No pattern:對於那些不具備pattern的關係會預測錯誤。

Confusing:對於困惑的關係類型缺乏魯棒能力。

Q4: 如何提升關係模型的預測性能? 從上文的分析中,我們可以發現:上下文信息和實體信息對於關係模型都很重要,但在一些情況下,關係模型並不能很好地理解關係模式、會過度依賴於實體mention的淺層提示信息。 為了更好地捕捉上下文信息和實體類型Type信息,論文提出了一種基於實體遮蔽的對比學習框架,來進行關係預訓練。 1、對比學習數據生成方法

對比學習預訓練框架如上圖所示,論文借鑑了「對比學習」的思想,通過聚合「neighbors」、分離「non-neighbors」來學習特徵表示;通過這種模式,「neighbors」具備相似的表示。因此,定義「neighbors」對於對比學習至關重要。

本文定義:實體pair共享同種關係的句子是「neighbors」。

為了防止模型在預訓練過程中對實體mention死記硬背、或者抽取比較淺層的表面特徵,作者採取了隨機mask實體的辦法,將實體mention替換為「BLANK」,替換率為0.7. 事實上,生成預訓練數據是通過遠程監督的方法進行,這雖然會造成噪聲;但作者認為噪聲問題對於預訓練框架不是關鍵的,因為:預訓練目標是相對於像BERT這樣的原始預訓練模型,獲得相對更好的關係表示,而不是直接訓練關係模型對於下遊任務,因此數據中的噪聲是可以接受的。 通過上述的對比學習生成方法,預訓練模型可以學習更好地從實體metion中掌握類型Type信息,並從文本上下文中提取關係語義:

成對的兩個句子雖然包含不同的實體pair,但共享相同的關係,提示模型發現這些實體mention之間的聯繫。此外,實體mask策略可以有效地避免簡單的記憶實體mention。這最終鼓勵模型利用實體類型Type信息。

生成策略提供了相同關係類型下的多種上下文集合,這有利於模型學習從多種表達方式中提取關係pattern。  

2、對比學習訓練目標 上述預訓練的目標函數共包含兩部分:對比學習目標( Contrastive Pre-training,CP)和遮蔽語言模型(MLM):

對比損失CP採取隨機負樣本採樣,加速訓練過程。 3、對比學習實驗結果

基於對比學習的預訓練框架的關係模型最終表現如何?作者在不同的數據集上設置不同數據使用量(1%、10%、100%)進行了對比分析,發現:對比學習模型CP在不同數據集上均超過了BERT和MTB,特別是在低資源(1%數據量)條件下也能呈現較高指標,如上圖紅框所示。 可見,對比學習機制相比於Google的MTB模型更具備多樣性的數據特徵、能更充分的學習實體類型Type信息。

總結 本文主要基於「關係抽取到底在乎什麼」、「上下文和實體mention如何影響關係模型」進行了討論,發現:

文本上下文和實體mention都給關係模型提供了關鍵信息;

關係抽取數據集可能會通過實體洩漏淺層的啟發式信息,導致當前關係任務的指標虛高!

關係模型並不能很好地理解關係模式、會過度依賴於實體mention的淺層提示信息

基於上述幾點,論文提出了一種基於實體遮蔽的對比學習框架來改進關係模型的表現,最終提高了多個場景下神經關係抽取模型的有效性和魯棒性(特別是在低資源條件下)。 有了本文全面的實驗分析,或許未來我們可以進一步研究開放關係抽取和關係發現問題,這些需要我們考慮zero-shot問題,但可以確信:預訓練關係模型將對這些領域產生積極影響。  

責任編輯:xj

原文標題:劉知遠老師的「靈魂發問」:關係抽取到底在乎什麼?

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請註明出處。

 

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 【NLP基礎】信息抽取(Information Extraction:NER(命名實體識別),關係抽取)
    :從自然語言文本中抽取指定類型的實體、關係、事件等事實信息,並形成結構化數據輸出的文本處理技術信息抽取是從文本數據中抽取特定信息的一種技術。抽取文本數據中的名詞短語、人名、地名等都是文本信息抽取,當然,文本信息抽取技術所抽取的信息可以是各種類型的信息。本文介紹從文本中提取有限種類語義內容的技術。此信息提取過程(IE)將嵌入文本中的非結構化信息轉換為結構化數據,例如用於填充關係資料庫以支持進一步處理。命名實體識別(NER)的任務是找到文本中提到的每個命名實體,並標記其類型。
  • 知識圖譜從哪裡來:實體關係抽取的現狀與未來
    我們課題組韓旭同學等的工作 [21] 首次將少次學習引入到關係抽取,構建了少次關係抽取數據集 FewRel,希望推動驅動自然語言處理特別是關係抽取任務的少次學習研究。如下圖所示,關係抽取少次學習問題僅為每種關係提供極少量樣例(如 3-5 個),要求儘可能提高測試樣例上的關係分類效果。
  • 臺灣大學黃意堯:深度殘差網絡下的弱監督關係抽取 | EMNLP 2017
    SemEval 2010 的關係抽取資料庫上。問題探討我們使用卷積神經網絡來進行關係抽取,取經於計算機視覺與深度卷積神經網絡的成功,我們透過增加層數,來增加神經網絡的參數,希望可以幫助關係抽取的學習。在表一,我們可以看到,9 層的殘差網絡,與 state-of-the-art(PCNN+ATT) 的模型,有差不多的結果,並在高順位候選的關係上,有更棒的效能。證明,利用殘差網絡,可以在 distant supervision 的資料庫中,抽取更有用的特徵。
  • 深度學習在NLP中的運用?從分詞、詞性到機器翻譯、對話系統
    事實上,從分詞、詞性、語法解析、信息抽取等基礎模塊,到自然語言生成、機器翻譯、對話管理、知識問答等高層的 NLP 領域,幾乎都可以應用以 CNN、RNN 為代表的深度學習模型,且確實能夠取得不錯的效果。深度學習模型有效降低了語言模型輸入特徵的維度,降低了輸入層的複雜性。另外,深度學習模型具有其他淺層模型不能比擬的靈活性。
  • 陳丹琦新作:關係抽取新SOTApipeline挫敗joint
    :命名實體識別和關係抽取。端到端關係抽取旨在識別命名實體,同時抽取其關係。近期研究大多採取 joint 方式建模這兩項子任務,要麼將二者統一在一個結構化預測網絡中,要麼通過共享表示進行多任務學習。從非結構化文本中抽取實體及其關係是信息抽取中的基本問題。這個問題可以分解為兩個子任務:命名實體識別和關係抽取。
  • 陳丹琦「簡單到令人沮喪」的屠榜之作:關係抽取新SOTA!
    該文光看題目就讓人眼前一亮:這究竟是種怎樣的簡單方法,讓實體關係的聯合抽取方法「沮喪」了?  本文將就這篇論文展開解讀,分析該關係抽取新SOTA的主要貢獻和結論。  現在的關係抽取SOTA不都是各種joint方式嗎?沒錯,我也有各種疑問:    現在的關係抽取不是都採取joint方式、魔改各種Tag框架和解碼方式嗎?    不是說pipeline方式存在誤差積累,還會增加計算複雜度(實體冗餘計算)嗎?
  • ...最大的實體關係抽取數據集!清華大學自然語言處理團隊發布 FewRel
    例如,從句子「馬雲創辦了阿里巴巴」中,可以抽取出關係事實(馬雲, 創始人, 阿里巴巴),其中馬雲和阿里巴巴被稱為實體(entity),而創始人則是他們的關係(relation)。關係抽取是知識獲取的重要途徑,對於理解自然語言和理解世界知識意義重大。 目前的關係抽取模型面臨著一個極大的問題:訓練數據不足。
  • 國內自然語言處理(NLP)研究組
    中國大陸地區:微軟亞研自然語言計算組 Natural Language Computing (NLC) Grouphttps://www.microsoft.com/en-us/research/group/natural-language-computing/www.microsoft.com百度自然語言處理百度自然語言處理 - 理解語言,擁有智能,改變世界nlp.baidu.com
  • 斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言
    新智元報導 來源:stanfordnlp.github.io編輯:肖琴【新智元導讀】斯坦福團隊最新發布一個NLP任務的軟體包StanfordNLP,通過Python接口為53種語言提供標記、依存句法分析等NLP任務的重要工具
  • 陳丹琦新作:關係抽取新SOTA,用pipeline方式挫敗joint模型
    機器之心報導編輯:魔王、小舟端到端關係抽取涉及兩個子任務:命名實體識別和關係抽取。近期研究多採用 joint 方式建模兩個子任務,而陳丹琦等人新研究提出一種簡單高效的 pipeline 方法,在多個基準上獲得了新的 SOTA 結果。
  • 平安人壽SemEval冠軍方案詳解:長距離語義捕捉技術攻克關係抽取
    近日,在全球權威NLP大賽SemEval-2020 中,平安人壽AI團隊斬獲自由文本信息抽取(DeftEval: Extracting term-defination pairs in free text)競賽關係抽取賽道冠軍。該賽題任務包含了定義抽取、實體標註、關係抽取三項NLP技術難點。
  • 這條在乎,這條也在乎!
    這條在乎,這條也在乎! 我聽出來了,你們非常在乎小魚。你說,還有誰在乎小魚?生:小男孩在乎,小魚也在乎。師:你在乎,我在乎,他在乎,大家都在乎……都在乎小魚的什麼呀?生:我們在乎小魚是一條生命。生:我們在乎小魚它能活著。師:正因為小男孩在乎小魚,所以,小男孩不停地撿魚、扔魚,來救小魚。一起讀這段話。
  • nlp領域發生了新的技術突破,用attention機制研究nlp領域
    近期,nlp領域發生了一系列的技術突破。包括:attention機制,cnn,adaptive attention network(an),兩層cnn相比較,an表現優於一層的cn。今天我們將從這兩種attention機制開始研究nlp領域突破性技術!
  • 資源| 史丹福大學NLP組開放神經機器翻譯代碼庫(附論文)
    發布地址:http://nlp.stanford.edu/projects/nmt/參與成員:Christopher D.):vocab.1K.en:http://nlp.stanford.edu/projects/nmt/data/wmt15.en-cs/vocab.1K.envocab.1K.cs:http://nlp.stanford.edu/projects/nmt/data/wmt15.en-cs/vocab.1K.csvocab.10K.en:http://nlp.stanford.edu
  • PTMs|2020最新NLP預訓練模型綜述
    背景「nlp、cv領域的傳統方法極度依賴於手動特徵工程」。例如nlp中的log-linear、CRF模型等,cv中各種抽取特徵的模型,如sift特徵等。深度學習中本質上是一種表示學習,能夠一定程度上避免手動的特徵工程。
  • NLP 新手必看!這是一份覆蓋全面的基於 PyTorch 和 keras 的 NLP...
    項目的 GitHub 地址為:https://github.com/lyeoni/nlp-tutorial。這是一個教你逐步實現和適應簡單的實詞 NLP 任務的教程:項目裡面有 4 個資源:神經機器翻譯、問答匹配、新聞分類和電影分級。這些資源都提供了源碼,對初學者來說,極為友好。初學者可以學會建立自己的模型。
  • 「太在乎一個人,心才會那麼疼」
    因為實在是過於在乎,所以心才會疼,因為被自己心中深愛的那個人傷害,因此最後才會痛徹心扉。你或許只是輕描淡寫地說「我不在乎,不就是失戀嗎?人的一生中誰不得有過幾次失戀的經歷」,但其實深夜裡面,你已經在被窩中淚水沾溼了枕頭。當我說不在乎的時候,再也沒有人關心我到底在不在乎了。那個許諾你一生一世的人不見了,又有誰能懂你的內心呢?
  • 基於Bert和通用句子編碼的Spark-NLP文本分類
    文本分類問題中使用了幾個基準數據集,可以在nlpprogress.com上跟蹤最新的基準。以下是關於這些數據集的基本統計數據。簡單的文本分類應用程式通常遵循以下步驟:文本預處理和清理特徵工程(手動從文本創建特徵)特徵向量化(TfIDF、頻數、編碼)或嵌入(word2vec、doc2vec、Bert、Elmo、句子嵌入等)用ML和DL算法訓練模型。
  • 心理測:選一隻動物帶出森林,測出你最在乎什麼
    心理測:選一隻動物帶出森林,測出你最在乎什麼 B、內心在乎:社交歸屬感 與A的性格最大的不同就是不會像A那樣帶有極強的攻擊性,你是那種性格十分溫和的人,對自我情緒的控制力極強,很少在眾人面前發脾氣。在你的內心深處,有著對社交關係的強依賴性,這意味著你對社交歸屬感十分的在乎。通過贏得他人的認可和支持,似乎能夠帶給你存在感和安全感,而最令你焦慮的事情則是被團隊拋棄。
  • 男人有這幾種表現,就可能是假裝在乎你,你知道嗎?
    我們自以為我們是他最愛的人,但是事實上並不是這樣的,那我們怎麼才能看出來一個男人到底是不是真的在乎你?首先如果一個男人嘴上說有多愛你,但是並沒有把這份愛落實到行動上。那麼他就是不在乎你的,真正的愛你的男人,他並不是永遠的對你說,我有多愛你,多愛你,而是一直在默默的付出,不求回報的那種,他們並不會刻意的讓你知道他們為了你做了多少的事情,只要你還在我身邊就可以了。但是不在乎你的人,只會對你說一些花裡胡哨的話,騙你去做一些事情。