ACL 2018論文解讀 | 基於排序思想的弱監督關係抽取選種與降噪算法

2021-12-21 PaperWeekly
引言

最近閱讀了 Ranking-Based Automatic Seed Selection and Noise Reduction for Weakly Supervised Relation Extraction 這篇文章,該工作來自於 Nara Institute of Science and Technology,發表在 ACL 2018。

這篇文章主要對弱監督關係提取中兩個相關的任務展開研究:

文章受到 Web 結構挖掘中最具有權威性、使用最廣泛的 Hypertext-induced topic search(HITS)算法,以及 K-means、潛在語義分析(LSA)、非負矩陣分解(NMF)等聚類中心選擇算法的啟發,提出一種能夠從現有資源中選擇初始化種子、並降低遠程標註數據噪聲的算法。

實驗證明,該算法的性能要好於上述兩個任務的基線系統。下面是我對這篇文章的閱讀筆記。

問題引入

Bootstrapping RE 算法是機器學習中一種比較常用的弱監督學習方法。首先,利用一個稱作「seeds」的小實例集合進行初始化,用以表示特定的語義關係;然後,通過在大規模語料庫上迭代獲取實例和模式,以發現與初始化種子相似的實例。該算法性能的主要制約因素在於語義漂移問題,而解決語義漂移問題的一種有效手段就是選擇出高質量的「seeds」。 

Distantly Supervise 技術是一種用於構建大規模關係提取語料庫的有效方法。然而,由於錯誤標註問題的存在,遠程監督獲取的語料常常包含噪聲數據,這些噪聲會對監督學習算法性能造成不良影響。因此,如何降低錯誤標註帶來的數據噪聲,就成為了遠程監督技術的一個研究熱點。

問題轉化

用表示目標關係的集合,每一種目標關係由一個三元組集合 Dr= {(e1, p, e2)} 來表示。其中,e1 和 e2 表示實體,實體對 (e1,e2) 被稱為實例,p 表示連接兩個實體的模式。例如,三元組 (Barack Obama, was born in, Honolulu),(BarackObama, Honolulu) 表示一個實例,「was born in」表示模式。 

結合上述概念文章將所研究的兩個關係提取任務分別定義如下: 

Bootstrapping RE 的自動選種任務:以目標關係集合為輸入,針對每一個,從由數據集中提取出的三元組集合 Dr 的實例中,選出能使 Bootstrapping RE 算法高效工作的種子。 

Distantly Supervised RE 的降噪任務:從由 DS 自動為每個關係生成的三元組集合 Dr 中,過濾出所包含的噪聲三元組(錯誤標註三元組)。 

由以上兩個任務的描述可以發現,無論是選種還是降噪都是從給定的集合中選出三元組。從排序的角度來看,這兩個任務實質上擁有相似的目標。

因此,文章將這兩個任務分別轉換為:在給定三元組集合 Dr(可能包含噪聲)的情況下,實例 (e1,e2 )的排序任務(選種)和三元組 (e1, p, e2 ) 的排序任務(降噪)。

在選種任務中,使用排名最高的 k 個實例作為 bootstrapping RE 的種子。同理,在降噪任務中,對於 DS 生成的三元組,使用其中排名最高的 k 個三元組來訓練分類器(降噪任務中的 k 值可能遠遠小於選種任務中的 k 值)。

自動選種和降噪算法

文章提出的算法受到了 Hypertext-induced topic search(HITS)算法,以及 K-means、潛在語義分析(LSA)、非負矩陣分解(NMF)等聚類中心選擇算法的啟發。

該算法根據具體的任務來決定是選擇實例還是選擇三元組:實例用於自動選種任務,三元組用於降噪任務。由於實例即為實體對,而實體對又包含在三元組中,因而可以通過實例和三元組之間的轉換,靈活的將提出的方法分別應用到兩個任務中。

基於K-means的算法

文章提出的基於 K-means 的算法具體描述如下:

1. 確定需要選擇的實例/三元組的數目 k;

2. 運行 K-means 聚類算法將輸入的三元組中的所有實例劃分為 k 個簇,每個數據點通過其對應實體間的嵌入向量差來表示。例如,實例 I=(Barack Obama,Honolulu) 對應於 vec(I)=vec("Barack Obama")-vec("Honolulu");

3. 從每個簇中選出最接近質心的實例。

基於HITS的算法

Hypertext-induced topic search(HITS)算法又稱為 hubs-and-authorities 算法,它是一種廣泛用於對 web 頁面排序的連結分析方法。

該算法的基本思想是:利用 Hub 頁面(包含了很多指向 Authority 頁面的連結的網頁)和 Authority 頁面(指與某個主題相關的高質量網頁)構成的二部圖,計算每個節點的樞紐度(hubness)得分,然後據此對網頁內容的質量和網頁連結的質量做出評價。 

對於第 2 節描述的兩個任務,可通過實例 (e1,e2) 和模式 p 的共生矩陣 A 生成兩者的二部圖,進而即可利用 HITS 算法的思想計算兩者的 hubness 得分。

文章提出的基於 HITS 思想的選種策略描述如下:

1. 確定要選擇的三元組的數目 k;

2. 基於實例-模式的共生矩陣 A 構建實例和模式的二部圖。下圖所示為構建二部圖的三種可能思路。思路一:將每一個實例/模式均作為圖中的一個節點。思路二:將實例和模式分別作為邊和節點。思路三:將實例和模式分別作為節點和邊;

3. 對於思路一和思路三,僅保留 hubness 得分最高的 top k 個實例作為輸出。對於思路二,選擇與得分最高的模式相關聯的 k 個實例作為輸出。

基於HITS和K-means的方法

該方法將 HITS 算法和 K-means 算法組合使用。首先,基於實例和模式的二部圖對這兩者進行排序;然後,在標註數據集上運行 K-means 算法對實例進行聚類。之後,與常規思路不同,這裡不選擇距離質心最近的實例,而是選擇每個簇中 HITS 算法 hubness 得分最高的實例。

基於LSA的算法

潛在語義分析(LSA)是一種被廣泛應用的多維數據自動聚類方法,該方法利用奇異值分解(Singular value decomposition,SVD)算法構建實例-模式共生矩陣 A 的等價低秩矩陣。

所謂 SVD,是將矩陣分解為三個矩陣的乘積:SVD 實例矩陣,奇異值對角矩陣,SVD模式矩陣: 

本文提出的基於 LSA 的選種策略具體描述如下:

1. 指定需要的三元組數目 k;

2. 利用 LSA 算法將實例-模式的共生矩陣 A 分解為矩陣 I、S、P。將 LSA 的維度設置為 K=k;

3. 將 LSA 看作軟聚類的一種形式,其中 SVD 實例矩陣 I 的每一列對應一個簇。之後,從矩陣 I 的每一列選出絕對值最高的 k 個實例。

基於NMF的方法

非負矩陣分解(Non-negative matrix factorization,NMK)是另外一種用於近似非負矩陣分解的方法。非負矩陣可以近似表示為這兩個因子的乘積: 

非負約束(non-negativity constraint)是 NMF 與 LSA 之間的主要區別。與基於 LSA 的方法類似,NMF 算法先將期望選擇的實例數目設置為 K=k。之後,從矩陣 W 的每一列中選出值最大的 k 個實例。

實驗

數據集與設置

文章使用了一個局整關係的標註數據集做為種子選擇的來源。該數據集提取自 Wikipedia 和 ClueWeb。這裡,所謂的局整關係並不是指某一種具體的關係,而是指一種類型的關係集合,如下表所示。

表中顯示出了局整關係集中 8 種子關係出現的頻率。數據集中 8 種子關係共有 5727 個標註實例。文章通過使用 Precision@N 來衡量提出的模型性能,其中取 N=50。實驗中 k 的值在區間 [5,50] 內以 5 為步長逐步遞增,對於每個選種方法給出其 P@50 的值。 

在降噪任務中,文章使用由 (Riedel et al., 2010) 開發的訓練集和測試集,該數據集是通過將 Freebase 關係與紐約時報語料庫對齊而生成的,包含53 種關係類型。在使用提出的方法從數據集中濾除噪聲三元組之後,文章使用過濾後的數據對兩種卷積神經網絡模型(CNN)進行了訓練:一種是 (Zeng et al., 2014) 提出的 CNN 模型,一種是 (Zeng et al., 2015) 提出的 PCNN 模型。 

表中顯示出了局整關係集中 8 種子關係出現的頻率。數據集中 8 種子關係共有 5727 個標註實例。文章通過使用 Precision@N 來衡量提出的模型性能,其中取 N=50。實驗中 k 的值在區間 [5,50] 內以 5 為步長逐步遞增,對於每個選種方法給出其 P@50 的值。 

在降噪任務中,文章使用由 (Riedel et al., 2010) 開發的訓練集和測試集,該數據集是通過將 Freebase 關係與紐約時報語料庫對齊而生成的,包含 53 種關係類型。在使用提出的方法從數據集中濾除噪聲三元組之後,文章使用過濾後的數據對兩種卷積神經網絡模型(CNN)進行了訓練:一種是 (Zeng et al., 2014) 提出的 CNN 模型,一種是 (Zeng et al., 2015) 提出的 PCNN 模型。

自動選種算法性能

選種算法的實驗結果如下表所示。對於基於 HITS 的算法和基於 HITS+K-means 的算法,文章給出了相應的 P@50(分別採用 3.2 節介紹的三種構圖思路),實驗中使用隨機種子選擇做為對比基線。

觀察實驗結果發現,隨機選種性能最差,為 0.75;基於 HITS 的策略、基於 LSA 的策略和基於 NMF 的策略,三種算法性能相當,都超過了基線算法;對於基於 HITS 的策略,三種不同的構圖思路中,思路一和思路三性能提升明顯,思路二性能雖有提升但效果明顯低於其他兩種策略;將 HITS 策略(構圖思路分別採用思路一和思路三)與 K-means 算法結合得到的性能在提出的算法中最佳。

HITS 策略中思路二效果不佳的原因在於:一個模式可能含有歧義,因而連結到該模式的實例可能並不與其匹配,這說明依靠實例選種要好於依靠模式選種。

降噪算法性能

在降噪實驗中,文章分別採用基於 HITS、LSA 和 NMF 的算法,下表為各算法對於 CNN 和 PCNN 模型帶來的性能提升。表中最右邊一列為集成算法的性能,該方法結合基於 HITS 和基於 LSA 的策略,其中,一半的三元組來自基於 HITS 的算法,另一半三元組來自基於 LSA 的算法。

觀察實驗結果發現,基於 HITS 的策略表現最為穩定,對於四種模型都能提升其性能;基於 LSA 的策略,與注意力機制(無論模型是 CNN 還是 PCNN)結合使用時性能提升明顯,但與多實例學習算法結合使用則效果變差,甚至還要低於原始模型;基於 NMF 的策略,對於 PCNN 模型(無論採用多實例學習還是注意力機制)能帶來明顯的性能提升,但對於 CNN 模型性能改善不明顯;將基於 HITS 的策略和基於 LSA 的策略集成使用,則對於四種模型不但表現穩定,且性能提升效果也十分明顯。

總結

文章創造性地將關係提取中的自動選種和數據降噪這兩個重要任務轉換為排序問題。然後,借鑑 HITS、K-means、LSA 和 NMF 等傳統算法策略,按照對實例-模式三元組排序的思路,構建出了兼具自動選種和數據降噪功能的算法。實驗結果顯示,文章提出的算法能夠有效完成自動選種和數據降噪任務,並且其性能同基線算法相比也有較大提升。

這篇文章的啟發作用在於:對於關係提取中的不同子任務通過問題轉換歸結為本質相同的同一問題,而後借鑑已有的成熟算法設計出可以通用的解決策略。這種思路上的開拓創新能否應用於其他 NLP 任務,是一個值得思考和探索的方向。

參考文獻

[1] Sebastian Riedel, Limin Yao, and Andrew McCallum. 2010. Modeling relations and their mentions without labeled text. In Proceedings of the 2010 Joint European Conference on Machine Learning and Principles of Knowledge Discovery in Databases (ECML PKDD), pages 148–163. Springer. 

[2] Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou, and Jun Zhao. 2014. Relation classification via convolutional deep neural network. In Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers, pages 2335–2344. Dublin City University and Association for Computational Linguistics. 

[3] Daojian Zeng, Kang Liu, Yubo Chen, and Jun Zhao.2015. Distant supervision for relation extraction via piecewise convolutional neural networks. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 1753–1762. Association for Computational Linguistics.

本文由 AI 學術社區 PaperWeekly 精選推薦,社區目前已覆蓋自然語言處理、計算機視覺、人工智慧、機器學習、數據挖掘和信息檢索等研究方向,點擊「閱讀原文」即刻加入社區!



點擊標題查看更多論文解讀: 

#投 稿 通 道#

 讓你的論文被更多人看到 

如何才能讓更多的優質內容以更短路逕到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。


總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術乾貨。我們的目的只有一個,讓知識真正流動起來。

📝 來稿標準:

• 稿件確係個人原創作品,來稿需註明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向) 

• 如果文章並非首發,請在投稿時提醒並附上所有已發布連結 

• PaperWeekly 默認每篇文章都是首發,均會添加「原創」標誌


📬 投稿郵箱:

• 投稿郵箱:hr@paperweekly.site 

• 所有文章配圖,請單獨在附件中發送 

• 請留下即時聯繫方式(微信或手機),以便我們在編輯發布時和作者溝通

🔍

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關於PaperWeekly


PaperWeekly 是一個推薦、解讀、討論、報導人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號後臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群裡。

▽ 點擊 | 閱讀原文 | 下載論文

相關焦點

  • 深度學習:基於語境的文本分類弱監督學習
    深度學習:基於語境的文本分類弱監督學習 丁磊 發表於 2021-01-18 16:04:27 高成本的人工標籤使得弱監督學習備受關注。seed-driven 是弱監督學習中的一種常見模型。
  • AAAI 2020論文解讀:商湯科技提出新弱監督目標檢測框架
    該團隊提出了一種端到端的物體實例挖掘弱監督目標檢測框架,引入了基於空間圖及外觀圖的信息傳播機制,在網絡迭代學習過程中,嘗試挖掘每張圖像中全部的物體實例。現有的弱監督目標檢測方法大多數是基於多實例學習框架的,對於每個物體類別,基於多實例學習框架的方法傾向於學習圖像中該類中特徵最明顯的物體,並對於每張圖片選取得分最大的一個物體框進行訓練,其他被忽略的物體實例容易使學習網絡陷入局部最優,進而影響弱監督目標檢測的性能。
  • 大會丨ACL 2018:一文帶你看自然語言處理領域最新亮點
    ,通過構造源語言端和目標語言端的兩個記憶網絡(memory networks),來存儲源語言文檔和目標語言文檔中句子之間的依賴關係,解碼器將記憶網絡中的存儲信息作為條件進行解碼,模型結構如下圖所示。本文針對文本摘要任務,提出了一種端到端的抽取式文本摘要模型,將選擇策略集成到打分模型中,解決了此前抽取式文本摘要中句子打分和句子選擇這兩部分割裂的問題。論文連結:https://arxiv.org/pdf/1807.02305.pdf3.
  • 中科院趙軍:開放域事件抽取 | CCF-GAIR 2018
    這是 SemEval 的實體關係的類別,這是 TAC-KBP 的實體關係類別,都是預定好的。預定義的關係抽取,有各種各樣的方法來做預定義的關係抽取。現在,大家所共同關注的還是深度學習的方法。2014 年 COLING 上,我們首次使用深度學習的方法做了基於卷積神經網絡的預定義關係抽取。基於深度學習的關係抽取方法在性能方面,較傳統方法有明顯的提升。
  • 9篇論文、12個workshop、2個Tutorial,谷歌是 ACL 2017上亮眼的...
    一種用於基於短語的翻譯模型解碼的、帶有固定失真限制的多項式-動態時間編程算法論文簡介:基於短語的翻譯模型解碼一般情況下都被認為是NP完全問題,可以看作是旅行商問題的簡化形式(Knight,1999)。在實際使用中,人們經常為基於短語的翻譯系統增加一個硬性失真限制,限制翻譯過程中短語的移動。然而,增加的這種限制對複雜度的影響並沒有得到充分的研究。這篇論文中描述了一個為基於短語的解碼器設計的、帶有固定失真限制的動態編程算法。這種算法的時間複雜度是O(nd!
  • 論文淺嘗 | 基於平行新聞的Bootstrapping關係抽取
    這些方法都基於同一個假設,那就是如果句中的兩個詞在某種情況下具有特定的關係,則包含這兩個詞的句子很可能會表達出這種關係。本文在考慮該假設在平行語料庫中更可能成立的情況下,探索了在平行與非平行語料庫下,分別使用 Bootstrapping 進行關係抽取的實驗效果。在實驗中發現,基於平行語料庫的實驗效果普遍更好。
  • ACL 2018|ELSC:基於語義表示的多任務句法分析
    為此,在多位AI領域的專家學者的幫助下,我們解讀翻譯了一組頂會論文。每一篇論文翻譯校對完成,芯君和編輯部的老師們都會一起笑到崩潰,當然有的論文我們看得抱頭痛哭。同學們現在看不看得懂沒關係,但芯君敢保證,你終有一天會因此愛上一個AI的新世界。讀芯術讀者論文交流群,請加小編微信號:zhizhizhuji。等你。
  • 幾種網頁抽取技術和算法
    基於機器學習的網頁抽取算法大致可以分為以下幾類:基於啟發式規則和無監督學習的網頁抽取算法基於分類器的網頁抽取算法基於網頁模板自動生成的網頁抽取算法三類算法中,第一類算法是最好實現的,也是效果最好的。我們簡單描述一下三類算法,如果你只是希望在工程中使用這些算法,只要了解第一類算法即可。
  • 南京大學周志華教授綜述論文:弱監督學習
    在《國家科學評論》(National Science Review, NSR) 2018 年 1 月份出版的機器學習專題期刊中,介紹了南京大學周志華教授發表的一篇論文《A brief introduction to weakly supervised learning》。機器之心經授權對此論文部分內容做了編譯介紹,更完整內容可查看英文論文原文。
  • 學界| ReQuest: 使用問答數據產生實體關係抽取的間接監督
    論文中,研究人員提出了一個全新框架:ReQuest,它可以藉助問答數據作為實體關係提取的一個間接監督源,這種方法可以用於減少從知識庫中產生監督信息而伴隨產生的噪聲,為關係提取任務提供間接,有效的訓練數據。
  • 實體關係的聯合抽取總結
    ACL (1) 2016動機:在關係抽取中詞序信息和樹結構信息是可以互補的。比如,在句子「This is …, one U.S. source said」中,詞之間的依存信息不足以預測『source』和『U.S.』之間的『ORG-AFF』關係。很多傳統的基於特徵工程的關係分類方法從序列和解析樹中抽取特徵。
  • 關係抽取調研——學術界
    ,限定關係的類別,可看成是一個文本分類任務 開放域關係抽取:不限定關係的類別 限定域關係抽取方法: 基於模板的關係抽取方法:通過人工編輯或者學習得到的模板對文本中的實體關係進行抽取和判別,受限於模板的質量和覆蓋度,可擴張性不強 基於機器學習的關係抽取方法:將關係抽取看成是一個分類問題
  • ACL 2021 | 找正確的實體關係,搭紮實的底層基礎:聯合空間下的實體關係抽取新範式
    本論文就將給大家介紹 ACL2021 上的一篇研究實體關係抽取任務的最新工作,《UniRE: A Unified Label Space for Entity Relation Extraction》。本工作的核心思想就是提出一種定義在統一標籤空間的聯合方法新範式。
  • 史上最大規模ACL大會放榜,百度10篇NLP論文被錄用
    百度被錄用的10篇論文,覆蓋了信息抽取、機器閱讀理解、對話系統、視頻語義理解、機器翻譯等諸多NLP領域的熱點和前沿研究方向,提出了包括基於注意力正則化的ARNOR框架(Attention Regularization based NOise Reduction)、語言表示與知識表示深度融合的KT-NET模型、多粒度跨模態注意力機制、基於端到端深度強化學習的共指解析方法等
  • ACL 2021 | 一文詳解美團技術團隊7篇精選論文
    美團技術團隊共有7篇論文(其中6篇長文,1篇短文)被ACL 2021接收,這些論文是美團在事件抽取、實體識別、意圖識別、新槽位發現、無監督句子表示、語義解析、文檔檢索等自然語言處理任務上的一些技術沉澱和應用。
  • NLP入門:CNN,RNN應用文本分類,個性化搜索,蘋果和賈伯斯關係抽取(2)
    信息檢索和信息獲取系統核心的目標是幫助用戶獲取到滿足他們需求的信息,而評價系統的作用是幫助和監督研究開發人員向這一核心目標前進,以逐步開發出更好的系統,進而縮小系統反饋和用戶需求之間的差距,提高用戶滿意度。因此,如何設計合理的評價框架、評價手段、評價指標,是當前信息檢索技術發展面臨的第四個關鍵問題。基於內容分析的算法。
  • 簡述基於神經網絡的抽取式摘要方法
    按照輸出類型可分為抽取式摘要和生成式摘要。抽取式摘要從源文檔中抽取關鍵句和關鍵詞組成摘要,摘要全部來源於原文。生成式摘要根據原文,允許生成新的詞語、短語來組成摘要。按照有無監督數據可以分為有監督摘要和無監督摘要。本文主要關注單文檔、有監督、抽取式、生成式摘要。 2. 抽取式摘要 抽取式方法從原文中選取關鍵詞、關鍵句組成摘要。
  • 騰訊優圖CVPR 2018論文:圖片去模糊及快速肖像處理等多項技術解讀
    騰訊優圖實驗室繼在 ICCV 有 12 篇論文被收錄(含 3 篇口頭報告)後,在今年的 CVPR 2018 上有多篇論文被錄用,也憑藉這一點在雷鋒網學術頻道 AI 科技評論旗下資料庫項目「AI 影響因子」中有相應展示。騰訊優圖團隊將對其中兩篇論文做詳細介紹,並簡要介紹其它論文。
  • 百度10篇論文被自然語言處理頂級會議ACL 2019錄用
    ,是關係抽取的關鍵算法。但是遠監督通常會引入大量噪聲數據,即句子並未表達自動標註的關係。進一步說,基於遠監督學習的模型效果不佳、解釋性差,無法解釋關係的指示詞。此方法通過注意力機制,要求模型能夠關注關係的指示詞,進而識別噪聲數據,並通過bootstrap方法逐步選擇出高質量的標註數據,改善模型效果。此方法在關係分類及降噪上均顯著優於此前最好的增強學習算法。
  • 中科院:基於新標註方案的實體與關係聯合抽取
    然後,基於我們的標註方案,我們研究了不同的端到端模型來直接提取實體及其關係,而不是分別識別實體和關係。對遠程監督方法產生的公開數據集進行實驗,實驗結果表明基於標註的方法優於現有的多數流水線和聯合學習方法。此外,本文提出的端到端模型在公開數據集上取得了最好的效果。