自然語言處理中的事件抽取綜述

2021-01-08 電子發燒友
自然語言處理中的事件抽取綜述

lucy 發表於 2021-01-07 15:08:34

本系列文章主要總結近年來事件抽取方法總結,包括中文事件抽取、開放域事件抽取、事件數據生成、跨語言事件抽取、小樣本事件抽取、零樣本事件抽取等。主要包括以下幾大部分:

定義(Define)

綜述(Survey)

模型(Models)

數據集(Datasets)

挑戰與展望(Future Research Challenges)

Github地址: https://github.com/xiaoqian19940510/Event-Extraction

任務定義

Closed-domain

Closed-domain事件抽取使用預定義的事件模式從文本中發現和提取所需的特定類型的事件。事件模式包含多個事件類型及其相應的事件結構。D.Ahn首先提出將ACE事件抽取任務分成四個子任務:觸發詞檢測、事件/觸發詞類型識別、事件論元檢測和參數角色識別。我們使用ACE術語來介紹如下事件結構:

「事件提及」:描述事件的短語或句子,包括觸發詞和幾個參數。

「事件觸發詞」:最清楚地表達事件發生的主要詞,一般指動詞或名詞。

「事件論元」:一個實體,時間表達式,作為參與者的值和在事件中具有特定角色的屬性。

「論元角色」:論元與它所參與的事件之間的關係

Open domain

在沒有預定義的事件模式的情況下,開放域事件抽取的目的是從文本中檢測事件,在大多數情況下,還可以通過提取的事件關鍵詞聚類相似的事件。事件關鍵詞指的是那些主要描述事件的詞/短語,有時關鍵詞還進一步分為觸發器和參數。

「故事分割」:從新聞中檢測故事的邊界。

「第一個故事檢測」:檢測新聞流中討論新話題的故事。

「話題檢測」:根據討論的主題將故事分組。

「話題追蹤」:檢測討論先前已知話題的故事。

「故事鏈檢測」:決定兩個故事是否討論同一個主題。

前兩個任務主要關注事件檢測;其餘三個任務用於事件集群。雖然這五項任務之間的關係很明顯,但每一項任務都需要一個不同的評價過程,並鼓勵採用不同的方法來解決特定問題。

綜述

元事件抽取研究綜述, 2019[1]

事件抽取是信息抽取領域的一個重要研究方向,在情報收集、知識提取、文檔摘要、知識問答等領域有著廣泛應用。寫了一篇對當前事件抽取領域研究得較多的元事件抽取任務的綜述。

首先,簡要介紹了元事件和元事件抽取的基本概念,以及元事件抽取的主要實現方法。然後,重點闡述了元事件抽取的主要任務,詳細介紹了元事件檢測過程,並對其他相關任務進行了概述。最後,總結了元事件抽取面臨的問題,在此基礎上展望了元事件抽取的發展趨勢。

An Overview of Event Extraction from Text, 2019[2]

文本挖掘的一個常見應用是事件抽取,它包括推導出與事件相關的特定知識,這些知識重新映射到文本中。事件抽取可處理各種類型的文本,如(在線)新聞消息、博客和手稿。本文獻回顧了用於各種事件抽取目的的文本挖掘技術。它提供了關於如何根據用戶、可用內容和使用場景選擇特定事件抽取技術的一般指南。

A Survey of Event Extraction from Text, 2019[3]

事件抽取的任務定義、數據源和性能評估,還為其解決方案方法提供了分類。在每個解決方案組中,提供了最具代表性的方法的詳細分析,特別是它們的起源、基礎、優勢和弱點。最後,對未來的研究方向進行了展望。

A Survey of Textual Event Extraction from Social Networks, 2017[4]

過去的十年中,在社交網絡上挖掘文本內容以抽取相關數據和有用的知識已成為無所不在的任務。文本挖掘的一種常見應用是事件抽取,它被認為是一個複雜的任務,分為不同難度的多個子任務。

在本文中,對現有的主要文本挖掘技術進行了概述,這些技術可用於許多不同的事件抽取目標。首先,介紹基於統計模型將數據轉換為知識的主要數據驅動方法。其次,介紹了基於專家知識的知識驅動方法,通常通過基於模式的方法來抽取知識。然後,介紹結合了數據驅動和知識驅動方法的主要現有混合方法。最後,比較社交網絡事件抽取研究,概括了每種提出的方法的主要特徵。

A Survey of event extraction methods from text for decision support systems, 2016[5]

事件抽取是一種可以追溯到20世紀80年代的專門的信息抽取流程,由於大數據的出現以及文本挖掘和自然語言處理等相關領域的發展,事件抽取技術得到了極大的普及。然而,到目前為止,對這一特殊領域的概述仍然是難以捉摸的。

因此,總結了文本數據的事件抽取技術,劃分成數據驅動、知識驅動和混合方法三類,並對這些方法進行了定性評價。此外,還討論了從文本語料庫中抽取事件的常見決策支持應用。最後,對事件抽取系統的評價進行了闡述,並指出了當前的研究問題。

數據集

英文數據集

ACE2005 English Corpus[6]

ACE 2005多語種訓練語料庫包含了用於2005年自動內容抽取(ACE)技術評價的完整的英語、阿拉伯語和漢語訓練數據集。語料庫由語言數據聯盟(LDC)為實體、關係和事件注釋的各種類型的數據組成,該聯盟得到了ACE計劃的支持和LDC的額外幫助。

Rich ERE[7]

Rich ERE擴展了實體、關係和事件本體,並擴展了什麼是taggable的概念。Rich ERE還引入了事件跳躍的概念,以解決普遍存在的事件共引用的挑戰,特別是關於在文檔內和文檔之間的事件提及和事件參數粒度變化,從而為創建(分層的或嵌套的)跨文檔的事件表示鋪平了道路。

TAC2015[8]

TAC KBP事件跟蹤的目標是提取關於事件的信息,以便這些信息適合作為知識庫的輸入。軌跡包括用於檢測和連結事件的事件塊任務,以及用於提取屬於同一事件的事件參數和連結參數的事件參數(EA)任務。2015年TAC KBP賽事軌跡分為5個子任務

KBP2017[9]

TAC知識庫填充(KBP)的目標是開發和評估從非結構化文本中填充知識庫的技術。KBP包括為KBP開發特定組件和功能的組件跟蹤,以及稱為「冷啟動」的端到端KB構建任務,該任務通過在技術成熟時集成選定的組件從頭開始構建KB。與在冷啟動KB任務中執行的功能相比,組件跟蹤中所需的功能可以「更多」,也可以「更少」。組件軌道比冷啟動「更多」,因為每個軌道可能探索未立即集成到冷啟動任務中的試點任務; 他們是「少」,將組件集成到一個KB需要額外協調與和解各個組件之間的不匹配,這樣KB符合知識庫模式(例如,知識庫不能斷言一個實體是一個事件的「地方」如果它還斷言,實體是一個「人」)。

其他的還有,Genia2011 dataset, Spainish ERE Corpus, Wikipedia article, BioNLP Cancer Genetics (CG) Shared Task 2013 等等

中文數據集

ACE2005 Chinese Corpus[10]

ACE 2005多語種訓練語料庫包含了用於2005年自動內容抽取(ACE)技術評價的完整的英語、阿拉伯語和漢語訓練數據集。語料庫由語言數據聯盟(LDC)為實體、關係和事件注釋的各種類型的數據組成,該聯盟得到了ACE計劃的支持和LDC的額外幫助。

未來展望與挑戰

數據層面

領域數據難構造,標註成本大

生成標註數據 or 無標註式事件抽取論元

模型層面

pipeline方式存在錯誤信息的傳遞,如何減小錯誤信息傳遞

論元之間的關聯關係的有效利用

性能評估層面

無標註數據的評價指標設計

責任編輯:xj

原文標題:超全必讀!事件抽取綜述(上)

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請註明出處。

 

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 百分點認知智能實驗室:信息抽取在知識圖譜構建中的實踐與應用
    本文作者:陳肇江、王勳、陳旭、吳永科、蘇海波信息抽取、知識圖譜及自然語言處理  1. 信息抽取的內涵與外延  新基建的大潮湧中,人工智慧、大數據與5G應用是人們競相追逐的燈塔,在描繪數字經濟時代宏偉藍圖的時候,知識圖譜與自然語言處理成為追捧的香餑餑。
  • 達觀數據:綜述中英文自然語言處理的異和同
    中英文語言的差異十分鮮明,英語以表音(字音)構成,漢語以表義(字形)構成,印歐和漢藏兩大語系有很大的區別。儘管全世界語言多達 5600 種,但大部數人類使用的語言集中在圖中的前 15 種(覆蓋全球 90% 以上人群)。其中英語為母語和第二語的人數最多,近 14 億人,是事實上的世界通用語。其次是漢語,約佔世界人口的 23%。
  • AI皇冠上的明珠:人工智慧自然語言處理技術
    在人工智慧出現之前,機器能夠自動處理少量結構化的數據。隨著網絡的普及,人類進入了信息爆炸的時代,機器需要處理的數據越來越多、類型越來越豐富。而網絡中大量存在的文本、圖片、視頻往往都屬於非結構化數據。在這之中,文本的數量又是非常多的,且其中大部分都屬於上文提到的自然語言。雖然信息量大,但由於計算機無法理解,這時為了能夠分析和利用這些文本信息,就需要用到NLP技術。
  • 什麼是自然語言處理?它為什麼比計算機視覺更重要?
    就計算機的應用而言,據科學統計,用於數學計算的僅佔語言傳播的10%,用於過程控制、特定科學任務的語言文字加起來不到5%,其餘 85%左右都是用於語言文字的信息處理。處理就是指理解、轉化、生成等過程。自然語言處理,就是利用計算機的計算能力對人類的自然語言的形、音、 義等信息進行處理,即對字、詞、句、篇章這些不同層次的信息,進行輸入、輸出、識別、分析、理解、生成操作,並對這些信息進行加工。進而實現人機或是機器與機器間的信息交流,是全球人工智慧界、計算機科學和語言學界所共同關注的重要問題。
  • 知識計算的新成績單,華為雲奪得CCKS篇章級事件抽取技術評測冠軍
    事件抽取就是從自然語言文本中抽取出用戶感興趣的事件信息,並以結構化的形式呈現出來。金融領域的 「事件」則是指產品出現問題、高管減持、違法違規等信息。金融「事件」是金融領域投資分析,資產管理的重要決策參考。2020年中國網民規模達到了9.04億,網頁總數超3000億。
  • 阿爾伯塔大學博士畢業論文:基於圖結構的自然語言處理
    機器之心發布機器之心編輯部自然語言處理(Natural Language Processing)是人工智慧的核心問題之一,旨在讓計算機理解語言,實現人與計算機之間用自然語言進行通信。論文連結:https://sites.ualberta.ca/~bang3/files/PhD-Thesis.pdf引言自然語言處理(NLP)旨在讀取和理解未結構化的自然語言文本來完成不同的任務。「如何表示文本」以及「如何進行計算」是其中的兩個核心問題。
  • 追一科技獲得2020語言與智能技術競賽關係抽取任務冠軍
    > 近日,由中國中文信息學會、中國計算機學會聯合主辦的2020語言與智能技術競賽頒獎 典禮與分享報告在「第五屆語言與智能高峰論壇」舉行。追一科技AI Lab團隊獲得 「關係抽取」任務競賽冠軍,這也是追一科技再次摘冠語言與智能技術競賽單元。在2019年競賽中,追一科技曾在「知識驅動對話」任務中奪冠。
  • 中文語言處理專家慧科訊業AI Lab助力「金融+AI」
    在2018年第七屆國際自然語言處理與中文計算大會(NLPCC 2018)「單文本摘要」技術評測中,慧科訊業Wisers AI Lab自動摘要技術從包括清華、北大、中科院等國內頂級院校和研究機構在內的18個參賽團隊中脫穎而出,獲得第一名。
  • 用在自然語言處理上的業務應用有哪一些
    用在自然語言處理上的業務應用有哪一些 cio.com 發表於 2020-04-23 09:19:05 你可能還沒有意識到,自然語言處理(NLP)對於企業來說已經不僅僅是一種新興的技術
  • 12種自然語言處理的開源工具
    在過去的幾年裡,自然語言處理(NLP)推動了聊天機器人、語音助手、文本預測等這些滲透到我們的日常生活中的語音或文本應用程技術的發展。目前有著各種各樣開源的 NLP 工具,所以我決定調查一下當前開源的 NLP 工具來幫助你制定開發下一個基於語音或文本的應用程式的計劃。
  • 多變的動詞 - 詞性識別在人工智慧自然語言處理中的不足與改進
    動詞是句子的核心因此,在人工智慧的自然語言處理領域,對於動詞的處理也是重中之重。這是非常簡單的一個現在進行時的句子,我們先來看看著名的史丹福大學開放的自然語言處理系統分析的結果:從上面的例子可以看出,目前主流的自然語言處理系統對動詞的分析存在的主要問題之一就是:對一些特殊動詞沒有區分開來,做特殊的處理。類似be動詞,還有do、have等動詞在英語中實在是太特殊了,很多時態、語氣、疑問、強調等語法現象都與這些動詞緊密相關,因此只有處理好了這些動詞,才有助於詞性識別後進一步的處理。
  • 自然語言處理中「中文分詞」技術中「自動切分」的幾點理解
    enjoy~概述在人工智慧中,自然語言處理是一門極其深奧的領域,自然語言處理在廣義上分為兩部分,第一部分自然語言理解,是指讓電腦「聽懂」人類的語言;第二部分為自然語言生成,是指把計算機數據轉化成人類可以聽懂的語言;而自然語言理解和產生的前提是對語言能夠做出全面的解析,而在中文中,漢語詞彙是語言獨立運用的最小語言單位,因此對漢語中詞彙的切分顯得尤為的重要,隨著自然語言的應用逐漸發展
  • 7 Papers|谷歌等用神經網絡給照片打光,沈向洋等神經語言處理綜述
    論文 2:Deep Face Recognition: A Survey作者:Mei Wang、Weihong Deng連結:https://arxiv.org/pdf/1804.06655.pdf摘要:在這篇論文中,來自北京郵電大學的研究者對深度人臉識別進行了全面的綜述。
  • 從限定詞開始 - 詞性識別在人工智慧自然語言處理中的不足與改進
    詞性識別在人工智慧的自然語言處理領域具有極其重要的意義,可以說是更深層次分析和處理的主要基礎。* 自然語言處理:指的是在計算機和人工智慧領域中,利用電腦或人工智慧神經網絡來對人類語言進行理解、分析和其他進一步處理的一門科學。
  • IBM在自然語言處理方面的創新幫助企業更好地理解業務語言
    在基準測試中,與商業方案相比,新的意圖檢測算法更為準確。(1) IBM 研究院不斷改進自然語言處理功能,並融入到 IBM Watson 中。 此外,我們還在 IBM Watson Assistant 和 Watson Discovery 中引入了新的自然語言處理增強功能,目前已經提供 beta 版。這些新功能是在 IBM 研究院(IBM Research)的帶領下開發的,目的是提高人工智慧的自動化程度,以及自然語言處理的精度。
  • 2019 自然語言處理前沿論壇成功舉辦,百度 NLP 技術全揭秘
    自然語言處理前沿論壇」上,來自百度和各大高校的嘉賓們分享了關於 NLP 技術研究的心得體會。肖欣延表示,隨著內容生態和智能交互的發展,自然語言生成得到越來越多的關注。一方面自然語言生成能夠幫助內容創作者提升創作效率,另一方面,也能夠用來改善交互的用戶體驗。
  • CQC發表量子自然語言處理基礎科學論文
    Cambridge Quantum Computing(劍橋量子計算公司,CQC)今日宣布,其在「意義感知」量子自然語言處理(QNLP)取得的早期發展基礎上,確立QNLP是本徵量子,相對傳統計算機具有近期優勢。自然語言處理(NLP)處於當今人工智慧技術發展的最前沿,可以說是該領域最具挑戰性的子領域之一。
  • 自然語言處理之詞性標註
    如在漢語中,詞可以分成實詞和虛詞,實詞中又包括體詞、謂詞等,體詞中又可以分出名詞和代詞等。 從組合和聚合關係來說,一個詞類是指:在一個語言中,眾多具有相同句法功能、能在同樣的組合位置中出現的詞,聚合在一起形成的範疇。 詞性是語言學中的術語,是最普遍的語法的聚合。
  • 知識圖譜從哪裡來:實體關係抽取的現狀與未來
    文章回顧了知識圖譜領域的發展歷程,並綜述了近年來的研究進展,機器之心獲授權轉載。最近幾年深度學習引發的人工智慧浪潮席捲全球,在網際網路普及帶來的海量數據資源和摩爾定律支配下飛速提升的算力資源雙重加持下,深度學習深入影響了自然語言處理的各個方向,極大推動了自然語言處理的發展。來到 2019 年的今天,深度學習的諸多局限性也慢慢得到廣泛認知。
  • ACL 2019年度回顧:自然語言處理發展趨勢
    ACL主席、來自微軟亞研院的周明老師在開幕致辭中指出,今年的ACL會議是規模最大的一屆,共接收到2900多份論文,比2018年增加75%!自然語言處理領域炙手可熱🔥,學界和業界熱情創歷史新高。除了地理誤差之外,在當前的自然語言處理發展中越來越出現一些諸如性別偏見這樣的不良趨勢。一些論文通過實證研究支持了這些事實。例如,Stanovsky等人證明了四種工業機器翻譯系統以及兩種當前最先進(SOTA)的學術模型都非常容易出現基於性別的翻譯錯誤。