【NLP基礎】信息抽取(Information Extraction:NER(命名實體識別),關係抽取)

2021-01-14 機器學習初學者

機器學習算法與自然語言處理出品

@公眾號原創專欄作者 劉浪

單位 | 快商通科技股份有限公司 自然語言處理實習生


信息抽取的定義為:從自然語言文本中抽取指定類型的實體、關係、事件等事實信息,並形成結構化數據輸出的文本處理技術
信息抽取是從文本數據中抽取特定信息的一種技術。文本數據是由一些具體的單位構成的,例如句子、段落、篇章,文本信息正是由一些小的具體的單位構成的,例如字、詞、詞組、句子、段落或是這些具體的單位的組合。抽取文本數據中的名詞短語、人名、地名等都是文本信息抽取,當然,文本信息抽取技術所抽取的信息可以是各種類型的信息。本文介紹從文本中提取有限種類語義內容的技術。此信息提取過程(IE)將嵌入文本中的非結構化信息轉換為結構化數據,例如用於填充關係資料庫以支持進一步處理。命名實體識別(NER)的任務是找到文本中提到的每個命名實體,並標記其類型。構成命名實體類型的是特定於任務的;人員、地點和組織是常見的。一旦提取了文本中的所有命名實體,就可以將它們連結到與實際實體相對應的集合中。關係抽取:發現和分類文本實體之間的語義關係。這些關係通常是二元關係,如子女關係、就業關係、部分-整體關係和地理空間關係。
信息提取的第一步是檢測文本中的實體。一個命名實體,粗略地說,是任何可以用一個專有名稱引用的東西:一個人、一個位置、一個組織。這個術語通常被擴展為包含本身不是實體的東西,包括日期、時間和其他類型的時態表達式,甚至像價格這樣的數字表達式。下面是前面介紹的示例文本,其中標有命名實體:
文本包含13個提到的命名實體,包括5個組織、4個地點、2次、1個人和1個提到錢的實體。除了用於提取事件和參與者之間的關係之外,命名實體對於許多其他語言處理任務也很有用。在情緒分析中,我們可能想知道消費者對特定實體的情緒。實體是回答問題或將文本連結到結構化知識資源(如Wikipedia)中的信息的有用的第一階段。下圖顯示了典型的通用命名實體類型。許多應用程式還需要使用特定的實體類型,如蛋白質、基因、商業產品或藝術品。命名實體識別是指查找構成專有名稱的文本範圍,然後對實體的類型進行分類。識別困難的原因之一是分割的模糊性,我們需要決定什麼是實體,什麼不是,界限在哪裡。另一個困難是類型模糊。JFK可以指一個人、紐約的機場、美國各地的學校、橋梁和街道。下圖給出了這種交叉類型混淆的一些例子:命名實體識別的標準算法是一個逐詞的序列標記任務,其中指定的標記同時捕獲邊界和類型。序列分類器(如MEMM/CRF或bi-LSTM)被訓練為在文本中使用標記來標記標記,這些標記表示特定類型的命名實體的存在。考慮下面來自運行示例的簡化摘錄。看一下最常用的兩種 sequence labeling 的編碼方式,IO encoding簡單的為每個 token 標註,如果不是 NE 就標為 O(other),所以一共需要 C+1 個類別(label)。而IOB encoding需要 2C+1 個類別(label),因為它標了 NE boundary,B 代表 begining,NE 開始的位置,I 代表 continue,承接上一個 NE,如果連續出現兩個 B,自然就表示上一個 B 已經結束了。第一種方法是提取特徵並訓練詞性標記類型的MEMM或CRF序列模型。而這種思路在NER中更為普遍和有效。NER任務中,最常見的特徵包括形態、本地(local)詞彙和句法信息,形態特徵有如詞形、大小寫、前後綴等。本地詞彙特徵有如前後提示詞、窗口詞、連接詞等。最近,通過未登錄詞和非常規詞的識別來提高NER的效果,也得到了嘗試。句法特徵有詞性、淺層句法結構等。由於漢語的特殊性,除了詞彙層面的特徵外,漢字層面的特徵也被充分地用來輔助提高NER的效果,如提示單字、常用尾字等。同時,由於漢語分詞和NER的密切聯繫,有研究發現分詞結果可以有效地提高漢語NER的效果。為了提高識別的效果,各種全局(global)信息也作為特徵被廣泛地應用在NER中,尤其是遠距離依存和上下文同指等。與此同時,各種外部知識如未標註文本旦、人名詞典、地名詞典等也被普遍使用來提高NER模型的性能。有研究表明,在模型不變的情況下,全局信息和外部知識確實可以顯著地提高識別的效果。值得注意的是,維基百科知識是最常見且有效的外部知識,而在漢語NER中,知網作為一個漢語特有的詞彙語義知識庫,也被充分地應用在NER研究中。例如,命名實體令牌L 'Occitane將生成以下非零值特徵值:地名表是地名的列表,通常為數百萬個地點提供詳細的地理和政治信息。一種相關的資源是姓名列表;美國人口普查局(United States Census Bureau)還提供了大量的姓氏和名字列表,這些名字都來自於其在美國進行的十年一次人口普查類似的公司、商業產品以及各種生物和礦物的清單也可從各種來源獲得。地名表和名稱特性通常作為每個名稱列表的二進位特性實現。不幸的是,這樣的列表很難創建和維護,而且它們的有用性差別很大。雖然地名表可能非常有效,但個人和組織的列表並不總是有用的特徵的有效性取決於應用程式、類型、媒體和語言。例如,形狀特徵對於英語新聞專線文本來說至關重要,但對於自動語音識別抄本、其他未經編輯或非正式的來源,或者像漢語這樣不使用正字法大小寫的語言,形狀特徵幾乎沒有什麼用處。下圖說明了在前面的示例中添加詞性標記、語法基短語塊標記和一些形狀信息的結果。給定這樣一個訓練集,就可以訓練像MEMM這樣的序列分類器來標記新的句子。圖17.7說明了這樣一個序列標記器在token Corp.接下來被標記的地方的操作。如果我們假設一個上下文窗口包含前兩個和後兩個單詞,那麼分類器可用的特徵就是框內區域中顯示的特徵。名實體識別作為序列標記。分類器在訓練和分類時可用的特徵是在框區域內的特徵。NER的標準神經算法是基於bi-LSTM。回想一下,在這個模型中,輸入單詞wi的單詞和字符嵌入。這些通過左到右的LSTM和右向左LSTM,其輸出被連接(或其他組合)在位置上生成一個單一的輸出層。在最簡單的方法中,這個層可以直接傳遞到一個softmax上,它在所有標籤上創建一個概率分布,最可能的標記被選擇為  。對於被命名為標記這種貪婪的解碼方法的實體來說,解碼是不夠的,因為它不允許我們強加相鄰標籤的強大約束。,標籤I-PER必須遵循另一個i / b / b / b。相反,CRF層通常在雙lstm輸出的頂部使用,Viterbi解碼算法被用來解碼。圖17.8顯示了算法的草圖字符嵌入和單詞放在一起是一個bi-LSTM序列模型。雖然機器學習(神經或MEMM/CRF)序列模型是學術研究的規範,但NER的商業方法通常基於列表和規則的實用組合,還有少量的監督機器學習。例如IBM系統T是一個文本理解結構,在這種結構中,一個用戶指定複雜聲明標記任務的約束在一個正式的查詢語言,包括正則表達式、字典、語義約束,NLP運營商,和表結構,所有這些系統編譯成一個高效提取器,一個常見的方法是使重複的基於規則的通過一個文本,允許一個通過影響下的結果。這些階段通常首先涉及使用具有極高精確度但召回率較低的規則。後續階段採用更容易出錯的統計方法,將第一次傳遞的輸出考慮在內。學術界基本上以純統計序列模型為主,但工業界上處理命名體識別的方法還是會更加實際一點,監督學習加上一些規則,最為常用的方法就是通過序列,將上一個序列的結果作為輸入到下一個序列中。第一步,用高精準度的規則去標記模稜兩可的命名實體。第三步,將特定領域的詞語列表與之前識別出的命名實體進行對比。第四步,應用概率序列標註模型將之前的標籤作為特徵。
關係抽取需要從文本中抽取兩個或多個實體之間的語義關係,主要方法有下面幾類:
基於模板的方法(hand-written patterns)監督學習(supervised machine learning)深度學習(Pipeline vs Joint Model)半監督/無監督學習(semi-supervised and unsupervised)Unsupervised learning from the web關係提取最早也是最常見的算法是詞彙句法模式,考慮下面這句話:

Agar is a substance prepared from a mixture of red algae, such as Gelidium,for laboratory or industrial use.

多數人並不知道什麼是凝膠體,但他們很容易推斷出它是一種(一種下胚層)紅藻,不管它是什麼。她提出了以下詞彙句法模式

 是  的下位詞,讓我們可以推斷:下義詞(石花菜;紅藻)但是手寫模型雖然有高精準度,可以專門適合於某種模型,但是另一方面來說,基本上它們都是低回歸率的,需要花很多時間去做。監督學習去做關係提取的過程如下:首先特定的關係和命名實體已經選擇了,訓練集語料手動去標註關係和命名實體,接著就是注釋的語料就是用來去訓練分類器去標註沒有見過的訓練集。第二步,二元分類器的作用是用來判斷兩個命名實體之間是否有關係對於命名體識別,在這個過程中最重要的步驟就是去辨認有用的接口特徵基於依存句法通常可以以動詞為起點構建規則,對節點上的詞性和邊上的依存關係進行限定。流程為:
深度學習方法又分為兩大類,pipeline 和 joint model
Pipeline
把實體識別和關係分類作為兩個完全獨立的過程,不會相互影響,關係的識別依賴於實體識別的效果Joint Model
實體識別和關係分類的過程共同優化模型通常有 CNN/RNN + attention,損失函數 ranking loss 要優於交叉熵。PipelineCR-CNNhttps://arxiv.org/pdf/1504.06580.pdf
輸入層 word embedding + position embedding,用 6 個卷積核 + max pooling 生成句子向量表示,與關係(類別)向量做點積求相似度,作為關係分類的結果。損失函數用的是 pairwise ranking loss function訓練時每個樣本有兩個標籤,正確標籤 y+ 和錯誤標籤 c-,m+ 和 m- 對應了兩個 margin,γ用來縮放,希望  越大越好,  越小越好。負樣本選擇  最大的標籤,便於更好地將比較類似的兩種 label 分開加了一個 Artifical Class,表示兩個實體沒有任何關係,可以理解為 Other/拒識,訓練時不考慮這一類,損失函數的第一項直接置 0,預測時如果其他 actual classes 的分數都為負,那麼就分為 Other,對於整體的 performance 有提升position feature 是每個 word 與兩個 entity 的相對距離,強調了兩個實體的作用,認為距離實體近的單詞更重要,PE 對效果的提升明顯,但實際上只用兩個實體間的 word embedding 作為輸入代替整個句子的 word embedding+position embedding,也有相近效果,且輸入更少實現更簡單。


備註:加入本站微信群或者qq群,請回復「加群

獲取一折本站知識星球優惠券,請回復「知識星球

喜歡文章,點個在看


相關焦點

  • 知識圖譜從哪裡來:實體關係抽取的現狀與未來
    為了儘可能及時準確地為知識圖譜增添更加豐富的世界知識,研究者們努力探索高效自動獲取世界知識的辦法,即實體關係抽取技術。具體來說,給定一個句子和其中出現的實體,實體關係抽取模型需要根據句子語義信息推測實體間的關係。例如,給定句子:「清華大學坐落於北京近鄰」以及實體「清華大學」與「北京」,模型可以通過語義得到「位於」的關係,並最終抽取出(清華大學,位於,北京)的知識三元組。
  • NLP:關係抽取到底在乎什麼
    我們廢話不說,先po結論(劃重點): 1、對關係抽取的兩個主要特徵(上下文信息和實體信息),進行了對比分析發現: 上下文信息 和 實體信息 對於關係模型都很關鍵; 上下文信息是關係模型的主要信息來源
  • 百分點認知智能實驗室:信息抽取在知識圖譜構建中的實踐與應用
    對應的研究問題有四個:一是實體抽取,也即命名實體識別,實體包括概念、組織機構、人名、地名、時間等;二是關係抽取,即兩個實體之間的關聯性知識等,包括上下位、類屬關係等;三是屬性抽取,即實體或關係的特徵信息,關係反映實體與外部的聯繫,而屬性體現實體的內部特徵;四是事件抽取,事件是發生在某個特定時間點或時間段、某個特定地域範圍內,由一個或者多個角色參與的一個或者多個動作組成的事情或者狀態的改變
  • 陳丹琦「簡單到令人沮喪」的屠榜之作:關係抽取新SOTA!
    不過,我們還是先總結一下這篇SOTA的主要貢獻和結論吧:  (劃重點)    設計了一種非常簡單的end2end關係抽取方法,即採取2個獨立的編碼器分別用於實體抽取和關係識別, 使用相同的預訓練模型就超越了之前所有的joint模型    分別學習實體和關係的不同上下文表示,比聯合學習它們更有效    在關係模型的輸入層融合
  • 「NLP-NER」什麼是命名實體識別?
    命名實體識別(Named Entity Recognition,NER)是NLP中一項非常基礎的任務。NER是信息提取、問答系統、句法分析、機器翻譯等眾多NLP任務的重要基礎工具。命名實體識別的準確度,決定了下遊任務的效果,是NLP中非常重要的一個基礎問題。作者&編輯 | 小Dream哥1 命名實體識別是什麼?
  • 陳丹琦新作:關係抽取新SOTApipeline挫敗joint
    :命名實體識別和關係抽取。端到端關係抽取旨在識別命名實體,同時抽取其關係。近期研究大多採取 joint 方式建模這兩項子任務,要麼將二者統一在一個結構化預測網絡中,要麼通過共享表示進行多任務學習。通過一系列精心檢驗,該研究驗證了學習不同的語境表示對實體和關係的重要性,即在關係模型的輸入層融合實體信息,併集成全局語境信息。
  • ...最大的實體關係抽取數據集!清華大學自然語言處理團隊發布 FewRel
    FewRel 網站地址:https://thunlp.github.io/fewrel.html 論文地址:http://aclweb.org/anthology/D18-1514 關係抽取(relation extraction)是自然語言處理中的一項重要任務,其通過從純文本中抽取關係事實,來構建和擴充知識圖譜(knowledge
  • 平安人壽SemEval冠軍方案詳解:長距離語義捕捉技術攻克關係抽取
    圖1.1 平安人壽AI團隊位列關係抽取賽道榜單第一1.比賽介紹1.1背景簡介定義抽取是信息抽取的一個重要分支,是自然語言處理研究中的一個熱門領域,其目的是識別非結構化文本中的術語及相應的定義。除此之外,部分數據集存在多重定義以及長距離的指代關係,同樣一句話存在不同的實體標註和關係,當前討論的實體在前文或者後文描述過,這些都對準確識別提出了很高的要求。2.解決方案介紹本次比賽,基於賽題任務的深度理解,平安人壽AI團隊提出了一整套的解決方案,最終取得了關係抽取賽道第一名的成績。
  • 陳丹琦新作:關係抽取新SOTA,用pipeline方式挫敗joint模型
    機器之心報導編輯:魔王、小舟端到端關係抽取涉及兩個子任務:命名實體識別和關係抽取。近期研究多採用 joint 方式建模兩個子任務,而陳丹琦等人新研究提出一種簡單高效的 pipeline 方法,在多個基準上獲得了新的 SOTA 結果。
  • 基礎卻不簡單,命名實體識別的難點與現狀
    命名實體識別(Named Entities Recognition, NER)是自然語言處理(Natural Language Processing, NLP)的一個基礎任務,其目的是識別語料中人名、地名、組織機構名等命名實體,在所有涉及NLP的人工智慧研究中——譬如智能客服——都是一個必須首先攻克的任務。
  • NLP實戰-中文命名實體識別
    並星標,更多乾貨,第一時間送達來源:知乎    原文:見文末閱讀原文    作者:MaggicQ編輯整理:python遇見NLP(公眾號)僅做學術分享,侵刪前言:本文章將通過pytorch作為主要工具實現不同的模型(包括HMM,CRF,Bi-LSTM,Bi-LSTM+CRF)來解決中文命名實體識別問題
  • 人工智慧難點之——自然語言處理(NLP)
    通過利用NLP,開發者可以組織和構建知識來執行自動摘要,翻譯,命名實體識別,關係提取,情感分析,語音識別和話題分割等任務。自然語言處理如何工作目前NLP的方法是基於深度學習,這是一種AI,它檢查和使用數據中的模式來改善程序的理解。
  • 利用Lattice LSTM的最優中文命名實體識別方法
    作者:Yue Zhang、Jie Yang機器之心編譯參與:路、王淑婷近日,來自新加坡科技設計大學的研究者在 arXiv 上發布了一篇論文,介紹了一種新型中文命名實體識別方法與基於字符的方法相比,該模型顯性地利用詞和詞序信息;與基於詞的方法相比,lattice LSTM 不會出現分詞錯誤。這篇論文已被 ACL 2018 接收。作為信息抽取的一項基本任務,命名實體識別(NER)近年來一直受到研究人員的關注。該任務一直被作為序列標註問題來解決,其中實體邊界和類別標籤被聯合預測。
  • 深度學習在NLP中的運用?從分詞、詞性到機器翻譯、對話系統
    事實上,從分詞、詞性、語法解析、信息抽取等基礎模塊,到自然語言生成、機器翻譯、對話管理、知識問答等高層的 NLP 領域,幾乎都可以應用以 CNN、RNN 為代表的深度學習模型,且確實能夠取得不錯的效果。深度學習模型有效降低了語言模型輸入特徵的維度,降低了輸入層的複雜性。另外,深度學習模型具有其他淺層模型不能比擬的靈活性。
  • NLP入門+實戰必讀:一文教會你最常見的10種自然語言處理技術
    命名實體消岐6. 命名實體識別7. 情感分析8. 文本語義相似分析9. 語種辨識10. 文本總結1.命名實體消歧什麼是命名實體消岐?命名實體消岐是對句子中的提到的實體識別的過程。例如,對句子「Apple earned a revenue of 200 Billion USD in 2016」,命名實體消岐會推斷出句子中的Apple是蘋果公司而不是指一種水果。
  • 知識圖譜——用Python代碼從文本中挖掘信息的強大數據科學技術
    ○ 句子分割○ 實體抽取○ 關係抽取3. 依靠文本數據構建知識圖譜什麼是知識圖譜?先明確一個概念:在本文中經常出現的術語「圖譜」,並不是指柱狀圖、餅狀圖或線狀圖,而是相互關聯的實體,它們可以是人、地點、組織,甚至是一個事件。不妨說,圖譜是節點和邊*的組合。
  • 今日Paper | 梯度剪切;命名實體識別;自然語言處理;免強度函數學習...
    完成命名實體識別的雙向LSTM+CRF結構完成命名實體識別的神經網絡結構自然語言處理(幾乎)從頭開始免強度函數學習的時間點過程論文名稱:Why Gradient Clipping Accelerates Training:
  • 交叉信息研究院曾堅陽研究組提出從大規模科學文獻中提取生物醫學...
    清華新聞網6月10日電 近日,清華大學交叉信息研究院曾堅陽研究組成功開發了從大規模科學文獻中提取生物醫學實體關係的深度學習模型,相關研究成果「基於機器學習的大規模生物醫學關係自動抽取技術」(A novel machine learning framework for automated biomedical relation extraction
  • 【乾貨】土壤氣採樣方法-主動式抽取法
    該方法通過採集土壤包氣帶中的氣體,進行氣體成分的色譜分析,根據分析結果我們可提取其中與汙染致毒害有效的信息,確定汙染物的存在,組成,來源和分布狀況.現有兩種基本的土壤採樣方法,即主動式抽取法和被動累積吸附法。