基礎卻不簡單,命名實體識別的難點與現狀

2021-01-15 追一科技

命名實體識別(Named Entities Recognition, NER)是自然語言處理(Natural Language Processing, NLP)的一個基礎任務,其目的是識別語料中人名、地名、組織機構名等命名實體,在所有涉及NLP的人工智慧研究中——譬如智能客服——都是一個必須首先攻克的任務。由於這些命名實體數量不斷增加,通常不可能在詞典中窮盡列出,且其構成方法具有各自的一些規律性,因而,通常把對這些詞的識別從詞彙形態處理(如漢語切分)任務中獨立處理,稱為命名實體識別。

命名實體識別的研究主體一般包括3大類(實體類、時間類和數字類)和7小類(人名、地名、機構名、時間、日期、貨幣和百分比)命名實體。評判一個命名實體是否被正確識別包括兩個方面:實體的邊界是否正確;實體的類型是否標註正確。

從語言分析的全過程來看, 命名實體識別屬於詞法分析中未登錄詞識別的範疇。命名實體識別是未登錄詞中數量最多、識別難度最大、對分詞效果影響最大的問題,同時它也是信息抽取、信息檢索、機器翻譯、問答系統等多種自然語言處理技術必不可少的組成部分。

事件檢測:地點、時間、人物是時間的幾個基本構成部分,在構建事件的摘要時,可以突出相關人物、地點、單位等。在事件搜索系統中,相關的人物、時間、地點可以作為索引關鍵詞。事件的幾個構成部分之間的關係,從語義層面更詳細的描述了事件。

信息檢索:命名實體可以用來提高和改進檢索系統的效果,當用戶輸入「重大」時,可以發現用戶更想檢索的是「重慶大學」,而不是其對應的形容詞含義。此外,在建立倒排索引的時候,如果把命名實體切成多個單詞,將會導致查詢效率降低。此外,搜尋引擎正在向語義理解、計算答案的方向發展。

語義網絡:語義網絡中一般包括概念和實例及其對應的關係,例如「國家」是一個概念,中國是一個實例,「中國」是一個「國家」表達實體與概念之間的關係。語義網絡中的實例有很大一部分是命名實體。

機器翻譯:命名實體的翻譯常會有一些特殊翻譯規則,例如中國人民翻譯成英文時要使用名字的拼音來表示,有名在前姓在後的規則,而普通的詞語要翻譯成對應的英文單詞。準確識別出文本中的命名實體,對提高機器翻譯的效果有重要的意義。

問答系統:準確的識別出問題的各個組成部分特別重要,問題的相關領域,相關概念。目前,大部分問答系統都只能搜索答案,而不能計算答案。搜索答案進行關鍵詞的匹配,用戶根據搜索結果人工提取答案,而更加友好的方式是把答案計算好呈現給用戶。問答系統中有一部分問題需要考慮到實體之間的關係,例如「美國第四十五屆總統」,目前的搜尋引擎會以特殊的格式返回答案「川普」。

命名實體識別當前並不是一個大熱的研究課題,因為學術界部分認為這是一個已經解決了的問題,但是也有學者認為這個問題還沒有得到很好地解決,原因主要有:命名實體識別只是在有限的文本類型(主要是新聞語料中)和實體類別(主要是人名、地名)中取得了效果;與其他信息檢索領域相比,實體命名評測預料較小,容易產生過擬合;命名實體識別更側重高召回率,但在信息檢索領域,高準確率更重要;通用的識別多種類型的命名實體的系統性很差。

同時,中文的命名實體識別與英文的相比,挑戰更大,目前未解決的難題更多。英語中的命名實體具有比較明顯的形式標誌,即實體中的每個詞的第一個字母要大寫,所以實體邊界識別相對容易,任務的重點是確定實體的類別。和英語相比,漢語命名實體識別任務更加複雜,而且相對於實體類別標註子任務,實體邊界的識別更加困難。

漢語命名實體識別的難點主要存在於:(1)漢語文本沒有類似英文文本中空格之類的顯式標示詞的邊界標示符,命名實體識別的第一步就是確定詞的邊界,即分詞;(2)漢語分詞和命名實體識別互相影響;(3)除了英語中定義的實體,外國人名譯名和地名譯名是存在於漢語中的兩類特殊實體類型;(4)現代漢語文本,尤其是網絡漢語文本,常出現中英文交替使用,這時漢語命名實體識別的任務還包括識別其中的英文命名實體;(5)不同的命名實體具有不同的內部特徵,不可能用一個統一的模型來刻畫所有的實體內部特徵。

最後,現代漢語日新月異的發展給命名實體識別也帶來了新的困難。

其一,標註語料老舊,覆蓋不全。譬如說,近年來起名字的習慣用字與以往相比有很大的變化,以及各種複姓識別、國外譯名、網絡紅人、虛擬人物和暱稱的湧現。

其二,命名實體歧義嚴重,消歧困難。譬如下列句子:

餘則成潛伏在敵後 VS 餘則成潛伏在線

我和你一起唱《我和你》吧。

看完嚇死你:驚悚視頻,膽小勿入。

當前命名實體識別的主要技術方法分為:基於規則和詞典的方法、基於統計的方法、二者混合的方法等。

1基於規則和詞典的方法

基於規則的方法多採用語言學專家手工構造規則模板,選用特徵包括統計信息、標點符號、關鍵字、指示詞和方向詞、位置詞(如尾字)、中心詞等方法,以模式和字符串相匹配為主要手段,這類系統大多依賴於知識庫和詞典的建立。

基於規則和詞典的方法是命名實體識別中最早使用的方法,它們依賴於手工規則的系統, 都使用命名實體庫, 而且對每一個規則都賦予權值。當遇到規則衝突的時候, 選擇權值最高的規則來判別命名實體的類型。一般而言,當提取的規則能比較精確地反映語言現象時,基於規則的方法性能要優於基於統計的方法。但是這些規則往往依賴於具體語言、領域和文本風格,編制過程耗時且難以涵蓋所有的語言現象,特別容易產生錯誤,系統可移植性不好,對於不同的系統需要語言學專家重新書寫規則。

基於規則的方法的另外一個缺點是代價太大,存在系統建設周期長、移植性差而且需要建立不同領域知識庫作為輔助以提高系統識別能力等問題。

2基於統計的方法

基於統計機器學習的方法主要包括:隱馬爾可夫模型(HiddenMarkovMode,HMM)、最大熵(MaxmiumEntropy,ME)、支持向量機(Support VectorMachine,SVM)、條件隨機場(ConditionalRandom Fields,CRF)等。

在這4種學習方法中,最大熵模型結構緊湊,具有較好的通用性,主要缺點是訓練時間複雜性非常高,有時甚至導致訓練代價難以承受,另外由於需要明確的歸一化計算,導致開銷比較大。而條件隨機場為命名實體識別提供了一個特徵靈活、全局最優的標註框架,但同時存在收斂速度慢、訓練時間長的問題。一般說來,最大熵和支持向量機在正確率上要比隱馬爾可夫模型高一些,但是隱馬爾可夫模型在訓練和識別時的速度要快一些,主要是由於在利用Viterbi算法求解命名實體類別序列的效率較高。隱馬爾可夫模型更適用於一些對實時性有要求以及像信息檢索這樣需要處理大量文本的應用,如短文本命名實體識別。

基於統計的方法對特徵選取的要求較高,需要從文本中選擇對該項任務有影響的各種特徵,並將這些特徵加入到特徵向量中。依據特定命名實體識別所面臨的主要困難和所表現出的特性,考慮選擇能有效反映該類實體特性的特徵集合。主要做法是通過對訓練語料所包含的語言信息進行統計和分析,從訓練語料中挖掘出特徵。有關特徵可以分為具體的單詞特徵、上下文特徵、詞典及詞性特徵、停用詞特徵、核心詞特徵以及語義特徵等。

基於統計的方法對語料庫的依賴也比較大,而可以用來建設和評估命名實體識別系統的大規模通用語料庫又比較少,這是此種方法的又一大制約。

3混合方法

自然語言處理並不完全是一個隨機過程,單獨使用基於統計的方法使狀態搜索空間非常龐大,必須藉助規則知識提前進行過濾修剪處理。目前幾乎沒有單純使用統計模型而不使用規則知識的命名實體識別系統,在很多情況下是使用混合方法,主要包括:

a.統計學習方法之間或內部層疊融合。

b. 規則、詞典和機器學習方法之間的融合,其核心是融合方法技術。在基於統計的學習方法中引入部分規則,將機器學習和人工知識結合起來。

c. 將各類模型、算法結合起來,將前一級模型的結果作為下一級的訓練數據,並用這些訓練數據對模型進行訓練,得到下一級模型。

這種方法在具體實現過程中需要考慮怎樣高效地將兩種方法結合起來,採用什麼樣的融合技術。由於命名實體識別在很大程度上依賴於分類技術,在分類方面可以採用的融合技術主要包括如Voting,XVoting,GradingVa,l Grading等。

目前解決命名實體識別問題的主導技術就是監督式學習,這項技術包括Hidden Markov

Models,Decision Trees, Maximun Entropy Models, Support Vector Machines 和Conditional Random Fields.他們都需要一個龐大的注釋語料庫,儲存大量實體列表並根據那些具有區分能力的特徵實際各種用於消除歧義的規則。

半監督式學習是最近興起的一項技術,主要技術成為「bootstrapping",它也包括了一些監督式學習的方法,例如,都需要從一系列種子來開始學習的過程,比如一個主要是別疾病名稱的系統運行之前就需要用戶提供幾個疾病實體的名稱,然後系統就開始搜索包含這些名稱的文本,並根據上下文的線索和一些其他的規則來找出相同文本中的其他疾病實例的名稱。之後系統再用新找到的實體作為新的種子,重讀的在文本中進行搜索的過程並尋找新的實例。通過多次的重複,可以從大量的文本中找出大量的疾病名稱實體。近期進行的半監督的命名實體識別實驗的結果顯示,其性能和基線監督方法的性能相比具有很大競爭力。

命名實體識別近年來在多媒體索引、半監督和無監督的學習、複雜語言環境和機器翻譯等方面取得大量新的研究成果。隨著半監督的學習和無監督的學習方法不斷被引入到這個領域, 採用未標註語料集等方法將逐步解決語料庫不足的問題。在複雜語言現象(如借喻等)研究以及命名實體識別系統與機器翻譯的互提高方面, 也有廣闊的發展空間。命名實體識別將在更加開放的領域中, 綜合各方面的發展成果, 為自然語言處理的深層次發展奠定更堅實的基礎。

相關焦點

  • 「NLP-NER」什麼是命名實體識別?
    命名實體識別(Named Entity Recognition,NER)是NLP中一項非常基礎的任務。NER是信息提取、問答系統、句法分析、機器翻譯等眾多NLP任務的重要基礎工具。命名實體識別的準確度,決定了下遊任務的效果,是NLP中非常重要的一個基礎問題。作者&編輯 | 小Dream哥1 命名實體識別是什麼?
  • 【NLP基礎】信息抽取(Information Extraction:NER(命名實體識別),關係抽取)
    命名實體識別(NER)的任務是找到文本中提到的每個命名實體,並標記其類型。構成命名實體類型的是特定於任務的;人員、地點和組織是常見的。一旦提取了文本中的所有命名實體,就可以將它們連結到與實際實體相對應的集合中。關係抽取:發現和分類文本實體之間的語義關係。這些關係通常是二元關係,如子女關係、就業關係、部分-整體關係和地理空間關係。
  • 中科院自動化所聯合實驗室獲CCKS2020醫療命名實體識別評測冠軍
    會上公布了CCKS-2020技術評測結果,雲知聲-中科院自動化所語言與知識計算聯合實驗室在「面向中文電子病歷的醫療命名實體識別評測任務」中獲得冠軍,並斬獲該任務唯一技術創新獎。CCKS由中國中文信息學會語言與知識計算專業委員會主辦,是知識圖譜、語義技術、連結數據等領域的核心會議。
  • 雲知聲-中科院自動化所聯合實驗室獲CCKS2020醫療命名實體識別評測...
    會上公布了CCKS-2020技術評測結果,雲知聲-中科院自動化所語言與知識計算聯合實驗室在「面向中文電子病歷的醫療命名實體識別評測任務」中獲得冠軍,並斬獲該任務唯一技術創新獎。CCKS由中國中文信息學會語言與知識計算專業委員會主辦,是知識圖譜、語義技術、連結數據等領域的核心會議。
  • 中文命名實體識別算法 Lattice LSTM
    中文命名實體識別 (NER) 算法按照輸入的類型,可以大致分為 Character-based (字符) 和 Word-based (單詞) 兩種。1.前言基於字符和基於單詞的 LSTM 模型如上圖所示,中文命名實體識別
  • NLP實戰-中文命名實體識別
    並星標,更多乾貨,第一時間送達來源:知乎    原文:見文末閱讀原文    作者:MaggicQ編輯整理:python遇見NLP(公眾號)僅做學術分享,侵刪前言:本文章將通過pytorch作為主要工具實現不同的模型(包括HMM,CRF,Bi-LSTM,Bi-LSTM+CRF)來解決中文命名實體識別問題
  • 利用Lattice LSTM的最優中文命名實體識別方法
    作者:Yue Zhang、Jie Yang機器之心編譯參與:路、王淑婷近日,來自新加坡科技設計大學的研究者在 arXiv 上發布了一篇論文,介紹了一種新型中文命名實體識別方法作為信息抽取的一項基本任務,命名實體識別(NER)近年來一直受到研究人員的關注。該任務一直被作為序列標註問題來解決,其中實體邊界和類別標籤被聯合預測。
  • 今日Paper | 梯度剪切;命名實體識別;自然語言處理;免強度函數學習...
    完成命名實體識別的雙向LSTM+CRF結構完成命名實體識別的神經網絡結構自然語言處理(幾乎)從頭開始免強度函數學習的時間點過程論文名稱:Why Gradient Clipping Accelerates Training:
  • 多因子融合的實體識別與鏈指消歧
    Abstract:實體識別與鏈指消歧,又稱為Entity recognition和Entity linking,是自然語言處理領域的基礎任務之一。因此基於預訓練模型的實體識別結果也提高了很多。得益於預訓練模型強大的實體識別能力,本文因此採用兩步走的方式來進行實體識別和鏈指消歧。因為實體識別的準確率足夠高,因此對後面的消歧結果產生的False Positve樣本影響會小很多,同時可以降低聯合模型的計算空間。命名實體識別任務多在識別文本中的事物的名稱,例如人名、地名和機構名。
  • UT Austin博士生沈彥堯:基於深度主動學習的命名實體識別 | 分享...
    主動學習的背景介紹及研究意義主動學習相關理論主動學習在深度學習中的前沿研究及方法主動學習在深度學習中的挑戰分享內容:本次分享基於本人去年在亞馬遜的實習項目「基於深度主動學習的命名實體識別它基於一個簡單概念,即當有一個分類器或者模型時,選取那些在概率上最不確定的樣本進行標註。「概率上最不確定」存在多種定義方式,最常用的幾種定義方式列在下圖中。
  • UT Austin博士生沈彥堯:基於深度主動學習的命名實體識別 | 分享總結
    >主動學習相關理論主動學習在深度學習中的前沿研究及方法主動學習在深度學習中的挑戰分享內容:本次分享基於本人去年在亞馬遜的實習項目「基於深度主動學習的命名實體識別它基於一個簡單概念,即當有一個分類器或者模型時,選取那些在概率上最不確定的樣本進行標註。「概率上最不確定」存在多種定義方式,最常用的幾種定義方式列在下圖中。
  • 化學選修5重難點-有機化合物命名
    b、從碳鏈任何一端開始,第一個支鏈的位置都相同時,則從較簡單的一端開始編號.c、若第一個支鏈的位置相同,則依次比較第二、第三個支鏈的位置,以取代基的系列編號最小(最低系列原則)為原則.(3)烷烴名稱的寫出.a、將支鏈(取代基)寫在主鏈名稱的前面.
  • 解讀「嫦娥三號」月球地理實體命名
    中新社北京1月5日電 (記者 張素)國際天文學聯合會正式批准中國「嫦娥三號」著陸區4項月球地理實體命名,分別是廣寒宮、紫微、天市和太微。  什麼是月球地理實體命名?  從伽利略使用天文望遠鏡觀測月球開始,人們陸續對月球上的一些地形單元進行命名。
  • 人工智慧難點之——自然語言處理(NLP)
    通過利用NLP,開發者可以組織和構建知識來執行自動摘要,翻譯,命名實體識別,關係提取,情感分析,語音識別和話題分割等任務。自然語言處理如何工作目前NLP的方法是基於深度學習,這是一種AI,它檢查和使用數據中的模式來改善程序的理解。
  • 那些地理實體以他們命名
    ■延伸閱讀  從伽利略發明望遠鏡開始,人們陸陸續續對月球上的一些地形單元進行了命名,絕大多數採用地球上的地名和世界各國歷史上著名科學家的名字來命名,以示紀念。  2010年,我國利用嫦娥工程影像數據首次申報「月球地理實體命名」,獲得國際天文學聯合會(iau)批准,月面上的三個撞擊坑用我國著名科學家蔡倫、畢昇和張鈺哲的名字來命名,實現了我國月球探測工程科學應用成果在月球地理實體命名上零的突破。至此月球上共計以14個中國人的名稱命名了19個月球地理實體,包括12個撞擊坑、2個月溪和5個衛星坑。
  • 2019年全球免疫細胞治療實體瘤發展現狀
    全球免疫細胞治療研究現狀 2019年紐約癌症研究所(CRI)分析全球癌症細胞治療的結果顯示,截至2019年5月,全球共有細胞療法1011項,其中CAR-T療法有568項,佔56.2%。比2018年的753項增加了34.3%,其中增長量多為免疫細胞治療,佔比將近八成。
  • 中國大洋協會命名163個國際海域海底地理實體
    海底命名:中國元素留存大洋深處根據國際海底地理實體命名分委會的規定,海底地理實體是海底可測量、可劃分界限的地貌單元,賦予其標準名稱的行為即「海底命名」。國際海域的地名,需得到國際組織的審議批准。截至2015年底,國際海底地理實體命名分委會共審議批准了國際海域3940個海底地名。
  • 知識圖譜從哪裡來:實體關係抽取的現狀與未來
    雖然遠程監督思想非常簡單也存在很多問題,不過它為更多收集訓練數據開啟了新的紀元。受到這個思路的啟發,很多學者積極考慮如何儘可能排除遠程監督數據中的噪音標註的幹擾。從 2015 年開始,基於遠程監督與降噪機制的神經關係抽取模型得到了長足的發展,工作 [17] 引入了多實例學習方法,利用包含同一實體對的所有實例來共同預測實體間關係。
  • 中國「嫦娥三號」著陸區獲4項月球地理實體命名
    中國「嫦娥三號」著陸區獲4項月球地理實體命名 2016-01-05 12:22:50  1月4日,國際天文學聯合會正式批准了中國「嫦娥三號」著陸區4項月球地理實體命名。探月工程二期地面應用系統總設計師、中國科學院國家天文臺副臺長李春來在5日舉行的新聞發布會上介紹,「廣寒宮」是「嫦娥三號」月球著陸點周邊方圓77米區域,包括玉兔號月球車巡視路線及其東側重要地貌。「紫微」、「天市」和「太微」是緊鄰「嫦娥三號」著陸點周邊區域三個較大的撞擊坑。
  • 律師辦理民營企業法律風險識別與控制基礎指引
    1.4律師事務所可以根據自身管理基礎、資源以及管理需求,對本指引提供的民營企業法律風險識別與控制過程和相關的配套保障措施進行改進或者簡化,以律師事務所執行民營企業法律風險識別與控制的資源投入適度,但是不應改變法律風險識別與控制的目標。