「NLP-NER」什麼是命名實體識別?

2021-01-13 有三AI

命名實體識別(Named Entity Recognition,NER)是NLP中一項非常基礎的任務。NER是信息提取、問答系統、句法分析、機器翻譯等眾多NLP任務的重要基礎工具。

命名實體識別的準確度,決定了下遊任務的效果,是NLP中非常重要的一個基礎問題。

作者&編輯 | 小Dream哥

1 命名實體識別是什麼?

要了解NER是一回什麼事,首先要先說清楚,什麼是實體。要討論實體的理論概念,可能會花上一整天的時間,我們不過多糾纏。

簡單的理解,實體,可以認為是某一個概念的實例。

例如,「人名」是一種概念,或者說實體類型,那麼「蔡英文」就是一種「人名」實體了。「時間」是一種實體類型,那麼「中秋節」就是一種「時間」實體了。

所謂實體識別,就是將你想要獲取到的實體類型,從一句話裡面挑出來的過程。

小明 在 北京大學 的 燕園 看了

PER ORG LOC

中國男籃 的一場比賽

ORG

如上面的例子所示,句子「小明在北京大學的燕園看了中國男籃 的一場比賽」,通過NER模型,將「小明 」以PER,「北京大學」以ORG,「燕園」以LOC,「中國男籃」以ORG為類別分別挑了出來。

2 命名實體識別的數據標註方式

NER是一種序列標註問題,因此他們的數據標註方式也遵照序列標註問題的方式,主要是BIO和BIOES兩種。這裡直接介紹BIOES,明白了BIOES,BIO也就掌握了。

先列出來BIOES分別代表什麼意思:

B,即Begin,表示開始

I,即Intermediate,表示中間

E,即End,表示結尾

S,即Single,表示單個字符

O,即Other,表示其他,用於標記無關字符

將「小明在北京大學的燕園看了中國男籃的一場比賽」這句話,進行標註,結果就是:

[B-PER,E-PER,O, B-ORG,I-ORG,I-ORG,E-ORG,O,B-LOC,E-LOC,O,O,B-ORG,I-ORG,I-ORG,E-ORG,O,O,O,O]

那麼,換句話說,NER的過程,就是根據輸入的句子,預測出其標註序列的過程。

3 命名實體識別的方法介紹

1)HMM和CRF等機器學習算法

HMM和CRF很適合用來做序列標註問題,早期很多的效果較好的成果,都是出自這兩個模型。兩種模型在序列標註問題中應用,我們在之前的文章中有介紹,感興趣的同學可以看下如下連結的文章:

【NLP】用於語音識別、分詞的隱馬爾科夫模型HMM

【NLP】用於序列標註問題的條件隨機場(Conditional Random Field, CRF)

2)LSTM+CRF

目前做NER比較主流的方法就是採用LSTM作為特徵抽取器,再接一個CRF層來作為輸出層,後面我們用專門的文章來介紹這個模型。如下圖所示:

3)CNN+CRF

CNN雖然在長序列的特徵提取上有弱勢,但是CNN模型可有並行能力,有運算速度快的優勢。膨脹卷積的引入,使得CNN在NER任務中,能夠兼顧運算速度和長序列的特徵提取,後面我們用專門的文章來介紹這個模型。

4)BERT+(LSTM)+CRF

BERT中蘊含了大量的通用知識,利用預訓練好的BERT模型,再用少量的標註數據進行FINETUNE是一種快速的獲得效果不錯的NER的方法,後面我們用專門的文章來介紹這個模型。

總結

NER是一個非常基礎,但是非常重要的任務,今天先做一個整體的介紹。後續小Dream哥會相繼詳細的介紹上述幾種常見的NER模型。在具體的模型中,大家能夠更為細緻的體會NER任務的真正作用和意涵。

讀者們可以留言,或者加入我們的NLP群進行討論。感興趣的同學可以微信搜索jen104,備註"加入有三AI NLP群"。

下期預告:命名實體識別詳解之二:LSTM+CRF網絡

知識星球推薦

知識星球主要有以下內容:

(1) 聊天機器人。考慮到聊天機器人是一個非常複雜的NLP應用場景,幾乎涵蓋了所有的NLP任務及應用。所以小Dream哥計劃以聊天機器人作為切入點,通過介紹聊天機器人的原理和實踐,逐步系統的更新到大部分NLP的知識,會包括語義匹配,文本分類,意圖識別,語義匹配命名實體識別、對話管理以及分詞等。

(2) 知識圖譜。知識圖譜對於NLP各項任務效果好壞的重要性,就好比基礎知識對於一個學生成績好壞的重要性。他是NLP最重要的基礎設施,目前各大公司都在著力打造知識圖譜,作為一個NLP工程師,必須要熟悉和了解他。

(3) NLP預訓練模型。基於海量數據,進行超大規模網絡的無監督預訓練。具體的任務再通過少量的樣本進行Fine-Tune。這樣模式是目前NLP領域最火熱的模式,很有可能引領NLP進入一個全新發展高度。你怎麼不深入的了解?

相關焦點

  • 【NLP基礎】信息抽取(Information Extraction:NER(命名實體識別),關係抽取)
    命名實體識別(NER)的任務是找到文本中提到的每個命名實體,並標記其類型。構成命名實體類型的是特定於任務的;人員、地點和組織是常見的。一旦提取了文本中的所有命名實體,就可以將它們連結到與實際實體相對應的集合中。關係抽取:發現和分類文本實體之間的語義關係。這些關係通常是二元關係,如子女關係、就業關係、部分-整體關係和地理空間關係。
  • 今日Paper | 梯度剪切;命名實體識別;自然語言處理;免強度函數學習...
    完成命名實體識別的雙向LSTM+CRF結構完成命名實體識別的神經網絡結構自然語言處理(幾乎)從頭開始免強度函數學習的時間點過程論文名稱:Why Gradient Clipping Accelerates Training:
  • 利用Lattice LSTM的最優中文命名實體識別方法
    作者:Yue Zhang、Jie Yang機器之心編譯參與:路、王淑婷近日,來自新加坡科技設計大學的研究者在 arXiv 上發布了一篇論文,介紹了一種新型中文命名實體識別方法作為信息抽取的一項基本任務,命名實體識別(NER)近年來一直受到研究人員的關注。該任務一直被作為序列標註問題來解決,其中實體邊界和類別標籤被聯合預測。
  • NLP實戰-中文命名實體識別
    並星標,更多乾貨,第一時間送達來源:知乎    原文:見文末閱讀原文    作者:MaggicQ編輯整理:python遇見NLP(公眾號)僅做學術分享,侵刪前言:本文章將通過pytorch作為主要工具實現不同的模型(包括HMM,CRF,Bi-LSTM,Bi-LSTM+CRF)來解決中文命名實體識別問題
  • 入門NLP 項目前,你必須掌握哪些理論知識?
    詞性標註(POS)4. 命名實體識別在大多數應用中,並不需要執行以上所有的預處理步驟。是否需要進行命名實體識別取決於應用的具體業務需求,而詞性標註工作則通常由現代工具自動完成,從而改進歸一化和分詞步驟的某些部分。
  • 基礎卻不簡單,命名實體識別的難點與現狀
    由於這些命名實體數量不斷增加,通常不可能在詞典中窮盡列出,且其構成方法具有各自的一些規律性,因而,通常把對這些詞的識別從詞彙形態處理(如漢語切分)任務中獨立處理,稱為命名實體識別。命名實體識別的研究主體一般包括3大類(實體類、時間類和數字類)和7小類(人名、地名、機構名、時間、日期、貨幣和百分比)命名實體。
  • NLP入門+實戰必讀:一文教會你最常見的10種自然語言處理技術
    命名實體消岐6. 命名實體識別7. 情感分析8. 文本語義相似分析9. 語種辨識10. 文本總結1.命名實體消歧什麼是命名實體消岐?命名實體消岐是對句子中的提到的實體識別的過程。例如,對句子「Apple earned a revenue of 200 Billion USD in 2016」,命名實體消岐會推斷出句子中的Apple是蘋果公司而不是指一種水果。
  • PTMs|2020最新NLP預訓練模型綜述
    「nlp領域的發展比cv領域相對緩慢的原因是什麼呢」?相比於cv領域,「nlp領域的劣勢在於有監督數據集大小非常小」(除了機器翻譯),導致深度學習模型容易過擬合,不能很好地泛化。但是相反,nlp領域的優勢在於,存在大量的無監督數據集,如果能夠充分利用這類數據進行訓練,那麼勢必能夠提升模型的能力以及在下遊任務中的表現。nlp中的預訓練模型就是這樣一類能夠在大規模語料上進行無監督訓練,學習得到通用的語言表徵,有助於解決下遊任務的nlp模型。「那麼什麼是好的語言表徵呢」?
  • 中文命名實體識別算法 Lattice LSTM
    中文命名實體識別 (NER) 算法按照輸入的類型,可以大致分為 Character-based (字符) 和 Word-based (單詞) 兩種。1.前言基於字符和基於單詞的 LSTM 模型如上圖所示,中文命名實體識別
  • 自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文
    >Penn Treebank6.對話第二對話狀態追蹤挑戰賽7.域適應多領域情感數據集8.語言建模Penn TreebankWikiText-29.機器翻譯WMT 2014 EN-DEWMT 2014 EN-FR10.多任務學習GLUE11.命名實體識別
  • 深度學習在NLP中的運用?從分詞、詞性到機器翻譯、對話系統
    圖 2:Word Embedding+Bi-LSTM+CRF 主要框架示意圖語法解析可以獲得句子的語法結構,例如,哪些單詞組合在一起(形成「短語」),哪些單詞是動詞的主題或對象。Syntactic Parsing 明確標出了詞與詞之間的短語結構,隱含了詞與詞之間的關係。
  • iPhone 名字中「S」和「R」到底是什麼意思?蘋果終於給了個解釋
    iPhone XS 和 XR 的名字打破了以往直接用數字命名的做法,其由來也引發各方猜測。近日,蘋果全球營銷高級副總裁菲爾 · 席勒(Phil Schiller)在接受 Engadget 採訪時,談到了他對「S」和「R」兩個字母的理解,他認為公司是借鑑了汽車行業的命名規則。
  • NLP:關係抽取到底在乎什麼
    An Empirical Study on Neural Relation Extraction》中,就「關係抽取到底在乎什麼」這一問題進行深入全面的探究,是難得的好文! Context+Type (C+T) :將實體mention用其實體類型Type代替,如上圖,「SpaceX」用「organization」代替,「Elon Musk」用「person」代替。 Only Context (OnlyC) :即只利用上下文信息,將實體mention用「subject」或「object」代替,通過這種方式可以將實體信息源完全阻擋。
  • UT Austin博士生沈彥堯:基於深度主動學習的命名實體識別 | 分享...
    「基於深度主動學習的命名實體識別 Deep Active Learning for Named Entity Recognition」而展開,關於該項目的論文「Deep Active Learning for Named Entity Recognition.
  • 中科院自動化所聯合實驗室獲CCKS2020醫療命名實體識別評測冠軍
    會上公布了CCKS-2020技術評測結果,雲知聲-中科院自動化所語言與知識計算聯合實驗室在「面向中文電子病歷的醫療命名實體識別評測任務」中獲得冠軍,並斬獲該任務唯一技術創新獎。CCKS由中國中文信息學會語言與知識計算專業委員會主辦,是知識圖譜、語義技術、連結數據等領域的核心會議。
  • 雲知聲-中科院自動化所聯合實驗室獲CCKS2020醫療命名實體識別評測...
    會上公布了CCKS-2020技術評測結果,雲知聲-中科院自動化所語言與知識計算聯合實驗室在「面向中文電子病歷的醫療命名實體識別評測任務」中獲得冠軍,並斬獲該任務唯一技術創新獎。CCKS由中國中文信息學會語言與知識計算專業委員會主辦,是知識圖譜、語義技術、連結數據等領域的核心會議。
  • NLP 新手必看!這是一份覆蓋全面的基於 PyTorch 和 keras 的 NLP...
    相信在人工智慧領域,沒有人不知道這三位,眾所周知,他們被稱為「深度學習三巨頭」。作為人工智慧領域「皇冠上的明珠」,NLP 技術在經歷了過去幾年的發展之後,證明了它落地的可行性,因此目前也是相當火爆。想必同學們也會經常在網上找一些好的學習資源。最近,小編在 github 上發現了一份基於 PyTorch 和 keras 的 NLP 學習教程。
  • UT Austin博士生沈彥堯:基於深度主動學習的命名實體識別 | 分享總結
    主動學習相關理論主動學習在深度學習中的前沿研究及方法主動學習在深度學習中的挑戰分享內容:本次分享基於本人去年在亞馬遜的實習項目「基於深度主動學習的命名實體識別Deep Active Learning for Named Entity Recognition」而展開,關於該項目的論文「Deep Active Learning for Named Entity Recognition.
  • 「不過是蜘蛛什麼的」衍生新作「蜘蛛子四姐妹的日常」開載了!
    「不過是蜘蛛什麼的」衍生新作「蜘蛛子四姐妹的日常」開載了! 動漫 178動漫原創 ▪ 2019-07-19 14:04:28 根據馬場翁原作小說「不過是蜘蛛什麼的」衍生而來的グラタン鳥的新連載「蜘蛛ですが、なにか