中文命名實體識別算法 Lattice LSTM

2020-12-05 NLP學習筆記

中文命名實體識別 (NER) 算法按照輸入的類型,可以大致分為 Character-based (字符) 和 Word-based (單詞) 兩種。這兩種方法都存在一些缺陷,Character-based 不能利用詞彙和詞彙序列信息;Word-based 需要分詞,分詞的錯誤會對 NER 結果產生較大影響。因此新加坡的研究者在 2018 年提出了一種 Lattice LSTM 的算法,可以利用詞彙信息,也可以避免分詞錯誤對模型的影響。

1.前言

基於字符和基於單詞的 LSTM 模型

如上圖所示,中文命名實體識別 NER 主要有 Character-based (基於字符) 方法和 Word-based (基於單詞) 方法:基於單詞的方法首先會利用分詞模型對句子分詞,然後把分好的單詞序列傳遞到 NER 模型中預測實體。基於字符的方法不對句子分詞,每一個 token 就是一個漢字,直接將 token 序列傳遞到 NER 模型預測實體。但是這兩種方法都存在一些問題:

基於字符的方法不能利用詞彙和詞彙序列的信息,而這些信息對於實體識別通常很重要。基於單詞的方法需要經過分詞模型和 NER 模型,分詞中產生的錯誤會傳遞到 NER 模型中。這種分詞邊界的錯誤會導致 NER 模型出錯,這種情況在開放領域的 NER 任務中尤其嚴重。基於上面的原因,新加坡的研究人員於 2018 年提出了 Lattice LSTM 模型,論文《Chinese NER Using Lattice LSTM》。Lattice LSTM 會利用詞典匹配句子中的單詞,然後構造出字符和單詞的網格 (Lattice)。Lattice LSTM 的神經元會同時接收字符和單詞的信息,自動選擇合適的字符或單詞,實現消除歧義的功能,如下圖所示。

單詞-字符 Lattice

2.Lattice LSTM

Lattice LSTM 結構圖

上圖展示了 Lattice LSTM 的結構,可以看成是 Char-LSTM 的擴展版。Lattice LSTM 在 Char-LSTM 的基礎上增加了 word-base cell 和額外的門結構,用於控制和選擇信息流。

Lattice LSTM 用到的一些數學符號如下圖所示:

Lattice LSTM 數學符號

我們首先看一下傳統 Char-LSTM 的計算公式,對於 LSTM 不熟悉的童鞋可以參考之前的文章循環神經網絡 RNN、LSTM、GRU。Char-LSTM 輸出主要包括 cell state c和 hidden state h,計算公式如下:

傳統 Char-LSTM 計算公式

上面是 Char-LSTM 的計算公式,Lattice LSTM 在這基礎上增加了 word-base cell,用於計算單詞子序列的 cell state c。下面的圖展示了 word-base cell 的結構:

Lattice LSTM 細節圖

Word-base cell 計算公式如下,生成一個包含單詞信息的 cell state:

word-base cell 計算 cell state

在上式中,word-base cell 是不包括輸出門向量的,因為 Lattice LSTM 只在 Char-LSTM 上輸出。得到 word-base 的 cell state 後,Lattice 需要融合到 Char-LSTM 的 cell state 上,這一過程需要增加一個輸入門向量,並且要對輸入門向量進行歸一化,如下所示:

輸入門向量歸一化

最終 Lattice LSTM 得到第 j 個字符的 cell state 如下:

Lattice LSTM cell state 計算

Lattice LSTM 的 hidden state h計算公式和 Char-LSTM 是一樣的,最終把 h 傳遞到 CRF 層即可進行命名實體識別。

3.總結

Lattice LSTM 優點:

可以同時利用中文字符和單詞的信息,通過增加 word-base cell 和控制門,對字符和單詞的信息進行選擇,消除歧義。Lattice LSTM 缺點:

因為字符之間增加單詞節點的個數是不同的,因此 Lattice LSTM 不支持 batch 訓練。如果句子中匹配的單詞過多,會導致 Lattice LSTM 效果變差 (可能會退化成為基於單詞的 LSTM),受到分詞錯誤的影響。4.參考文獻

Chinese NER Using Lattice LSTM

相關焦點

  • 利用Lattice LSTM的最優中文命名實體識別方法
    作者:Yue Zhang、Jie Yang機器之心編譯參與:路、王淑婷近日,來自新加坡科技設計大學的研究者在 arXiv 上發布了一篇論文,介紹了一種新型中文命名實體識別方法與基於字符的方法相比,該模型顯性地利用詞和詞序信息;與基於詞的方法相比,lattice LSTM 不會出現分詞錯誤。這篇論文已被 ACL 2018 接收。作為信息抽取的一項基本任務,命名實體識別(NER)近年來一直受到研究人員的關注。該任務一直被作為序列標註問題來解決,其中實體邊界和類別標籤被聯合預測。
  • NLP實戰-中文命名實體識別
    並星標,更多乾貨,第一時間送達來源:知乎    原文:見文末閱讀原文    作者:MaggicQ編輯整理:python遇見NLP(公眾號)僅做學術分享,侵刪前言:本文章將通過pytorch作為主要工具實現不同的模型(包括HMM,CRF,Bi-LSTM,Bi-LSTM+CRF)來解決中文命名實體識別問題
  • 【NLP基礎】信息抽取(Information Extraction:NER(命名實體識別),關係抽取)
    命名實體識別(NER)的任務是找到文本中提到的每個命名實體,並標記其類型。構成命名實體類型的是特定於任務的;人員、地點和組織是常見的。一旦提取了文本中的所有命名實體,就可以將它們連結到與實際實體相對應的集合中。關係抽取:發現和分類文本實體之間的語義關係。這些關係通常是二元關係,如子女關係、就業關係、部分-整體關係和地理空間關係。
  • 基礎卻不簡單,命名實體識別的難點與現狀
    評判一個命名實體是否被正確識別包括兩個方面:實體的邊界是否正確;實體的類型是否標註正確。從語言分析的全過程來看, 命名實體識別屬於詞法分析中未登錄詞識別的範疇。命名實體識別是未登錄詞中數量最多、識別難度最大、對分詞效果影響最大的問題,同時它也是信息抽取、信息檢索、機器翻譯、問答系統等多種自然語言處理技術必不可少的組成部分。
  • 多因子融合的實體識別與鏈指消歧
    本文的研究對象是「面向中文短文本的實體鏈指任務」,該任務擁有9萬條語句用於做實體識別和實體消歧。相應論文在該評測中獲得top3。全國知識圖譜與語義計算大會(CCKS)每年都會舉辦一些競賽評測。CCKS系列評測旨在為研究人員提供測試知識圖譜與語義計算技術、算法、及系統的平臺和資源,促進國內知識圖譜領域的技術發展,以及學術成果與產業需求的融合和對接。
  • 「NLP-NER」什麼是命名實體識別?
    命名實體識別(Named Entity Recognition,NER)是NLP中一項非常基礎的任務。NER是信息提取、問答系統、句法分析、機器翻譯等眾多NLP任務的重要基礎工具。命名實體識別的準確度,決定了下遊任務的效果,是NLP中非常重要的一個基礎問題。作者&編輯 | 小Dream哥1 命名實體識別是什麼?
  • 中科院自動化所聯合實驗室獲CCKS2020醫療命名實體識別評測冠軍
    會上公布了CCKS-2020技術評測結果,雲知聲-中科院自動化所語言與知識計算聯合實驗室在「面向中文電子病歷的醫療命名實體識別評測任務」中獲得冠軍,並斬獲該任務唯一技術創新獎。CCKS由中國中文信息學會語言與知識計算專業委員會主辦,是知識圖譜、語義技術、連結數據等領域的核心會議。
  • 雲知聲-中科院自動化所聯合實驗室獲CCKS2020醫療命名實體識別評測...
    會上公布了CCKS-2020技術評測結果,雲知聲-中科院自動化所語言與知識計算聯合實驗室在「面向中文電子病歷的醫療命名實體識別評測任務」中獲得冠軍,並斬獲該任務唯一技術創新獎。CCKS由中國中文信息學會語言與知識計算專業委員會主辦,是知識圖譜、語義技術、連結數據等領域的核心會議。
  • 中文NER的正確打開方式: 詞彙增強方法總結 (從Lattice LSTM到FLAT)
    究其緣由,由於中文分詞存在誤差,基於字符的NER系統通常好於基於詞彙(經過分詞)的方法。而引入詞彙信息(詞彙增強)的方法,通常能夠有效提升中文NER性能。特別是在一些中文NER任務上,詞彙增強的方法會好於或逼近BERT的性能。因此,關注「詞彙增強」方法在中文NER任務很有必要。2、「詞彙增強」的主要方法有哪些?
  • UT Austin博士生沈彥堯:基於深度主動學習的命名實體識別 | 分享...
    主動學習的背景介紹及研究意義主動學習相關理論主動學習在深度學習中的前沿研究及方法主動學習在深度學習中的挑戰分享內容:本次分享基於本人去年在亞馬遜的實習項目「基於深度主動學習的命名實體識別這就引出了去年在亞馬遜的實習項目「利用深度主動學習進行命名實體識別(Named Enity Recognition, NER)」。在這個項目中,我們需要在一個序列標記任務中來驗證深度主動學習的好處。NER 問題的一個應用場景是:給出亞馬遜用戶的一段評論,利用深度學習模型自動識別出代表人、組織、地點、時間等等多類具有實體名詞意義的詞彙。
  • LMX03LF-6900C_lattice是什麼意思中文翻譯
    LMX03LF-6900C_lattice是什麼意思中文翻譯本文導讀:只能使用目標客戶開發、籤名和加密的配置位流進行編程。儘管我在文中多次提及構成雲端數據中心的大型,但是PFR在通信、工業、汽車以及客戶端計算機和網絡邊緣設備等各領域的部署必將是大勢所趨。這意味著每個開發人員都要在不久的將來面臨解決安全問題的考驗。
  • 專欄| NLP概述和文本自動分類算法詳解
    同步的序列到序列的例子包括中文分詞,命名實體識別和詞性標註。一部的序列到序列包括機器翻譯和自動摘要。序列到類別的例子包括文本分類和情感分析。類別(對象)到序列的例子包括文本生成和形象描述。 2.序列標註應用:中文分詞 同步的序列到序列,其實就是序列標註問題,應該說是自然語言處理中最常見的問題。序列標註的應用包括中文分詞、命名實體識別和詞性標註等。序列標註問題的輸入是一個觀測序列,輸出的是一個標記序列或狀態序列。
  • 今日Paper | 梯度剪切;命名實體識別;自然語言處理;免強度函數學習...
    完成命名實體識別的雙向LSTM+CRF結構完成命名實體識別的神經網絡結構自然語言處理(幾乎)從頭開始免強度函數學習的時間點過程論文名稱:Why Gradient Clipping Accelerates Training:
  • UT Austin博士生沈彥堯:基於深度主動學習的命名實體識別 | 分享總結
    >主動學習相關理論主動學習在深度學習中的前沿研究及方法主動學習在深度學習中的挑戰分享內容:本次分享基於本人去年在亞馬遜的實習項目「基於深度主動學習的命名實體識別這就引出了去年在亞馬遜的實習項目「利用深度主動學習進行命名實體識別(Named Enity Recognition, NER)」。在這個項目中,我們需要在一個序列標記任務中來驗證深度主動學習的好處。
  • 每天調用達80億次的小米MiNLP平臺,近期又開源了中文分詞功能
    分詞效果好不好對信息檢索、實驗結果影響很大,同時分詞的背後涉及各種各樣的算法實現。就中、英文而言,中文分詞與英文分詞有很大的不同,對英文而言,詞與詞之間都有空格隔開,一個單詞就是一個詞,而漢語是以字為基本的書寫單位,詞語之間沒有明顯的區分標記,需要人為切分。
  • Lattice:聚焦網絡邊緣計算的差異化市場
    雖然買賣不成,但lattice發展的腳步還是要繼續邁進。根據其最新的動態來看,lattice瞄準了網絡邊緣這一逐漸興起的領域。本文引用地址:http://www.eepw.com.cn/article/201711/371271.htm  目前的網絡中已經有64億臺設備連接,此外還新增了550萬臺新設備,因此物聯網的興起需要採用新的處理和分析需求的方法。
  • PyTorch:Bi-LSTM的文本生成
    = nn.LSTMCell(self.hidden_dim, self.hidden_dim) self.lstm_cell_backward = nn.LSTMCell(self.hidden_dim, self.hidden_dim) # LSTM 層 self.lstm_cell = nn.LSTMCell(self.hidden_dim * 2,
  • 語音識別第一課:基於Tensorflow的端到端語音識別技術
    雖然當下關於如何搭建基礎機器學習系統的文獻或資料有很多,但是大部分都是圍繞計算機視覺和自然語言處理展開的,極少有文章就語音識別展開介紹。本文旨在填補這一空缺,幫助初學者降低入門難度,提高學習自信。音頻預處理搭建語音識別系統,首先需要將音頻轉換為特徵矩陣,並輸入到神經網絡中。完成這一步的簡單方法就是創建頻譜圖。
  • 海量新聞信息處理中的中文分詞算法研究
    但是我們知道,分析中文的信息,除了要有良好的數據處理能力,還有一個非常重要的方面就是中文的自然語言處理能力。 我們知道,基於網絡輿情監控風險評估系統的算法是基於WEB文本挖掘一些基本的模型與算法:如TF-IDF模型,關聯規則的Apriori算法,監督學習中SVM算法等等。