中文分詞最佳紀錄刷新,兩大模型分別解決中文分詞及詞性標註問題

2020-12-22 量子位

伊瓢 發自 中關村量子位 報導 | 公眾號 QbitAI

中文分詞的最佳效果又被刷新了。

在今年的ACL 2020上,來自創新工場大灣區人工智慧研究院的兩篇論文中的模型,刷新了這一領域的成績。

WMSeg,在MSR、PKU、AS、CityU、CTB6這5個數據集上的表現,均達了最好的成績。

另外,在詞性標註方面,TwASP模型同樣刷新了成績。

中文分詞的SOTA

中文分詞目的是在中文的字序列中插入分隔符,將其切分為詞。例如,「我喜歡音樂」將被切分為「我/喜歡/音樂」(「/」表示分隔符)。

中文語言因其特殊性,在分詞時面臨著兩個主要難點。一是歧義問題,由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。例如,「部分居民生活水平」,其正確的切分應為「部分/居民/生活/水平」,但存在「分居」、「民生」等歧義詞。「他從小學電腦技術」,正確的分詞是:他/從小/學/電腦技術,但也存在「小學」這種歧義詞。

二是未登錄詞問題。未登錄詞指的是不在詞表,或者是模型在訓練的過程中沒有遇見過的詞。例如經濟、醫療、科技等科學領域的專業術語或者社交媒體上的新詞,或者是人名。這類問題在跨領域分詞任務中尤其明顯。

對此,《Improving Chinese Word Segmentation with Wordhood Memory Networks》這篇論文提出了基於鍵-值記憶神經網絡的中文分詞模型。

該模型利用n元組(即一個由連續n個字組成的序列,比如「居民」是一個2元組,「生活水平」是一個4元組)提供的每個字的構詞能力,通過加(降)權重實現特定語境下的歧義消解。並通過非監督方法構建詞表,實現對特定領域的未標註文本的利用,進而提升對未登錄詞的識別。

例如,在「部分居民生活水平」這句話中,到底有多少可能成為詞的組塊?單字可成詞,如「民」;每兩個字的組合可能成詞,如「居民」;甚至四個字的組合也可能成詞,例如「居民生活」。

」 → 單字詞「居」 → 詞尾「民」→ 詞首「居生活」 → 詞中

把這些可能成詞的組合全部找到以後,加入到該分詞模型中。通過神經網絡,學習哪些詞對於最後完整表達句意的幫助更大,進而分配不同的權重。像「部分」、「居民」、「生活」、「水平」這些詞都會被突出出來,但「分居」、「民生」這些詞就會被降權處理,從而預測出正確的結果。

△ 鍵-值記憶神經網絡分詞模型

在「他從小學電腦技術」 這句話中,對於有歧義的部分「從小學」(有「從/小學」和「從小/學」兩種分法),該模型能夠對「從小」和「學」分配更高的權重,而對錯誤的n元組——「小學」分配較低的權重。

為了檢驗該模型的分詞效果,論文進行了嚴格的標準實驗和跨領域實驗。

實驗結果顯示,該模型在5個數據集(MSR、PKU、AS、CityU、CTB6)上的表現,均達了最好的成績。

創新工場大灣區人工智慧研究院執行院長宋彥表示,與前人的模型進行比較發現,該模型在所有數據集上的表現均超過了之前的工作,「把中文分詞領域廣泛使用的標準數據集上的性能全部刷到了新高。」

在跨領域實驗中,論文使用網絡博客數據集(CTB7)測試。實驗結果顯示,在整體F值以及未登陸詞的召回率上都有比較大提升。

跨領域分詞實驗(網絡博客測試集)的結果

解決「噪音」問題

《Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-way Attentions of Auto-analyzed Knowledge》論文提供了一種基於雙通道注意力機制的分詞及詞性標註模型。

中文分詞和詞性標註是兩個不同的任務。詞性標註是在已經切分好的文本中,給每一個詞標註其所屬的詞類,例如動詞、名詞、代詞、形容詞。詞性標註對後續的句子理解有重要的作用。

在詞性標註中,歧義仍然是個老大難的問題。例如,對於「他要向全班同學報告書上的內容」中,「報告書」的正確的切分和標註應為「報告_VV/書_N」。但由於「報告書」本身也是一個常見詞,一般的工具可能會將其標註為「報告書_NN」。

△ 利用句法知識進行正確的詞性標註

句法標註本身需要大量的時間和人力成本。在以往的標註工作中,使用外部自動工具獲取句法知識是主流方法。在這種情況下,如果模型不能識別並正確處理帶有雜音的句法知識,很可能會被不準確的句法知識誤導,做出錯誤的預測。

例如,在句子「他馬上功夫很好」中,「馬」和「上」應該分開(正確的標註應為「馬_NN/上_NN」)。但按照一般的句法知識,卻可能得到不準確的切分及句法關係,如「馬上」。

針對這一問題,該論文提出了一個基於雙通道注意力機制的分詞及詞性標註模型。該模型將中文分詞和詞性標註視作聯合任務,可一體化完成。模型分別對自動獲取的上下文特徵和句法知識加權,預測每個字的分詞和詞性標籤,不同的上下文特徵和句法知識在各自所屬的注意力通道內進行比較、加權,從而識別特定語境下不同上下文特徵和句法知識的貢獻。

這樣一來,那些不準確的,對模型預測貢獻小的上下文特徵和句法知識就能被識別出來,並被分配小的權重,從而避免模型被這些有噪音的信息誤導。

△ 基於「雙通道注意力機制」的分詞及詞性標註

即便在自動獲取的句法知識不準確的時候,該模型仍能有效識別並利用這種知識。例如,將前文有歧義、句法知識不準確的句子(「他馬上功夫很好」),輸入該雙通道注意力模型後,便得到了正確的分詞和詞性標註結果。

△ 分詞及詞性標註實例

為了測試該模型的性能,論文在一般領域和跨領域分別進行了實驗。

一般領域實驗結果顯示,該模型在5個數據集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的表現(F值)均超過前人的工作,也大幅度超過了史丹福大學的 CoreNLP 工具,和伯克利大學的句法分析器。

即使是在與CTB詞性標註規範不同的UD數據集中,該模型依然能吸收不同標註帶來的知識,並使用這種知識,得到更好的效果。

△ CTB5(CTB5是使用最多的中文分詞和詞性標註的數據集)結果

而在跨領域的實驗中,和史丹福大學的 CoreNLP 工具相比,該模型也有近10個百分點的提升。

△ 跨領域分詞實驗(對話測試集)的結果

創新工場出品

兩篇論文的第一作者,是華盛頓大學博士研究生、創新工場實習生田元賀。

他的老師創新工場大灣區人工智慧研究院執行院長、華盛頓大學客座教授宋彥,此前也是騰訊AI Lab專家(首席)研究員。

相關焦點

  • 中文分詞最佳記錄刷新了,兩大模型分別解決中文分詞及詞性標註問題...
    伊瓢 發自 中關村量子位 報導 | 公眾號 QbitAI中文分詞的最佳效果又被刷新了。在今年的ACL 2020上,來自創新工場大灣區人工智慧研究院的兩篇論文中的模型,刷新了這一領域的成績。
  • 創新工場提出中文分詞和詞性標註模型,性能分別刷新五大數據集
    同時,尤其在工業場景對分詞有非常直接的訴求,比如,雖然字模型對於各種字的編碼器能夠達到非常好的效果,但是依然無法達到效率和性能的平衡,而且在很多場景下,需要進行人工幹預及後處理。當前也沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。
  • 創新工場提出中文分詞和詞性標註新模型可提升工業應用效率
    13日,記者從創新工場獲悉,其最新提出了中文分詞和詞性標註模型,可將外部知識(信息)融入分詞及詞性標註模型,剔除了分詞「噪音」誤導,提升了分詞及詞性標註效果。在NLP中,中文分詞和詞性標註是中文自然語言處理的兩個基本任務,尤其在工業場景對分詞有非常直接的訴求,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。創新工場方面解釋,中文語言因其特殊性,在分詞時面臨著兩個主要難點。一是歧義問題,由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。
  • 創新工場提出中文分詞和詞性標註新模型 可提升工業應用效率
    DoNews7月13日消息(記者 翟繼茹)13日,記者從創新工場獲悉,其最新提出了中文分詞和詞性標註模型,可將外部知識(信息)融入分詞及詞性標註模型,剔除了分詞「噪音」誤導,提升了分詞及詞性標註效果。在NLP中,中文分詞和詞性標註是中文自然語言處理的兩個基本任務,尤其在工業場景對分詞有非常直接的訴求,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。創新工場方面解釋,中文語言因其特殊性,在分詞時面臨著兩個主要難點。一是歧義問題,由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。
  • 創新工場兩篇論文入選ACL2020 中文分詞和詞性標註新模型性能創新高
    這兩篇論文各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果,將該領域近年來廣泛使用的數據集上的分數全部刷至新高。
  • 中文分詞和詞性標註:為拓展工業場景應用夯基—新聞—科學網
    在7月5日-10日舉行的自然語言處理(NLP)領域頂級學術會議 ACL 2020上,來自創新工場大灣區人工智慧研究院的兩篇入選論文,正是針對中文自然語言處理的類似問題,各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果。
  • 聯合漢語分詞和依存句法分析的統一模型:當前效果最佳
    漢語 NLP 任務與英語不同,由於詞語缺乏明顯邊界,漢語需要先依次分詞、詞性標註,再進行依存句法分析。但這種模式的分析容易造成誤差傳播,而且這三個小任務之間的共享知識無法充分利用。對此,傳統的解決方案是採用基於轉換的聯合模型。但這些模型仍然具有不可避免的缺陷:特徵工程和巨大的搜索空間。因此,本文提出一種基於圖的統一模型來解決這些問題。
  • NLP 的詞性標註技術 Jieba
    本文主要來介紹 NLP 中的詞性標註。詞性是詞彙基本的語法屬性,通常也稱為詞類。詞性標註是在給定句子中,判定每個詞的語法範疇,確定其詞性並加以標註的過程。例如:「上海是一座富有活力的大都市。」,對其標註結果為:「上海/地名 是/動詞 一座/量詞 富有活力的/形容詞 大都市/名詞」。
  • 中文NLP的分詞真有必要嗎?李紀為團隊四項任務評測|ACL 2019
    【導讀】通常,中文文本處理的第一步稱為分詞,這好像已經成為一種「共識」,但對其必要性的研究與探討很少看到。本文中,作者就提出了一個非常基礎的問題:基於深度學習方法的自然語言處理過程中,中文分詞(CWS)是必要的嗎?
  • 自然語言處理中「中文分詞」技術中「自動切分」的幾點理解
    ,一套完整而標準的漢語分詞規範就顯得特別重要,隨著近幾十年的發展,已經逐漸形成兩套常用且較為規範的語言處理規範,本文主要針對其中最常用的一套《北大規範》為依據,來講解中文詞彙自動切分的幾個重點流程。所有的句子都是通過不同的詞類組成,下面就為大家講解一下中文分詞的幾個流程歧義現代漢語的複音詞結構,使少量的的字符通過排列組合來表示大量的詞彙,最容易出現的問題是歧義問題,歧義問題在漢語中普遍存在,因此在中文如何消除歧義問題是中文分詞重點解決的問題,簡單給大家大家舉個例子:「結合成」這個詞,在分詞過程中就有多種分詞情況,如:「結合」「成」或「結」「合成」兩種,
  • 基於百度LAC2.0的詞雲圖生成——各大分詞工具實戰比較
    1.前言詞法分析是自然語言處理的基本工具,主要包括分詞、詞性標註和實體識別等功能。目前各類詞法分析工具大行其道,有免費開源的,也有商業收費的;有高校研發的,也有企業開發的;有支持Java的,也有支持Python的,甚至還有支持安卓平臺的。
  • 自然語言處理之詞性標註
    中文詞性標註的難點 在長時間對於詞性標註的研究中,相關研究人員發現與英文相比,中文詞性標註主要有以下幾類難點: 1.缺乏直接判斷的依據 漢語是一種缺乏詞形態變化的語言,詞的類別不能直接從詞的形態變化上來判別。
  • 復旦邱錫鵬團隊最新成果fastHan:基於BERT的中文NLP集成工具
    簡介fastHan 是基於 fastNLP 與 PyTorch 實現的中文自然語言處理工具,像 spacy 一樣調用方便。其內核為基於 BERT 的聯合模型,其在 13 個語料庫中進行訓練,可處理中文分詞、詞性標註、依存句法分析、命名實體識別四項任務。
  • 專欄| 中文NLP難於英文?從語言學角度看中文NLP、NLU難在哪裡
    作者:竹間智能自然語言與深度學習小組長期以來,中文自然語言處理(NLP)的研究遭遇瓶頸,其中一個重要原因就是中文的語言學基本無法遷移到已有的成熟的深度學習模型中,這也是中文 NLP 難於英文的重要原因之一。而竹間智能在自然語言處理的研究中,結合深度學習、語言學和心理學等,通過 NLU 來彌補傳統中文 NLP 在語言理解上的不足,取得了不錯的成果。
  • 我知道你不知道,百度開源詞法LAC 2.0幫你更懂中文
    LAC是什麼LAC全稱Lexical Analysis of Chinese,是百度NLP(自然語言處理部)研發的一款詞法分析工具,可實現中文分詞、詞性標註、專名識別等功能。LAC在分詞、詞性、專名識別的整體準確率超過90%,以專名識別為例,其效果要比同類詞法分析工具提升10%以上。例如:我知道你不知道,百度開源詞法LAC幫你更懂中文!
  • 中文處理工具包 FoolNLTK 發布序列標註訓練代碼
    FoolNLTK之前發布了分詞等功能,但很多場景需要自定義模型,現發布訓練代碼,只需要準備好訓練數據,其他交給工具完成。 另外修改了之前用戶詞典合併局部出現的 Bug。
  • 機器如何理解語言:從中文NLP碼農到中文NLU世界
    那麼,自然語言的搜索空間跟棋盤相比又如何呢?與英文相比,中文語言更複雜。亞洲語言的結構與西歐語言不一樣,西歐語言通過字母的組合產生意義,字母本身不會負載任何固定的意義,將字母排列組合後才產生意義,其意義來自於排列規則。而中文的數量太大,且意義可以根據上下文而變化。中文每個字又都是一個圖,可以通過字形、字音、與其它字的組合擁有全新的意義。
  • 語言模型上
    3.1 詞性標註詞性標註是一個典型的多分類問題。常見的詞性包括名詞、動詞、形容詞、副詞等。而一個詞可能屬於多種詞性。如「愛」,可能是動詞,可能是形容詞,也可能是名詞。但是一般來說,「愛」作為動詞還是比較常見的。所以可以統一給「愛」分配為「動詞」。
  • 最新中文NLP開源工具箱來了!支持6大任務,面向工業應用|資源
    在這個基於百度深度學習平臺飛槳(PaddlePaddle)開發的工具箱裡,裝有大量工業級中文NLP開源工具與預訓練模型。這個工具箱裡的工具全面,共支持的6大NLP任務,包括文本分類、文本匹配、序列標註、文本生成、語義表示與語言模型和其他複雜任務等。除了全面,PaddleNLP的效果也還不錯。
  • 分詞的「前世今生」——過去分詞、現在分詞
    簡單地說,這意味著分詞看起來像動詞(running),但在句子中可能有不同的作用:the running water自來水。這個分詞是描述水的,起形容詞的作用。分詞的兩種主要類型是現在分詞和過去分詞。什麼是現在分詞?動詞的基本形式加-ing構成現在分詞。