中文分詞和詞性標註:為拓展工業場景應用夯基—新聞—科學網

2020-12-05 科學網

 

「部分居民生活水平」這樣簡單的中文短語,人類理解起來沒有絲毫困難。但把這一短語交給機器,是理解成「部分/居民/生活/水平」,還是「部/分居/民生/活水/平」,卻著實是個問題。

在7月5日-10日舉行的自然語言處理(NLP)領域頂級學術會議 ACL 2020上,來自創新工場大灣區人工智慧研究院的兩篇入選論文,正是針對中文自然語言處理的類似問題,各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果。

「中文的分詞和詞性標註是自然語言處理的基本任務,對於後續的應用和任務處理非常重要。」兩篇論文的作者之一、創新工場大灣區人工智慧研究院執行院長宋彥告訴《中國科學報》,對於文本分類、情感分析、文本摘要、機器翻譯等,分詞和詞性標註是不可或缺的基本「元件」。

記憶神經網絡刷新中文分詞新高度

宋彥介紹,在工業場景中,對中文的分詞和詞性標註有非常直接的訴求,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。

中文分詞目的是在中文語句的字序列中插入分隔符,將其切分為詞。例如,「我喜歡音樂」,在機器中將被切分為「我/喜歡/音樂」。

然而,中文語言因其特殊性,在分詞時面臨著兩個主要難點。一是歧義問題,一是未登錄詞問題。

「由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。」宋彥說。例如機器對前文「部分居民生活水平」的理解;再如「他從小學電腦」,正確的分詞是「他/從小/學/電腦」,但在機器裡會劃分出「小學」這種歧義詞。

未登錄詞指的是不在詞表,或者是模型在訓練的過程中沒有遇見過的詞,例如經濟、醫療、科技等領域的專業術語或者社交媒體上的新詞,或者是人名。「這類問題在跨領域分詞任務中尤其明顯。」宋彥表示。

在論文中,宋彥等人提出了「基於鍵-值記憶神經網絡的中文分詞模型」。該模型利用「n元組」提供的每個字的構詞能力,通過加(降)權重實現特定語境下的歧義消解,並通過非監督方法構建詞表,實現對特定領域的未標註文本的利用,進而提升對未登錄詞的識別。

在「部分居民生活水平」這句話中,該模型通過神經網絡,學習哪些詞對於最後完整表達句意的幫助更大,進而分配不同的權重。像「部分」、「居民」、「生活」、「水平」這些詞都會被突出,但「分居」、「民生」這些詞會被降權處理,從而預測出正確的結果。

為了檢驗該模型的分詞效果,論文進行了嚴格的標準實驗和跨領域實驗。實驗結果顯示,該模型在5個數據集上均達了最好的成績。

「雙通道注意力機制」有效剔除「噪音」誤導

宋彥指出,中文分詞和詞性標註是兩個不同的任務。詞性標註是在已經切分好的文本中,給每一個詞標註其所屬的詞類,例如動詞、名詞、代詞、形容詞。詞性標註對後續的句子理解有重要的作用。

在詞性標註中,歧義仍然是個老大難的問題。在以往的標註工作中,使用外部自動工具獲取句法知識是主流方法。在這種情況下,如果模型不能識別並正確處理帶有「雜音」的句法知識,很可能會被不準確的句法知識誤導,做出錯誤的預測。

針對這一問題,宋彥等人在論文中提出了一個「基於雙通道注意力機制的分詞及詞性標註模型」。該模型將中文分詞和詞性標註視作聯合任務,可一體化完成。

模型分別對自動獲取的上下文特徵和句法知識加權,預測每個字的分詞和詞性標籤,不同的上下文特徵和句法知識在各自所屬的注意力通道內進行比較、加權,從而識別特定語境下不同上下文特徵和句法知識的貢獻。

例如對「他馬上功夫很好」這句話,該模型通過識別該句話的語境和上下文特徵,對「馬上」二字進行分開識別成「馬/上」,而不是識別成「馬上」。

「這樣一來,那些不準確的、對模型預測貢獻小的上下文特徵和句法知識就能被識別出來,並被分配小的權重,從而避免模型被這些有『噪音』的信息誤導。」宋彥說。

該模型在5個數據集的表現也都超過前人的工作,得到了較好的效果。

推動中文分詞和詞性標註技術開源

據了解,中文分詞在中國科研領域已經有幾十年的歷史。最初的中文分詞是基於詞典構建,詞典的好壞會直接影響到最後分析的效果。如果某個新詞在詞典裡沒有,那麼模型是死活都分不出來的。

「這意味著,詞典和分詞兩件事情中間始終有一條鴻溝,儘管詞典可以編撰得非常全面,但在分詞的時候,因為每一句話都有上下文語境,往往會產生多種不同的切分方法,從而無法有效地在當前語境下對分詞結構進行恰當的指導。」宋彥說。

從2003年開始,分詞方法出現了新的突破。研究人員提出了打標籤的方式,通過給每一個字打詞首、詞尾、詞中的標籤,不再需要構建詞典,大幅度提升了未登錄詞的機器理解效果。

2014年左右,深度學習和神經網絡開始被廣泛應用到中文分詞中,打標籤的模型從之前的淺層學習變成了深度學習,但算法本質沒有發生變化,所以提升作用並不太大。

近兩年,學界開始研究怎麼在打標籤的過程中加入外部知識和信息。「我們的兩篇文章就是沿著這個路徑,用記憶神經網絡的方式記錄對分詞結果有影響的n元組,並引入對詞性標註有影響的句法知識,將分詞結果和自動獲得的知識銜接起來,既發揮了神經網絡的優勢,也把知識的優勢用上,實現了分詞技術上小而有效的改進和突破。」宋彥說。

宋彥表示,做此項研究的目的是主要為了拓展其工業場景的應用,正確的分詞能夠平衡應用開發的效率和性能,同時方便人工幹預及(預)後處理。

而這也是創新工場人工智慧工程院的努力方向之一。據悉,創新工場AI工程院成立於2016年,旨在銜接科技創新和行業賦能,做嫁接科研和產業應用的橋梁,為行業改造業務流程、提升業務效率。

AI工程院下設北京總部、南京研究院和大灣區研究院。在大灣區研究院,下設信息感知和理解實驗室,專注於對自然語言處理(NLP)領域的研究。宋彥本人也有超過15年的NLP領域的科研經驗。

目前,這兩篇論文的分詞和詞性標註工具都已經開源,對應的代碼和模型向公眾開放,以方便學者提升相關領域科研效率和場景應用。

相關論文信息:https://www.aclweb.org/anthology/2020.acl-main.734/

https://www.aclweb.org/anthology/2020.acl-main.735/

 

版權聲明:凡本網註明「來源:中國科學報、科學網、科學新聞雜誌」的所有作品,網站轉載,請在正文上方註明來源和作者,且不得對內容作實質性改動;微信公眾號、頭條號等新媒體平臺,轉載請聯繫授權。郵箱:shouquan@stimes.cn。

相關焦點

  • 科學網—幫機器學會中文分詞和詞性標註
    ■本報記者 鄭金武
  • 創新工場提出中文分詞和詞性標註新模型 可提升工業應用效率
    DoNews7月13日消息(記者 翟繼茹)13日,記者從創新工場獲悉,其最新提出了中文分詞和詞性標註模型,可將外部知識(信息)融入分詞及詞性標註模型,剔除了分詞「噪音」誤導,提升了分詞及詞性標註效果。
  • 創新工場提出中文分詞和詞性標註模型,性能分別刷新五大數據集
    同時,尤其在工業場景對分詞有非常直接的訴求,比如,雖然字模型對於各種字的編碼器能夠達到非常好的效果,但是依然無法達到效率和性能的平衡,而且在很多場景下,需要進行人工幹預及後處理。當前也沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。
  • 創新工場兩篇論文入選ACL2020 中文分詞和詞性標註新模型性能創新高
    這兩篇論文各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果,將該領域近年來廣泛使用的數據集上的分數全部刷至新高。今天,創新工場大灣區人工智慧研究院執行院長宋彥向媒體分享了這兩篇入選論文的研究內容。
  • 中文分詞最佳紀錄刷新,兩大模型分別解決中文分詞及詞性標註問題
    另外,在詞性標註方面,TwASP模型同樣刷新了成績。中文分詞的SOTA中文分詞目的是在中文的字序列中插入分隔符,將其切分為詞。例如,「我喜歡音樂」將被切分為「我/喜歡/音樂」(「/」表示分隔符)。中文語言因其特殊性,在分詞時面臨著兩個主要難點。一是歧義問題,由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。例如,「部分居民生活水平」,其正確的切分應為「部分/居民/生活/水平」,但存在「分居」、「民生」等歧義詞。「他從小學電腦技術」,正確的分詞是:他/從小/學/電腦技術,但也存在「小學」這種歧義詞。
  • 創新工場兩篇論文入選ACL 2020,將中文分詞數據刷至新高
    這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各數據集上的分數全部刷至新高,在工業中也有著可觀的應用前景。,尤其在工業場景對分詞有非常直接的訴求,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。
  • 海量新聞信息處理中的中文分詞算法研究
    然而這些算法能用於中文文本挖掘的先決條件就是有一個良好中文的分詞模塊,所以中文分詞作為風險評估,網絡輿情的基礎工具,角色十分重要。 眾所周知,中文與英文書寫方面的最大不同在於,英文以詞為單位,而且每個詞之間有空格隔開,所以英文分詞非常簡單。但是中文是以字為單位,詞與詞之間無空格,所以中文分詞要有自己獨立的一套方法。
  • 創新工場兩篇論文入選頂會ACL2020,將中文分詞性能刷出新高度
    兩篇技術論文均聚焦在中文分詞和詞性標註領域,將該領域近年來廣泛使用的各數據集上的分數全部刷至新高,取得的研究突破對於工業界來說有著十分可觀的應用前景。兩篇文章的作者包括華盛頓大學博士研究生、創新工場實習生田元賀,創新工場大灣區人工智慧研究院執行院長宋彥,創新工場科研合伙人張潼,創新工場 CTO 兼人工智慧工程院執行院長王詠剛等人。
  • 「八鬥之才」HMM模型在地址分詞中的應用
    HMM是自然語言處理中的一個基本模型,用途比較廣泛,如漢語分詞、詞性標註及語音識別等,在NLP中佔有很重要的地位。我們將以一個關於天氣和吃飯的例子來說明HMM模型。HMM模型不僅可以用於解決上面的反推天氣序列的問題,還可以解決其他問題,如語音識別,詞性標註等,在此我們以詞性標註為例,說明HMM模型在詞性標註上的應用。
  • 中文分詞新模型幫它進步
    據研究人員介紹,分詞及詞性標註是中文自然語言處理的基本任務,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。基於此,兩篇論文各自提出了鍵-值記憶神經網絡的中文分詞模型和基於雙通道注意力機制的分詞及詞性標註模型,將外部知識(信息)融入分詞及詞性標註模型,剔除了分詞「噪音」誤導,提升了分詞及詞性標註效果。
  • 每天調用達80億次的小米MiNLP平臺,近期又開源了中文分詞功能
    在語料預處理階段,分詞作為其中一個環節,其作用也是非常重要,但也受不同語言的限制,因而採取的方法有所不同,如中文和英文。中文分詞是將一個漢字序列進行切分,得到一個個單獨的詞,如「我住在朝陽區」,分詞後的結果為「我 / 住在 / 朝陽區」。如果分詞效果不好的話,可能會出現其他情況,比較極端的結果是全部分錯「我住 / 在朝 / 陽區」。
  • 從分詞、詞性到機器翻譯、對話系統
    本文將基於竹間智能的一些經驗和探索,從分詞、詞性等基礎模塊,到機器翻譯、知識問答等領域,列舉並分析一些深度學習在 NLP 領域的具體運用,希望對大家研究深度學習和 NLP 有所幫助。事實上,從分詞、詞性、語法解析、信息抽取等基礎模塊,到自然語言生成、機器翻譯、對話管理、知識問答等高層的 NLP 領域,幾乎都可以應用以 CNN、RNN 為代表的深度學習模型,且確實能夠取得不錯的效果。深度學習模型有效降低了語言模型輸入特徵的維度,降低了輸入層的複雜性。另外,深度學習模型具有其他淺層模型不能比擬的靈活性。
  • 簡單有效的多標準中文分詞
    本文介紹一種簡潔優雅的多標準中文分詞方案,可聯合多個不同標準的語料庫訓練單個模型,同時輸出多標準的分詞結果。通過不同語料庫之間的遷移學習提升模型的性能,在10個語料庫上的聯合試驗結果優於絕大部分單獨訓練的模型。模型參數和超參數全部共享,複雜度不隨語料庫種類增長。
  • 最新中文NLP開源工具箱來了!支持6大任務,面向工業應用|資源
    為此,可以通過基於深度學習的語義模型和大規模數據挖掘解決上述兩個問題。百度研發的中文特色情感傾向分析模型(Sentiment Classification,簡稱Senta)針對帶有主觀描述的中文文本,可自動判斷該文本的情感極性類別並給出相應的置信度。情感類型分為積極、消極。情感傾向分析能夠幫助企業理解用戶消費習慣、分析熱點話題和危機輿情監控,為企業提供有利的決策支持。
  • 聯合漢語分詞和依存句法分析的統一模型:當前效果最佳
    漢語 NLP 任務與英語不同,由於詞語缺乏明顯邊界,漢語需要先依次分詞、詞性標註,再進行依存句法分析。但這種模式的分析容易造成誤差傳播,而且這三個小任務之間的共享知識無法充分利用。對此,傳統的解決方案是採用基於轉換的聯合模型。但這些模型仍然具有不可避免的缺陷:特徵工程和巨大的搜索空間。
  • Hanlp分詞之CRF中文詞法分析詳解
    中文分詞訓練CRFSegmenter segmenter = new CRFSegmenter(null);segmenter.train("data/test/pku98/199801.txt", CWS_MODEL_PATH);輸出為HanLP私有的二進位模型,有興趣的話還可以通過命令導出為兼容CRF++的純文本格式。
  • 專欄| 中文NLP難於英文?從語言學角度看中文NLP、NLU難在哪裡
    在此和大家分享一些竹間智能在中文自然語言交互研究中的經驗和思考。本文結合語言學和 NLP 的幾個基本任務,從理論上對中文 NLP 的特點進行說明,同時展望 NLU 在中文自然語言交互上的一些方向。1.中文分詞詞是最小的能夠獨立運用的語言單位。「詞」這個概念,是從西方引入的,在 1898 年《馬氏文通》出版之前,傳統的語言學研究對象是「字」,而不是「詞」。
  • 一篇文章教你用隱馬爾科夫模型實現中文分詞
    我們從如何進行中文分詞的角度來理解HMM根據可觀察狀態的序列找到一個最可能的隱藏狀態序列中文分詞,就是給一個漢語句子作為輸入,以「BEMS」組成的序列串作為輸出,然後再進行切詞,進而得到輸入句子的劃分。其中,B代表該字是詞語中的起始字,M代表是詞語中的中間字,E代表是詞語中的結束字,S則代表是單字成詞。
  • 木質素基可降解塑料 助力解決「白色汙染」—新聞—科學網
    而這些生物降解垃圾袋的技術正是來源於北京林業大學林木分子設計育種高精尖創新中心和林木生物質化學北京市重點實驗室教授袁同琦團隊的科研成果。 塑料製品大多不可降解且難以回收,隨著使用量的逐年增加,已成為「白色汙染」的主要源頭。尋求綠色環保的可降解生物基材料,以替代石油基塑料至關重要。
  • Gse v0.30.0 發布, Go 高性能分詞, 增加 hmm 支持
    Go 語言高效分詞, 支持英文、中文、日文等詞典用雙數組 trie(Double-Array Trie)實現, 分詞器算法為基於詞頻的最短路徑加動態規劃。