準確率創新高,北大開源中文分詞工具包 pkuseg

2020-12-13 開源中國

北京大學近日開源了一個全新的中文分詞工具包 pkuseg ,相比於現有的同類開源工具,pkuseg 大幅提高了分詞的準確率。

pkuseg 由北大語言計算與機器學習研究組研製推出,具備如下特性:

  1. 高分詞準確率。相比於其他的分詞工具包,pkuseg 在不同領域的數據上都大幅提高了分詞的準確度。根據項目文檔給出的測試結果,pkuseg 分別在示例數據集( MSRA 和 CTB8 )上降低了 79.33% 和 63.67% 的分詞錯誤率。

  2. 多領域分詞。研究組訓練了多種不同領域的分詞模型。根據待分詞的領域特點,用戶可以自由地選擇不同的模型。

  3. 支持用戶自訓練模型。支持用戶使用全新的標註數據進行訓練。

性能對比

在 Linux 環境下,各工具在新聞數據 (MSRA) 和混合型文本 (CTB8) 數據上的準確率測試情況如下:

預訓練模型

分詞模式下,用戶需要加載預訓練好的模型。我們提供了三種在不同類型數據上訓練得到的模型,根據具體需要,用戶可以選擇不同的預訓練模型。以下是對預訓練模型的說明:

MSRA : 在 MSRA(新聞語料)上訓練的模型。新版本代碼採用的是此模型。下載地址

CTB8 : 在 CTB8(新聞文本及網絡文本的混合型語料)上訓練的模型。下載地址

WEIBO : 在微博(網絡文本語料)上訓練的模型。下載地址

更多詳情可查閱項目倉庫。

相關焦點

  • 資源 | Python中文分詞工具大合集
    3) PkuSeg: https://github.com/lancopku/pkuseg-pythonpkuseg多領域中文分詞工具; The pkuseg toolkit for multi-domain
  • Python中文分詞工具大合集:安裝、使用和測試
    3) PkuSeg: https://github.com/lancopku/pkuseg-pythonpkuseg多領域中文分詞工具; The pkuseg toolkit for multi-domain
  • 常見中文分詞包比較
    3 pkusegpkuseg具有如下幾個特點:1.多領域分詞。不同於以往的通用中文分詞工具,此工具包同時致力於為不同領域的數據提供個性化的預訓練模型。根據待分詞文本的領域特點,用戶可以自由地選擇不同的模型。
  • 八款中文詞性標註工具使用及在線測試
    3) PkuSeg: https://github.com/lancopku/pkuseg-pythonpkuseg具有如下幾個特點:多領域分詞。不同於以往的通用中文分詞工具,此工具包同時致力於為不同領域的數據提供個性化的預訓練模型。根據待分詞文本的領域特點,用戶可以自由地選擇不同的模型。我們目前支持了新聞領域,網絡領域,醫藥領域,旅遊領域,以及混合領域的分詞預訓練模型。在使用中,如果用戶明確待分詞的領域,可加載對應的模型進行分詞。如果用戶無法確定具體領域,推薦使用在混合領域上訓練的通用模型。各領域分詞樣例可參考 example.txt。
  • 中文分詞工具評估:chinese-segmentation-evaluation
    這裡有一個Java開源項目cws_evaluation,對中文分詞做了評比,但有幾點不足:(1). 只有java版本,但是機器學習主要是基於python的 (2).效果指標為行完美率和字完美率,該指標不妥,特別是句子越長,越無意義,(3). 每種分詞工具評測的算法太多了,這裡僅評比了默認的分詞算法。
  • 小米開源NLP分詞工具
    近日,小米NLP團隊開源了其分詞工具minlp-tokenizer,該分詞工具支持細粒度和
  • 【分詞】從why到how的中文分詞詳解,從算法原理到開源工具
    中的"Hey"和"you"是需要與身後的標點分隔開的為什麼需要分詞?能不能不分詞?中文分詞難在哪?從古至今的分詞算法:詞典到預訓練從中到外的分詞工具對於中文來說,如果不進行分詞,那麼神經網絡將直接基於原始的漢字序列進行處理和學習。
  • 中文分詞工具測評
    引言分詞對於研究和應用中文自然語言處理的童鞋來說,都是一個非常非常基礎的部件,分詞的質量直接影響到後續詞性標註、命名實體識別、句法分析等部件的準確性
  • 97.5%準確率的深度學習中文分詞(字嵌入+Bi-LSTM+CRF)
    本文給出基於深度學習的中文分詞實現,藉助大規模語料,不需要構造額外手工特徵,在2014年人民日報語料上取得97.5%的準確率。模型基本是參考論文:http://www.aclweb.org/anthology/N16-1030相關方法中文分詞是個比較經典的問題,各大網際網路公司都會有自己的分詞實現。
  • 專欄 中文分詞工具測評
    分詞對於研究和應用中文自然語言處理的童鞋來說,都是一個非常非常基礎的部件,分詞的質量直接影響到後續詞性標註、命名實體識別、句法分析等部件的準確性
  • 中文分詞技術全解析,你想知道的都在這裡(附開源工具)
    此外,分詞也並不是百利而無一害的,一旦分詞器的精度不夠高,或者語料本身就噪聲很大(錯字多、句式雜亂、各種不規範用語),這時強行分詞反而容易使得模型更難學習。下面列了幾個較為主流的分詞工具(排名不分先後,大家自行試用),相關的paper請在訂閱號後臺回復【中文分詞】領取。說到分詞工具第一個想到的肯定是家喻戶曉的「結巴」中文分詞,主要算法是前面講到的基於統計的最短路徑詞圖切分,近期還內置了百度飛槳的預訓練模型+大規模蒸餾的前沿分詞模型。
  • 探索小米開源分詞MiNLP基於深度學習的分詞工作
    MiNLP-Tokenizer中文分詞工具經過不斷優化和實戰打磨,已於2020年11月正式對外開源。MiNLP團隊計劃在2021年Q2完成所有詞法工具(詞性標註和命名實體識別)的開源,從2021年Q3開始,MiNLP團隊將逐步開源句法分析和部分語義分析工具,和開發者一起打造功能強大、效果領先的NLP平臺。內部的兩套分詞方案都是基於深度學習的分詞方案。
  • 創新工場兩篇論文入選ACL2020 中文分詞和詞性標註新模型性能創新高
    【TechWeb】7月8日消息,全球自然語言處理領域(NLP)頂級學術會議 ACL 2020 今年在線舉辦,來自創新工場大灣區人工智慧研究院的2篇論文入選,這兩篇論文均聚焦中文分詞領域。
  • 每天調用達80億次的小米MiNLP平臺,近期又開源了中文分詞功能
    機器之心報導作者:陳萍近日,小米開源了其自然語言處理平臺 MiNLP 的中文分詞功能,具備分詞效果好、輕量級、詞典可定製、多粒度切分以及調用更便捷等特點。在語料預處理階段,分詞作為其中一個環節,其作用也是非常重要,但也受不同語言的限制,因而採取的方法有所不同,如中文和英文。中文分詞是將一個漢字序列進行切分,得到一個個單獨的詞,如「我住在朝陽區」,分詞後的結果為「我 / 住在 / 朝陽區」。如果分詞效果不好的話,可能會出現其他情況,比較極端的結果是全部分錯「我住 / 在朝 / 陽區」。
  • 創新工場論文入選ACL 2020,中文分詞性能刷新五大數據集
    從短短幾個例句,我們可以感受到中文語言在分詞的歧義給中文分組帶來的挑戰,這意味著,一般的分詞工具在切分句子時可能會出錯。中文分組的另一大挑戰是未登錄詞問題。未登錄詞指的是不在詞表,或者是模型在訓練的過程中沒有遇見過的詞。例如經濟、醫療、科技等科學領域的專業術語或者社交媒體上的新詞,或者是人名。這類問題在跨領域分詞任務中尤其明顯。
  • NLP快速入門:手把手教你用HanLP做中文分詞
    中文分詞技術作為中文自然語言處理的第一項核心技術,是眾多上層任務的首要基礎工作,同時在日常的工作中起著基礎性的作用。本文將講解如何在Python環境下調用HanLP包進行分詞,並結合Python語言簡約的特性,實現一行代碼完成中文分詞。
  • 基於百度LAC2.0的詞雲圖生成——各大分詞工具實戰比較
    1.前言詞法分析是自然語言處理的基本工具,主要包括分詞、詞性標註和實體識別等功能。目前各類詞法分析工具大行其道,有免費開源的,也有商業收費的;有高校研發的,也有企業開發的;有支持Java的,也有支持Python的,甚至還有支持安卓平臺的。
  • 開源!我知道你不知道,百度開源詞法LAC 2.0幫你更懂中文
    百度NLP權威發布,可能是最好用的中文詞法分析工具——LAC 2.0閃亮登場!與LAC 1.0相比,LAC 2.0在性能與效果上有明顯提升,且支持多種開發語言,一鍵安裝調用,更加快速便捷。開源地址見下方評論區!
  • Hive基於UDF進行文本分詞
    最後一個就是我們使用的分詞工具,因為目前主流的分詞器很多,選擇不同的分詞工具可能對我們的分詞結果有很多影響。分詞工具1:Elasticsearch的開源中文分詞器 IK Analysis(Star:2471)IK中文分詞器在Elasticsearch上的使用。