python二級考試備考之 jieba 中文分詞

2021-12-23 python二級題庫

0 引言
支持 3 種分詞模式:精確模式、全模式、搜尋引擎模式jieba庫的安裝因為 jieba 是一個第三方庫,所有需要我們在本地進行安裝。Windows 下使用命令安裝:在聯網狀態下,在命令行下輸入 pip install jieba 進行安裝,安裝完成後會提示安裝成功 1 分詞

  可使用 jieba.cut 和 jieba.cut_for_search 方法進行分詞,兩者所返回的結構都是一個可迭代的 generator,可使用 for 循環來獲得分詞後得到的每一個詞語(unicode),或者直接使用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list。其中:

# 儘量不要使用 GBK 字符串,可能無法預料地錯誤解碼成 UTF-8


 

1.1 全模式和精確模式# 全模式

seg_list = jieba.cut("他來到上海交通大學", cut_all=True)
print("【全模式】:" + "/ ".join(seg_list))

【全模式】:他/ 來到/ 上海/ 上海交通大學/ 交通/ 大學


seg_list = jieba.cut("他來到上海交通大學", cut_all=False)
print("【精確模式】:" + "/ ".join(seg_list))

type(seg_list)


seg_list = jieba.lcut("他來到上海交通大學", cut_all=True)
print("【返回列表】:{0}".format(seg_list))

【返回列表】:['他', '來到', '上海', '上海交通大學', '交通', '大學']

type(seg_list)

簡單應用:

需求:使用 jieba 分詞對一個文本進行分詞,統計次數出現最多的詞語,這裡以三國演義為例

import jieba
txt = open("三國演義.txt", "r", encoding='utf-8').read()words = jieba.lcut(txt) counts = {}
for word in words: if len(word) == 1: continue else: counts[word] = counts.get(word, 0) + 1
items = list(counts.items())items.sort(key=lambda x: x[1], reverse=True)
for i in range(3): word, count = items[i] print("{0:<5}{1:>5}".format(word, count))

相關焦點

  • jieba分詞-Python中文分詞領域的佼佼者
    1. jieba的江湖地位NLP(自然語言)領域現在可謂是群雄紛爭,各種開源組件層出不窮,其中一支不可忽視的力量便是jieba分詞,號稱要做最好的 Python 中文分詞組件。「最好的」這三個字可不是空穴來風,jieba在開源社區的受歡迎程度非常之高。
  • jieba - 最好的 Python 中文分詞組件
    jieba是一款強大的python第三方中文分詞庫。目前jieba已經支持四種分詞模式:精確模式:試圖將句子最精確地切開,不存在冗餘數據,適合文本分析。全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義。
  • 中文分詞工具——jieba
    在此介紹中文分詞工具jieba,其特點為:社區活躍、目前github上有19670的star數目功能豐富,支持關鍵詞提取、詞性標註等多語言支持(Python、C++、Go、R等)使用簡單Jieba分詞結合了基於規則和基於統計這兩類方法。
  • Python | 教程 jieba中文分詞
    分詞是目前最簡明的中文分詞組件,支持三種分詞模式:精確模式、全模式和搜尋引擎模式,支持簡繁體分詞,支持自定義詞典。安裝軟體包打開 settings,搜索 Project Interpreter,在右邊的窗口選擇 +號,點擊後在搜索框搜索jieba,點擊安裝即可三種分詞模式使用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list。
  • jieba中文分詞學習筆記一
    1、中文分詞      在介紹結巴中文分詞前,先簡單介紹一下中文分詞。
  • 中文分詞庫jieba介紹
    庫是較好的中文分詞詞庫2.jieba庫分詞思想有三步:定義前綴詞典,構建字典樹;生成句子有向圖,路徑規劃輸出最優路徑本文就介紹基於python第三方庫jieba分詞庫,它是比較好的中文分詞詞庫。jieba庫是利用了Tier樹進行高效掃描,Tier樹中文名叫字典樹、前綴樹。它的用途主要是將字符串整合成樹形。
  • Python二級考試考啥?
    看大綱,整體的要求並不高,二級考試其實是為非計算機專業的學生準備的,如果你本身就是計算機相關專業,應該把更多時間花在計算機課程上。 因為這個證對你來說幾乎沒什麼用。基本語法規則肯定是必須掌握的,另外需要熟悉常用的標準庫,turtle 和 random 模塊是必選的。turtle是個畫圖工具,我自己並沒有用過,適合用來寫些寓教於樂的程序。
  • jieba:做最好的 Python 中文分詞組件,了解一下!
    中文分詞與英文分詞有很大的不同,對英文而言,一個單詞就是一個詞,而漢語以字為基本書寫單位,詞語之間沒有明顯的區分標記,需要人為切分。現在開源的中文分詞工具有SnowNLP、THULAC、Jieba和HanLP等,都還在不斷更新和維護過程中。
  • Jieba.el –在Emacs中使用jieba中文分詞
    jieba.el在Emacs中使用jieba中文分詞眾所周知, Emacs並沒有內置中文分詞系統, 以至於 forward-word 和 backward-word 以及 kill-word 等以單詞為單位的操作只能粗暴的標點符號進行確定所謂」詞彙」, (其實是中文裡的句子
  • 資源 | Python中文分詞工具大合集
    安裝這些模塊其實很簡單,只要按官方文檔的方法安裝即可,以下做個簡單介紹,主要是在Python3.x & Ubuntu16.04 的環境下測試及安裝這些中文分詞器。再附加介紹12款其他的中文分詞工具或者中文分詞模塊,最後的兩款fnlp和ansj是比較棒的java中文分詞工具,貌似還沒有python接口,記錄一下。這些中文分詞工具我沒有測試,感興趣的同學可以動手試試。
  • 【編程課堂】jieba-中文分詞利器
    jieba庫是進行中文分詞的利器,根據文檔描述,具有以下特點:支持三種分詞模式:支持繁體分詞支持自定義詞典本文立足實際需求,提取出部分常用的功能作為講解,內容包括:1、分詞中文分詞是 jieba 庫的核心,其下包括常用的 cut() 和 cut_for_search() 函數。
  • Python實現jieba分詞
    Python實現jieba分詞【今日知圖】替換r  替換當前字符R  替換當前行光標後的字符0.說在前面1.結巴分詞三種模式2.自定義字典3.動態修改字典4.詞性標註及關鍵字提取5.高級使用6.作者的話0.說在前面微信群討論了jieba,這裡我將學到的
  • Python分詞庫jieba快速入門
    Python有一個庫名為jieba的中文分詞庫,可以把中文句子切分成一個個的詞語以用於文本分析
  • Python中文分詞工具大合集:安裝、使用和測試
    安裝這些模塊其實很簡單,只要按官方文檔的方法安裝即可,以下做個簡單介紹,主要是在Python3.x & Ubuntu16.04 的環境下測試及安裝這些中文分詞器。再附加介紹12款其他的中文分詞工具或者中文分詞模塊,最後的兩款fnlp和ansj是比較棒的java中文分詞工具,貌似還沒有python接口,記錄一下。這些中文分詞工具我沒有測試,感興趣的同學可以動手試試。
  • Jieba分詞介紹
    3)關鍵詞提取什麼是Jieba分詞「結巴」中文分詞:做最好的 Python 中文分詞組件•Jieba    例如對於「上海自來水來自海上」這句話,使用前向最大匹配,即從前向後掃描,使分出來的詞存在於詞典中並且儘可能長,則可以得到「上海/自來水/來自/海上」。這類方法思想簡單且易於實現,對數據量的要求也不高。
  • 一文學會中文Jieba分詞使用方法
    AI遇見機器學習」,選擇「星標」公眾號重磅乾貨,第一時間送達「結巴」中文分詞,做最好的 Python 中文分詞組件。主要功能包括分詞、詞性標註、關鍵詞抽取等。Github地址:https://github.com/fxsjy/jieba支持繁體分詞、支持自定義詞典、支持三種分詞模式:1.分詞# 支持三種分詞模式(默認是精確模式)import jiebasegfull_list = jieba.cut
  • jieba分詞詳細介紹
    預計閱讀時間為20分鐘        上一篇文檔已經使用jieba分詞做出雲圖了,但是其中具體的一些東西還是讓人模糊不清,這裡根據官方文檔具體地介紹一下jieba分詞。jieba.cut 方法接受三個輸入參數: 需要分詞的字符串;cut_all 參數用來控制是否採用全模式;HMM 參數用來控制是否使用 HMM 模型;jieba.cut_for_search 方法接受兩個參數:需要分詞的字符串;是否使用 HMM 模型。
  • 手把手教會你使用Python進行jieba分詞
    上周我們分享了詞雲,手把手教你使用Python打造絢麗的詞雲圖,這次我們來看看分詞。我們從之前學習過的wordcloud可以得知它只能進行英文分詞,中文暫不支持,這也正是它美中不足的地方,但是有個模塊正好彌補了這一點,它就是----jieba,中文名結巴,沒錯,你沒聽錯也沒看錯,就是結巴。
  • 分詞|Python最好的中文分詞庫
    jieba庫最出名的功能就是中文分詞,在jieba中提供了三種常用的分詞模式:精確模式:將句子按照最精確的方法進行切分,適合用於進行文本分析;全模式:將句子當中所有可以成詞的詞語都掃描出來,分詞速度很快但容易產生歧義;搜尋引擎模式:在精確模式分詞的基礎上,將長的句子再次進行切分,提高召回率,適用於搜尋引擎的分詞。
  • 手把手教你用Jieba做中文分詞
    搜尋引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適用於搜尋引擎分詞。import jiebasent = '中文分詞是文本處理不可或缺的一步!'seg_list = jieba.cut(sent, cut_all=True)print('全模式:', '/ ' .join(seg_list)) seg_list = jieba.cut(sent, cut_all=False)print('精確模式:', '/ '.join(seg_list)) seg_list = jieba.cut