jieba分詞及詞雲圖的製作

2022-01-10 Python學習雜記

jieba是比較常用python的分詞庫,這裡簡單介紹它的基本用法。

import jieba
cut1 = jieba.cut("我來自湖北武漢,我現在在上海工作。", cut_all=True)
[i for i in cut1]

從網上下載一篇文章,分析該文章詞頻結構。這裡用了collections包,直接統計詞頻。

from collections import Counter
cut2=open('baogao.txt').read()
words = jieba.cut(cut2)     # 使用精簡模式對文本進行分詞
counts = []     # 獲取其中的詞
for word in words:
    if len(word)>=4:
        counts.append(word)    
Counter(counts).most_common(20)#查看排前20的詞

from wordcloud import WordCloud
import matplotlib.pyplot as plt
stop_words=['的','得']#停用詞,以後可以增加
# 使用WordCloud生成詞雲
word_cloud = WordCloud(font_path="simsun.ttc",  # 設置詞雲字體
                       background_color="white", # 詞雲圖的背景顏色
                       stopwords=stop_words,# 去掉的停詞
                      collocations=False) #,去掉詞雲中的重複詞,如果不填false,後面的詞雲圖可能出現重複詞。
text_cut = ' '.join(counts)
word_cloud.generate(text_cut)
plt.subplots(figsize=(12,8))
plt.imshow(word_cloud)
plt.axis("off")

   也可以用PIL包,把詞雲圖製作成自己需要展示的圖片形狀,也很簡單,導入PIL包,畫圖設置相應的背景即可。

所謂擅長,就是日復一日。

相關焦點

  • 未明學院:技能帖|詞雲圖前置——jieba分詞
    在自然語言處理過程中,為了能更好地處理句子,往往需要把句子拆開分成一個一個的詞語,以便更好地分析句子的特性,這個過程叫分詞。怎麼分詞?利用jieba中文分詞組件。三種jieba切詞模式介紹jieba切詞有三種模式的選擇,分別為全模式,精準模式,搜尋引擎模式。
  • 基於百度LAC2.0的詞雲圖生成——各大分詞工具實戰比較
    為了更直觀的比較四種工具的效果,我們以詞雲圖為例,觀察通過四種工具對同一文章生成的詞雲圖,比較其分詞和標註的效果。4.生成詞雲圖生成詞雲圖非常簡單,只需要用到第三方工具WordCloud即可,可以通過pip 安裝。
  • 用Wordcloud生成指定形狀的詞雲圖
    在生成詞雲圖之前,首先要做一些準備工作1.安裝結巴分詞庫下面我來簡單介紹一下結巴分詞的用法結巴分詞的分詞模式分為三種:(1)全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度快,但是不能解決歧義問題(2)精確模式:將句子最精確地切開,適合文本分析(3)搜尋引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞下面用一個簡單的例子來看一下三種模式的分詞區別
  • Python分詞庫jieba快速入門
    Python有一個庫名為jieba的中文分詞庫,可以把中文句子切分成一個個的詞語以用於文本分析
  • jieba分詞詳細介紹
    預計閱讀時間為20分鐘        上一篇文檔已經使用jieba分詞做出雲圖了,但是其中具體的一些東西還是讓人模糊不清,這裡根據官方文檔具體地介紹一下jieba分詞。jieba.cut 方法接受三個輸入參數: 需要分詞的字符串;cut_all 參數用來控制是否採用全模式;HMM 參數用來控制是否使用 HMM 模型;jieba.cut_for_search 方法接受兩個參數:需要分詞的字符串;是否使用 HMM 模型。
  • 【編程課堂】jieba-中文分詞利器
    0、前言在之前的文章【編程課堂】詞雲 wordcloud 中,我們曾使用過 jieba 庫,當時並沒有深入講解,所以本次將其單獨列出來詳細講解
  • jieba - 最好的 Python 中文分詞組件
    搜尋引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。paddle模式: 利用PaddlePaddle深度學習框架,訓練序列標註(雙向GRU)網絡模型實現分詞。jieba安裝jieba提供了幾種安裝模式。
  • Python模塊Wordcloud,手把手教你生成詞雲圖
    首先貼出一張詞雲圖(以哈利波特小說為例):在生成詞雲圖之前,首先要做一些準備工作1.安裝結巴分詞庫pip install jiebaPython中的分詞模塊有很多:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞下面用一個簡單的例子來看一下三種模式的分詞區別:1 import jieba23 # 全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度快,但是不能解決歧義問題
  • 怎麼用Python畫出好看的詞雲圖?
    前期準備上面的這種圖叫做詞雲圖,主要用途是將文本數據中出現頻率較高的關鍵詞以可視化的形式展現出來,使人一眼就可以領略文本數據的主要表達意思。詞雲圖中,詞的大小代表了其詞頻,越大的字代表其出現頻率更高。那生成一張詞雲圖的主要步驟有哪些?過程中又需要用到哪些Python庫呢?首先需要一份待分析的文本數據,由於文本數據都是一段一段的,所以第一步要將這些句子或者段落劃分成詞,這個過程稱之為分詞,需要用到Python中的分詞庫jieba。
  • Jieba分詞介紹
    Jieba其實並不是只有分詞這一個功能,其是一個開源框架,提供了很多在分詞之上的算法,如關鍵詞提取、詞性標註等•提供多種程式語言實現。Jieba官方提供了Python、C++、Go、R、iOS等多平臺多語言支持,不僅如此,還提供了很多熱門社區項目的擴展插件,如ElasticSearch、solr、lucene等。在實際項目中,進行擴展十分容易•使用簡單。
  • WordCloud詞雲圖去除停用詞的正確方法
    ,有很多詞是沒有展示出的意義的,例如我,他等主語,那如何不顯示這些詞了,這就涉及到停用詞。中文停用詞使用用wordcloud庫製作中文詞雲圖,必須要分詞,所以總結下來,中文中需要設置停用詞的話可以有三種方法。
  • 用詞雲圖看Sustainability期刊熱門題目
    在之前的推文《用詞雲圖看2020社科基金課題~》中,我們已經介紹了詞雲圖的相關用法,並結合jieba分詞來繪製詞雲圖,由於jieba只針對中文進行分詞操作,本期當中,我們要在上周發布的推文《在Sustainability上發文最多的原來是這些高校》基礎上,利用nltk庫對論文題目進行分詞操作,並用詞雲圖直觀地了解Sustainability上發表論文的熱門課題,同時對詞雲圖的一些具體用法進行介紹。
  • 手把手教會你使用Python進行jieba分詞
    上周我們分享了詞雲,手把手教你使用Python打造絢麗的詞雲圖,這次我們來看看分詞。我們從之前學習過的wordcloud可以得知它只能進行英文分詞,中文暫不支持,這也正是它美中不足的地方,但是有個模塊正好彌補了這一點,它就是----jieba,中文名結巴,沒錯,你沒聽錯也沒看錯,就是結巴。
  • 中文分詞工具——jieba
    ——索尼公司創始人井深大簡介在英語中,單詞就是「詞」的表達,一個句子是由空格來分隔的,而在漢語中,詞以字為基本單位,但是一篇文章的表達是以詞來劃分的,漢語句子對詞構成邊界方面很難界定。例如:南京市長江大橋,可以分詞為:「南京市/長江/大橋」和「南京市長/江大橋」,這個是人為判斷的,機器很難界定。
  • jieba分詞-Python中文分詞領域的佼佼者
    jieba的主要功能是做中文分詞,可以進行簡單分詞、並行分詞、命令行分詞,當然它的功能不限於此,目前還支持關鍵詞提取、詞性標註、詞位置查詢等。分詞初體驗分詞是NLP處理的第一步,也是最基本的任務,分詞的好壞直接決定了後面語義分析的精準度。所謂分詞就是將一段表述裡的詞彙進行分解,比如「我愛中國」,分解後有三個詞:我、愛、中國,詞性分別是名詞、動詞、名詞。
  • 使用Jieba庫分分鐘實現高端大氣的詞雲
    什麼是詞雲大數據時代,相信詞雲圖大家都不陌生了。詞雲圖,也叫文字雲,是對文本中出現頻率較高的「關鍵詞」予以視覺化的展現,詞雲圖過濾掉大量的低頻低質的文本信息,使得瀏覽者只要一眼掃過文本就可領略文本的主旨。
  • 中文分詞庫jieba介紹
    ,英文分詞可以針對空格切分達到很好的效果。本文就介紹基於python第三方庫jieba分詞庫,它是比較好的中文分詞詞庫。jieba庫的分詞原理主要有三項:基於前綴詞典實現高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構成的有向無環圖(DAG)採用了動態規劃查找最大概率路徑, 找出基於詞頻的最大切分組合對於未登錄詞,採用了基於漢字成詞能力的
  • Python實現jieba分詞
    Python實現jieba分詞【今日知圖】替換r  替換當前字符R  替換當前行光標後的字符0.說在前面1.結巴分詞三種模式2.自定義字典3.動態修改字典4.詞性標註及關鍵字提取5.高級使用6.作者的話0.說在前面微信群討論了jieba,這裡我將學到的
  • Python | 教程 jieba中文分詞
    分詞是目前最簡明的中文分詞組件,支持三種分詞模式:精確模式、全模式和搜尋引擎模式,支持簡繁體分詞,支持自定義詞典。也可使用 jieba.cut 和 jieba.cut_for_search 方法進行分詞,兩者所返回的結構都是一個可迭代的 generator,可使用 for 循環來獲得分詞後得到的每一個詞語(unicode)。
  • Jieba.el –在Emacs中使用jieba中文分詞
    jieba.el在Emacs中使用jieba中文分詞眾所周知, Emacs並沒有內置中文分詞系統, 以至於 forward-word 和 backward-word 以及 kill-word 等以單詞為單位的操作只能粗暴的標點符號進行確定所謂」詞彙」, (其實是中文裡的句子