Python文本處理工具都有哪些?

2021-01-10 環球青藤

從網頁上獲取文本數據之後,依據任務的不同,就需求進行根本的文本處理了,譬如關於英文來說,需求根本的tokenize,關於中文,則需求常見的中文分詞。那麼,Python文本處理東西都有哪些呢?今天就跟隨小編一起來了解下吧!1、 NLTK — Natural Language Toolkit

搞自然語言處理的同學應該沒有人不知道NLTK吧,這兒也就不多說了。不過引薦兩本書籍給剛剛觸摸NLTK或許需求具體了解NLTK的同學: 一個是官方的《Natural Language Processing with Python》,以介紹NLTK裡的功用用法為主,一起附帶一些Python常識,一起國內陳濤同學友情翻譯了一個中文版,這兒可以看到:引薦《用Python進行自然語言處理》中文翻譯-NLTK配套書;另外一本是《Python Text Processing with NLTK 2.0 Cookbook》,這本書要深入一些,會涉及到NLTK的代碼結構,一起會介紹怎麼定製自己的語料和模型等,相當不錯。

2、 Pattern

Pattern由比利時安特衛普大學CLiPS實驗室出品,客觀的說,Pattern不僅僅是一套文本處理東西,它更是一套web數據挖掘東西,囊括了數據抓取模塊(包含Google, Twitter, 維基百科的API,以及爬蟲和HTML剖析器),文本處理模塊(詞性標示,情感剖析等),機器學習模塊(VSM, 聚類,SVM)以及可視化模塊等,可以說,Pattern的這一整套邏輯也是這篇文章的組織邏輯,不過這兒我們暫時把Pattern放到文本處理部分。我個人首要使用的是它的英文處理模塊Pattern.en, 有許多很不錯的文本處理功用,包含基礎的tokenize, 詞性標示,語句切分,語法檢查,拼寫糾錯,情感剖析,句法剖析等,相當不錯。

3、 TextBlob: Simplified Text Processing

TextBlob是一個很有意思的Python文本處理東西包,它其實是根據上面兩個Python東西包NLKT和Pattern做了封裝(TextBlob stands on the giant shoulders of NLTK and pattern, and plays nicely with both),一起供給了許多文本處理功用的接口,包含詞性標示,名詞短語提取,情感剖析,文本分類,拼寫檢查等,甚至包含翻譯和語言檢測,不過這個是根據Google的API的,有調用次數約束。

4、 MBSP for Python

MBSP與Pattern同源,同出自比利時安特衛普大學CLiPS實驗室,供給了Word Tokenization, 語句切分,詞性標示,Chunking, Lemmatization,句法剖析等根本的文本處理功用,感興趣的同學可以重視。

關於 Python文本處理工具都有哪些,環球青藤小編就和大家分享到這裡了,學習是永無止境的,學習一項技能更是受益終身,所以,只要肯努力學,什麼時候開始都不晚。如果您還想繼續了解關於python編程的學習方法及素材等內容,可以點擊本站其他文章學習。

相關焦點

  • Python網頁爬蟲工具有哪些?
    不管文本處理,機器學習和數據發掘,都需求數據,除了通過一些途徑購買或者下載的專業數據外,常常需求我們自己著手爬數據,爬蟲就顯得分外重要。那麼,Python網頁爬蟲東西有哪些呢?1、ScrapyScrapy相Scrapy, a fast high-level screen scraping and web crawling framework for Python.信不少同學都有耳聞,課程圖譜中的許多課程都是依託Scrapy抓去的,這方面的介紹文章有許多,引薦大牛pluskid早年的一篇文章:《Scrapy 輕鬆定製網絡爬蟲》,歷久彌新。
  • 「Python爬蟲與文本實例技術與應用」培訓班通知
    通過爬蟲獲取的海量信息,我們可以對其進行進一步的分析:市場預測、文本分析、機器學習方法等。     Python作為一門腳本語言,它靈活、易用、易學、適用場景多,實現程序快捷便利,早已經成為程式設計師們的一門編程利器。Python這門程式語言包羅萬象,可以說掌握了python,除了一些特殊環境和高度的性能要求,你可以用它做任何事。
  • 從零開始寫Python爬蟲,四大工具你值得擁有!
    那麼,學習python爬蟲之前需要哪些準備?一顆熱愛學習,不屈不撓的心一臺有鍵盤的電腦(什麼系統都行。我用的os x,所以例子會以這個為準)html相關的一些知識。不需要精通,能懂一點就行Python的基礎語法知識 。
  • Python爬蟲工具篇 - 必會用的6款Chrome插件
    Python爬蟲工具篇 - 必會用的6款Chrome插件 在日常 PC 端的Python爬蟲過程工作中,Chrome 瀏覽器是我們常用的一款工具。鑑於 Chrome 瀏覽器的強大,Chrome 網上應用商店很多強大的插件可以幫助我們快速高效地進行數據爬蟲。
  • Python編程:開發工具(IDE)大匯總(附官方下載)
    最近有多位讀者留言,諮詢更便捷、高效的python編程開發工具(IDE),本文就給大家介紹四款業內常用的python軟體開發工具,並簡單介紹下每款軟體的特點,便於讀者按需選擇合適的學習軟體!VS code擴展包三、Visual Studio IDE簡介 —四星推薦Visual Studio這款IDE應該是大家耳熟能詳的,這是很多企業和個人一直都在使用的具有強大功能的開發工具
  • 初學者如何用「python爬蟲」技術抓取網頁數據?
    我們要做的是查找適合初學者的教科書或在線教程,並花費十多天的時間,您可以對python的基礎知識有三到四點了解,這時候你可以玩玩爬蟲了!2、為什麼要懂HTMLHTML是一種用於創建網頁的標記語言,該網頁嵌入了諸如文本和圖像之類的數據,這些數據可以被瀏覽器讀取並呈現為我們看到的網頁。這就是為什麼我們首先爬網HTML,然後解析數據的原因,因為數據隱藏在HTML中。
  • 雲立方網科普:常用高效的Python爬蟲框架有哪些?
    Python是現在非常流行的程式語言,而爬蟲則是Python語言中最典型的應用,下面是總結的高效Python爬蟲框架,大家看看是否都用過呢。 Scrapy是一個為了爬取網站數據,提取結構性數據而編寫的應用框架,可以應用在包括數據挖掘,信息處理或存儲歷史數據等一系列的程序中
  • 樹莓派打造python在線編程工具Jupyter Notebook
    樹莓派可以安裝很多好玩的應用,這些引用都可以使用docker安裝,之前介紹過docker,如果用樹莓派做伺服器,一定要安裝docker,超級方便。樹莓派安裝docker以及簡單使用這次介紹一個python在線ide工具jupyter
  • python之父:小學生都用這本書學python,堪稱python入門教科書
    入門教科書  眾所周知,python的特點就是:簡單、入門快、工資高、工作選擇多,但是雖然是一門最快入門的程式語言,對於沒有接觸過編程的人來說還是有一定的難度,在眾多python學習書籍中,能稱為教科書的實在不多!
  • Python開發簡單爬蟲【學習資料總結】
    ;另一方面,會將新的URL補充進URL管理器,若有URL管理器中含有新的URL,則重複上述步驟,直到爬取完所有的URL 6、最後,調度器會調動應用的方法,將價值數據輸出到需要的格式。
  • 十六本python入門學習書籍推薦,python入門新手必看
    4、python 3程序開發指南計算機與網際網路圖書:《Python 3程序開發指南》本書首先講述了構成Python語言的8個關鍵要素,之後分章節對其進行了詳盡的闡述,包括數據類型、控制結構與函數、模塊、文件處理、調試、進程與線程、網絡、資料庫、正則表達式、GUI程序設計等各個方面,並介紹了其他一些相關主題。
  • 爬蟲工具有哪些
    火車採集器 火車採集器是一款網頁數據抓取、處理、分析,挖掘軟體。可以靈活迅速地抓取網頁上散亂分布的信息,並通過強大的處理功能準確挖掘出所需數據。你可以通過設定內容採集規則,輕鬆迅速地抓取網頁上散亂分布的文本、圖片、壓縮文件、視頻等內容。 八爪魚採集器 簡介:八爪魚採集器是一款可視化採集器,內置採集模板,支持各種網頁數據採集。號稱免費,但是實際上導出數據需要積分,可以做任務攢積分,但是正常情況下基本都需要購買積分。免費功能可實現數據的抓取、清洗、分析,挖掘及最終的可用數據呈現,接口和插件擴展等高級功能需要收費。
  • 付費的知識星球要過期了,python 教你怎麼辦
    當然,本篇文章需要你有一點 python 基礎,如果沒有的話,建議你先收藏,去找一些教程學習一下這門工具人語言。好了,廢話不多說,馬上開始。準備資料庫分析知識星球的網絡請求數據用 Chrome 瀏覽器的開發者工具對知識星球
  • 人生苦短,我用Python,那麼問題來了,普通人要學python嗎?
    最近在教育店集中地兒瞎晃悠,震驚的發現這年頭六歲娃兒都要學編程了,當時我的表情是這樣的。回到家抱著冷嘲熱諷的心,我特意百度搜索了下新聞,結果我的表情是這樣的:1、Python將納入浙江省高考!從 2018 年起浙江省信息技術教材程式語言將會更換為 Python。
  • 超棒的 Python 版終端資源監控器!
    對於終端愛好者來說,擁有監控系統資源使用情況的能力同樣重要,了解系統的資源利用率有助於你在系統維護中做出明確的選擇,有一些工具可以藉助,諸如top和htop,但它們只顯示少數系統指標,如CPU和內存使用情況。
  • 免費在線工具合集,生活常用、教育學習、辦公輔助、圖片視頻……
    Tooleyes支持平臺:WebTooleyes 是一個致力於打造和收集各種實用在線工具的工具合集類網站 。網站目前收集了生活常用 、教育學習 、辦公輔助 、圖片視頻 、網絡工具和程序開發等多種類型 ,近百種實用工具 。
  • Python科學計算入門書籍推薦
    話說回來,這近些日子,隨著機器學習的熱潮,python也算是程序界的蒂花之秀了,幾乎到處都能看到它的聲影。算下來,我也有「幾乎4年」的python開發時間了,期間還使用python來參加全國研究生數學建模比賽並連續兩年拿到了國二。都說python入門簡單,網上也有很多學習資源。但是大多數都比較亂,沒有一個明確的順序和方向。
  • 手工截圖太麻煩,不妨用Python試試
    需求背景有一個需求,要在視頻中進行截圖,人工處理的話,就是要求選擇一些比較精彩的鏡頭進行手工截取圖片,這就意味著,每個視頻都要自己去看一遍,然後選擇比較好的鏡頭截圖保存。但是這種方法有很多弊端:視頻有很多,一個一個地看浪費時間和精力。一個視頻裡要截很多圖片,手動截取比較慢。
  • 一步步教你開始使用Python開發Web應用
    Codecademy python課程  Codecademy做了一項偉大的工作,將python的課程放在了一起,這對於初學者快速入門Python非常有用。  2. ScreenCasts  對於絕對的初學者,有一些非常棒的截屏視頻。
  • 從零開始學會Python 爬蟲,該怎麼做?
    其實,Python能做的不僅僅是搶票哦,今天小編就給大家總結了一些Python爬取各種東西的案例,讓你看看Python到底有多強大。從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它連結地址,然後通過這些連結地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完為止。