【2020新書】Python文本分析,104頁pdf

2021-02-13 專知

文本無處不在，對社會科學家來說，它是一個極好的資源。然而，由於信息非常豐富，而且語言又是千變萬化的，通常很難提取出我們想要的信息。人工智慧的整個子領域與文本分析(自然語言處理)有關。開發的許多基本分析方法現在都可以作為Python實現使用。這本書將告訴您何時使用哪個方法、它如何工作的數學背景以及實現它的Python代碼。

概述：

今天，文本是我們生活中不可或缺的一部分，也是最豐富的信息來源之一。平均每天，我們閱讀約9000字，包括電子郵件、簡訊、新聞、博客文章、報告、推特，以及街道名稱和廣告。在你一生的閱讀過程中，這會讓你有大約2億字。這聽起來令人印象深刻(事實也的確如此)，然而，我們可以在不到0.5 g的空間裡存儲這些信息:我們可以在u盤上隨身攜帶一生都值得閱讀的信息。在我寫這篇文章的時候，網際網路上估計至少有超過1200 TB的文本，或250萬人的閱讀價值。現在，大部分文本都以社交媒體的形式存在:微博、推特、Facebook狀態、Instagram帖子、在線評論、LinkedIn個人資料、YouTube評論等等。然而，文本即使在線下也是豐富的——季度收益報告、專利申請、問卷答覆、書面信函、歌詞、詩歌、日記、小說、議會會議記錄、會議記錄，以及成千上萬的其他形式，可以(也正在)用於社會科學研究和數據挖掘。

文本是一個極好的信息來源，不僅僅是因為它的規模和可用性。它(相對)是永久性的，而且——最重要的是——它對語言進行編碼。這一人類能力(間接地，有時甚至直接地)反映了廣泛的社會文化和心理結構:信任、權力、信仰、恐懼。因此，文本分析被用于衡量社會文化結構，如信任(Niculae, Kumar, Boyd-Graber， & danescul - niculescul - mizil, 2015)和權力(Prabhakaran, Rambow， & Diab, 2012)。語言編碼了作者的年齡、性別、出身和許多其他人口統計因素(Labov, 1972;Pennebaker, 2011;Trudgill, 2000)。因此，文本可以用來衡量社會隨著時間推移對這些目標概念的態度(見Garg, Schiebinger, Jurafsky， & Zou, 2018;Hamilton, Leskovec， & Jurafsky, 2016;Kulkarni, Al-Rfou, Perozzi， & Skiena, 2015)。

然而，這種海量數據可能很快就會讓人喘不過氣來，處理這些數據可能會讓人望而生畏。文本通常被稱為非結構化數據，這意味著它不是以電子表格的形式出現，而是整齊地按類別排列。它有不同的長度，如果不首先對其進行格式化，就不能很容易地將其送入您喜歡的統計分析工具。然而，正如我們將看到的，「非結構化」是一個有點用詞不當。文本絕不是沒有任何結構的——它遵循非常規則的結構，受語法規則的控制。如果你知道這些，理解文本就會變得容易得多。

這本書分成兩部分。在前半部分，我們將學習文本和語言的一些基本屬性——語言分析的層次、語法和語義成分，以及如何描述它們。我們還將討論為我們的分析刪除哪些內容，保留哪些內容，以及如何計算簡單、有用的統計數據。在下半部分，我們將著眼於探索，發現數據中的潛在結構。我們將從簡單的統計學習到更複雜的機器學習方法，如主題模型、詞嵌入和降維。

https://www.cambridge.org/core/elements/text-analysis-in-python-for-social-scientists/BFAB0A3604C7E29F6198EA2F7941DFF3

專知便捷查看

便捷下載，請關注專知公眾號（點擊上方藍色專知關注）

專知，專業可信的人工智慧知識分發，讓認知協作更快更好！歡迎註冊登錄專知www.zhuanzhi.ai，獲取5000+AI主題乾貨知識資料！歡迎微信掃一掃加入專知人工智慧知識星球群，獲取最新AI專業乾貨知識教程資料和與專家交流諮詢！點擊「閱讀原文」，了解使用專知，查看獲取5000+AI主題知識資源

相關焦點

【Python】解析PDF文本和表格的四大方法介紹

#輸出PDF文檔的第一頁內容first_page = pdf_document.getPage(0)print(first_page.extractText())輸出文檔第一頁內容之後會發現，PyPDF2方法對中文的支持不好，而對英文的支持會很好，所以如果處理中文文檔的話，可以使用下面這個方法。
資源 | 300頁Python深度學習pdf-中文版

閱讀大概需要1.3分鐘跟隨小博主，每天進步一丟丟又一本中文版的書籍來了，之前的那本沒領的可以點擊下面這個連結：乾貨|520頁中文版《動手學深度學習》視頻+pdf+github獲取。這次免費給大家的pdf是Deep Learning with Python，中文就是Python深度學習。
【Python基礎】python使用PyPDF2和pdfplumber操作pdf

import PyPDF2import pdfplumberwith pdfplumber.open("餐飲企業綜合分析.pdf") as p: page = p.pages[2] print(page.extract_text())結果如下：2）利用pdfplumber提取表格並寫入excelextract_table
python必備書籍pdf下載

7004 集體智慧編程-python算法應用《集體智慧編程》內容翔實，包括協作過濾技術（實現關聯產品推薦功能）、集群數據分析（在大規模數據集中發掘相似的數據子集）、搜尋引擎核心技術（爬蟲、索引、查詢引擎、PageRank算法等）、搜索海量信息並進行分析統計得出結論的優化算法、貝葉斯過濾技術（垃圾郵件過濾、文本過濾）、用決策樹技術實現預測和決策建模功能、社交網絡的信息匹配技術、機器學習和人工智慧應用等。
PDF轉EXCEL,python的這個技能知道嗎?

當在pdf上看到自己想用的表格，卻無法將其複製下來的時候，只能默默地打開excel對照著pdf表格的形式敲打出來，既費時又費力！這裡介紹如何用python程序將pdf上的表格自動轉化為excel表！python辦公自動化——PDF轉Word所使用的pdfminer庫類似，都是從pdf裡面提取信息。
Python操作PDF全總結|處理PDF文檔不得不知道的兩個庫

「pdfplumber：」pdfplumber庫按頁處理 pdf ，獲取頁面文字，提取表格等操作。官方文檔：https://pythonhosted.org/PyPDF2安裝：pip install pypdf2pip install pdfplumberpdfplumber提取PDF文字
獨家 | 手把手教你如何用Python從PDF文件中導出數據(附連結)

對於Python 2.4到2.7版本，你可以參考以下網站來了解PDFMiner的更多信息：GitHub – https://github.com/euske/pdfminerPyPI – https://pypi.python.org/pypi/pdfminer/Webpage – https://euske.github.io/pdfminer/
python 實用程序 | PDF 轉 Word

閱讀文本大概需要 6 分鐘。因為 pdf 文檔裡面的內容有很多，如果全部列印的話，費用還是挺高的。所以她想把裡面的內容格式修改下，比如行間距，字間距等等。通過這樣的修改，可以把文檔的頁數減少很多，這樣就省下不少的錢。於是乎我就想到了利用 python 來寫個程序，把 pdf 轉成 word 文檔。秉承著不要重複造輪子的想法，我首先在網上搜索了下。果然已經有人寫好了，我們直接拿來用就行。
Python 操作 PDF,這兩個庫必須會!

庫，可以讀取文檔信息（標題，作者等）、寫入、分割、合併PDF文檔，它還可以對pdf文檔進行添加水印、加密解密等文檔：https://pythonhosted.org/PyPDF2安裝：pip install pypdf2pip
106本Python學習系列中文版電子書PDF百度網盤資源合集(持續收集……)

━━可愛的Python腳本語言入門精品文章.pdf [6.8M]┣━━利用Python進行數據分析(###).pdf [78.6M]┣━━量化投資以Python為工具.pdf [67M]┣━━流暢的python.pdf [11.7M]┣━━輕量級Django_，Julia_Elman_，P218_，2016.10.pdf [34.6M]┣━━社交網站的數據挖掘與分析
如何利用Python將PDF文檔轉為MP3音頻

pdfplumber可以處理PDF包括文本、表格、格式在內的各種信息，小而強大。# 讀取PDF文檔pdf = pdfplumber.open("價值.pdf")# 獲取頁數print("總頁數：",len(pdf.pages))print("-")# 讀取第4頁first_page = pdf.pages[3]print("本頁：",first_page.page_number
Python程序圖片和pdf上文字識別實例一二

處理方式就是：1、將圖片的顏色模式轉成灰度模式，再用OTSU做二值化處理2、將處理結果保存成臨時圖片文件3、調用pytesseract識別臨時圖片上的文字，識別完畢後刪掉臨時圖片選擇要識別文字的圖片調用tkinter打開圖形化對話窗口，tkinter是python內置模塊，可直接引進不必安裝。
批量提取pdf文件信息(圖片、表格、文本等)

pdf文件中一頁紙轉換一張圖片，多頁轉換多張，最後的圖片有後綴遞增序號來區分。此場景可以更進一步保護pdf裡的信息，或者用於圖片OCR文本識別時的提取，例如上一波用到的百度AI接口可以識別圖片文本信息，對于格式規範的如增值稅發票、身份證等，提取出來的文本是結構化的文本，即可識別出對應的內容屬於什麼欄位下的內容。一般的人工智慧OCR識別都需要先轉換為圖像才能調用接口來識別，沒有現成的直接對pdf文件的識別。
Pdf轉Excel收費?Python幾行幫你搞定!

如何挑選Python包我們經常在網上看到一些python包，雖然功能都是一樣的，但是包名卻各不同。例如解析pdf的包就有好幾種，那麼我們該如何挑選呢？愛尚實訓小編在這裡告訴大家一個小方法，利用python官方文檔來決定，看看用哪個比較好呢。
PDF文件解析&拆分在SAP憑證列印場景中的運用(二)

這篇文章，緊接著上一篇，重點談談如何用python來做到高效的PDF文件解析&拆分。　　小爬使用了python第三方庫PyPDF2，它可以輕鬆的處理pdf文件，它提供了讀、寫、分割、合併、文件轉換等多種操作。小爬試了下，PyPDF2分割和合併的工作能輕鬆搞定，但是提取文本這塊，它只擅長英文。如果PDF內容涉及大量中文，則PYPDF2提取到的文本是大量的亂碼。
Python 操作 PDF 的幾種方法

來源 | 早起Python（ID:zaoqi-python）邏輯如下：讀取器將所有pdf讀取一遍讀取器將讀取的內容交給寫入器寫入器統一輸出到一個新pdf這裡還有一個重要的知識點：讀取器只能將讀取的內容一頁一頁交給寫入器。
python機器學習預測分析核心算法.pdf

AI項目體驗地址 https://loveai.tech《Python機器學習預測分析核心算法》內容簡介　　在學習和研究機器學習的時候，面臨令人眼花繚亂的算法，機器學習新手往往會不知所措。本書從算法和Python語言實現的角度，幫助讀者認識機器學習。
一個函數實現PDF文檔合併與拆分

爬蟲俱樂部將於2020年8月25日至28日在線上舉行Stata數據分析法律與制度專題訓練營，主要是為了讓學員掌握Stata軟體進階操作，涉及內容包括基本字符串函數及其應用、正則表達式、法律與制度數據網絡爬蟲技巧、判案文書的文本分析等技術。
python用PyPDF2庫解決pdf合併拆分問題

pdf拆分合併專業戶PyPDF2庫還是先對PyPDF2庫簡單介紹一下，PyPDF2是一個純python的PDF庫，能夠拆分、合併、裁剪和轉換getPage(number)：得到pdf文件中對應number頁的頁面對象。2.PdfFileWriter該類提供對pdf文件的寫操作。
python的中文文本挖掘庫snownlp進行購物評論文本情感分析實例

現在研一，機器學習算法學完以後，又想起來要繼續學習文本挖掘了。所以前半個月開始了用Python進行文本挖掘的學習，很多人都推薦我從《python自然語言處理》這本書入門，學習了半個月以後，可能本科畢業設計的時候有些基礎了，再看這個感覺沒太多進步，並且這裡通篇將nltk庫進行英文文本挖掘的，英文文本挖掘跟中文是有很大差別的，或者說學完英文文本挖掘，再做中文的，也是完全懵逼的。

【2020新書】Python文本分析,104頁pdf

相關焦點

【Python】解析PDF文本和表格的四大方法介紹

資源 | 300頁Python深度學習pdf-中文版

【Python基礎】python使用PyPDF2和pdfplumber操作pdf

python必備書籍pdf下載

PDF轉EXCEL,python的這個技能知道嗎?

Python操作PDF全總結|處理PDF文檔不得不知道的兩個庫

獨家 | 手把手教你如何用Python從PDF文件中導出數據(附連結)

python 實用程序 | PDF 轉 Word

Python 操作 PDF,這兩個庫必須會!

106本Python學習系列中文版電子書PDF百度網盤資源合集(持續收集……)

如何利用Python將PDF文檔轉為MP3音頻

Python程序圖片和pdf上文字識別實例一二

批量提取pdf文件信息(圖片、表格、文本等)

Pdf轉Excel收費?Python幾行幫你搞定!

PDF文件解析&拆分在SAP憑證列印場景中的運用(二)

Python 操作 PDF 的幾種方法

python機器學習預測分析核心算法.pdf

一個函數實現PDF文檔合併與拆分

python用PyPDF2庫解決pdf合併拆分問題

python的中文文本挖掘庫snownlp進行購物評論文本情感分析實例