【2020新書】Python文本分析,104頁pdf

2021-02-13 專知

文本無處不在,對社會科學家來說,它是一個極好的資源。然而,由於信息非常豐富,而且語言又是千變萬化的,通常很難提取出我們想要的信息。人工智慧的整個子領域與文本分析(自然語言處理)有關。開發的許多基本分析方法現在都可以作為Python實現使用。這本書將告訴您何時使用哪個方法、它如何工作的數學背景以及實現它的Python代碼。

概述:

今天,文本是我們生活中不可或缺的一部分,也是最豐富的信息來源之一。平均每天,我們閱讀約9000字,包括電子郵件、簡訊、新聞、博客文章、報告、推特,以及街道名稱和廣告。在你一生的閱讀過程中,這會讓你有大約2億字。這聽起來令人印象深刻(事實也的確如此),然而,我們可以在不到0.5 g的空間裡存儲這些信息:我們可以在u盤上隨身攜帶一生都值得閱讀的信息。在我寫這篇文章的時候,網際網路上估計至少有超過1200 TB的文本,或250萬人的閱讀價值。現在,大部分文本都以社交媒體的形式存在:微博、推特、Facebook狀態、Instagram帖子、在線評論、LinkedIn個人資料、YouTube評論等等。然而,文本即使在線下也是豐富的——季度收益報告、專利申請、問卷答覆、書面信函、歌詞、詩歌、日記、小說、議會會議記錄、會議記錄,以及成千上萬的其他形式,可以(也正在)用於社會科學研究和數據挖掘。

文本是一個極好的信息來源,不僅僅是因為它的規模和可用性。它(相對)是永久性的,而且——最重要的是——它對語言進行編碼。這一人類能力(間接地,有時甚至直接地)反映了廣泛的社會文化和心理結構:信任、權力、信仰、恐懼。因此,文本分析被用于衡量社會文化結構,如信任(Niculae, Kumar, Boyd-Graber, & danescul - niculescul - mizil, 2015)和權力(Prabhakaran, Rambow, & Diab, 2012)。語言編碼了作者的年齡、性別、出身和許多其他人口統計因素(Labov, 1972;Pennebaker, 2011;Trudgill, 2000)。因此,文本可以用來衡量社會隨著時間推移對這些目標概念的態度(見Garg, Schiebinger, Jurafsky, & Zou, 2018;Hamilton, Leskovec, & Jurafsky, 2016;Kulkarni, Al-Rfou, Perozzi, & Skiena, 2015)。

然而,這種海量數據可能很快就會讓人喘不過氣來,處理這些數據可能會讓人望而生畏。文本通常被稱為非結構化數據,這意味著它不是以電子表格的形式出現,而是整齊地按類別排列。它有不同的長度,如果不首先對其進行格式化,就不能很容易地將其送入您喜歡的統計分析工具。然而,正如我們將看到的,「非結構化」是一個有點用詞不當。文本絕不是沒有任何結構的——它遵循非常規則的結構,受語法規則的控制。如果你知道這些,理解文本就會變得容易得多。

這本書分成兩部分。在前半部分,我們將學習文本和語言的一些基本屬性——語言分析的層次、語法和語義成分,以及如何描述它們。我們還將討論為我們的分析刪除哪些內容,保留哪些內容,以及如何計算簡單、有用的統計數據。在下半部分,我們將著眼於探索,發現數據中的潛在結構。我們將從簡單的統計學習到更複雜的機器學習方法,如主題模型、詞嵌入和降維。

https://www.cambridge.org/core/elements/text-analysis-in-python-for-social-scientists/BFAB0A3604C7E29F6198EA2F7941DFF3

專知便捷查看

便捷下載,請關注專知公眾號(點擊上方藍色專知關注)

專知,專業可信的人工智慧知識分發,讓認知協作更快更好!歡迎註冊登錄專知www.zhuanzhi.ai,獲取5000+AI主題乾貨知識資料!歡迎微信掃一掃加入專知人工智慧知識星球群,獲取最新AI專業乾貨知識教程資料和與專家交流諮詢!點擊「閱讀原文」,了解使用專知,查看獲取5000+AI主題知識資源

相關焦點

  • 【Python】解析PDF文本和表格的四大方法介紹
    #輸出PDF文檔的第一頁內容first_page = pdf_document.getPage(0)print(first_page.extractText())輸出文檔第一頁內容之後會發現,PyPDF2方法對中文的支持不好,而對英文的支持會很好,所以如果處理中文文檔的話,可以使用下面這個方法。
  • 資源 | 300頁Python深度學習pdf-中文版
    閱讀大概需要1.3分鐘跟隨小博主,每天進步一丟丟又一本中文版的書籍來了,之前的那本沒領的可以點擊下面這個連結:乾貨|520頁中文版《動手學深度學習》視頻+pdf+github獲取。這次免費給大家的pdf是Deep Learning with Python,中文就是Python深度學習。
  • 【Python基礎】python使用PyPDF2和pdfplumber操作pdf
    import PyPDF2import pdfplumberwith pdfplumber.open("餐飲企業綜合分析.pdf") as p: page = p.pages[2] print(page.extract_text())結果如下:2)利用pdfplumber提取表格並寫入excelextract_table
  • python必備書籍pdf下載
    7004 集體智慧編程-python算法應用《集體智慧編程》內容翔實,包括協作過濾技術(實現關聯產品推薦功能)、集群數據分析(在大規模數據集中發掘相似的數據子集)、搜尋引擎核心技術(爬蟲、索引、查詢引擎、PageRank算法等)、搜索海量信息並進行分析統計得出結論的優化算法、貝葉斯過濾技術(垃圾郵件過濾、文本過濾)、用決策樹技術實現預測和決策建模功能、社交網絡的信息匹配技術、機器學習和人工智慧應用等。
  • PDF轉EXCEL,python的這個技能知道嗎?
    當在pdf上看到自己想用的表格,卻無法將其複製下來的時候,只能默默地打開excel對照著pdf表格的形式敲打出來,既費時又費力!這裡介紹如何用python程序將pdf上的表格自動轉化為excel表!python辦公自動化——PDF轉Word所使用的pdfminer庫類似,都是從pdf裡面提取信息。
  • Python操作PDF全總結|處理PDF文檔不得不知道的兩個庫
    「pdfplumber:」pdfplumber庫按頁處理 pdf ,獲取頁面文字,提取表格等操作。官方文檔:https://pythonhosted.org/PyPDF2安裝:pip install pypdf2pip install pdfplumberpdfplumber提取PDF文字
  • 獨家 | 手把手教你如何用Python從PDF文件中導出數據(附連結)
    對於Python 2.4到2.7版本,你可以參考以下網站來了解PDFMiner的更多信息:GitHub – https://github.com/euske/pdfminerPyPI – https://pypi.python.org/pypi/pdfminer/Webpage – https://euske.github.io/pdfminer/
  • python 實用程序 | PDF 轉 Word
    閱讀文本大概需要 6 分鐘。因為 pdf 文檔裡面的內容有很多,如果全部列印的話,費用還是挺高的。所以她想把裡面的內容格式修改下,比如行間距,字間距等等。通過這樣的修改,可以把文檔的頁數減少很多,這樣就省下不少的錢。於是乎我就想到了利用 python 來寫個程序,把 pdf 轉成 word 文檔。秉承著不要重複造輪子的想法,我首先在網上搜索了下。果然已經有人寫好了,我們直接拿來用就行。
  • Python 操作 PDF,這兩個庫必須會!
    庫,可以讀取文檔信息(標題,作者等)、寫入、分割、合併PDF文檔,它還可以對pdf文檔進行添加水印、加密解密等文檔:https://pythonhosted.org/PyPDF2安裝:pip install pypdf2pip
  • 106本Python學習系列中文版電子書PDF百度網盤資源合集(持續收集……)
    ━━可愛的Python腳本語言入門精品文章.pdf [6.8M]┣━━利用Python進行數據分析(###).pdf [78.6M]┣━━量化投資以Python為工具.pdf [67M]┣━━流暢的python.pdf [11.7M]┣━━輕量級Django_,Julia_Elman_,P218_,2016.10.pdf [34.6M]┣━━社交網站的數據挖掘與分析
  • 如何利用Python將PDF文檔轉為MP3音頻
    pdfplumber可以處理PDF包括文本、表格、格式在內的各種信息,小而強大。# 讀取PDF文檔pdf = pdfplumber.open("價值.pdf")# 獲取頁數print("總頁數:",len(pdf.pages))print("-")# 讀取第4頁first_page = pdf.pages[3]print("本頁:",first_page.page_number
  • Python程序圖片和pdf上文字識別實例一二
    處理方式就是:1、將圖片的顏色模式轉成灰度模式,再用OTSU做二值化處理2、將處理結果保存成臨時圖片文件3、調用pytesseract識別臨時圖片上的文字,識別完畢後刪掉臨時圖片選擇要識別文字的圖片調用tkinter打開圖形化對話窗口,tkinter是python內置模塊,可直接引進不必安裝。
  • 批量提取pdf文件信息(圖片、表格、文本等)
    pdf文件中一頁紙轉換一張圖片,多頁轉換多張,最後的圖片有後綴遞增序號來區分。此場景可以更進一步保護pdf裡的信息,或者用於圖片OCR文本識別時的提取,例如上一波用到的百度AI接口可以識別圖片文本信息,對于格式規範的如增值稅發票、身份證等,提取出來的文本是結構化的文本,即可識別出對應的內容屬於什麼欄位下的內容。一般的人工智慧OCR識別都需要先轉換為圖像才能調用接口來識別,沒有現成的直接對pdf文件的識別。
  • Pdf轉Excel收費?Python幾行幫你搞定!
    如何挑選Python包我們經常在網上看到一些python包,雖然功能都是一樣的,但是包名卻各不同。例如解析pdf的包就有好幾種,那麼我們該如何挑選呢?愛尚實訓小編在這裡告訴大家一個小方法,利用python官方文檔來決定,看看用哪個比較好呢。
  • PDF文件解析&拆分在SAP憑證列印場景中的運用(二)
    這篇文章,緊接著上一篇,重點談談如何用python來做到高效的PDF文件解析&拆分。  小爬使用了python第三方庫PyPDF2,它可以輕鬆的處理pdf文件,它提供了讀、寫、分割、合併、文件轉換等多種操作。小爬試了下,PyPDF2分割和合併的工作能輕鬆搞定,但是提取文本這塊,它只擅長英文。如果PDF內容涉及大量中文,則PYPDF2提取到的文本是大量的亂碼。
  • Python 操作 PDF 的幾種方法
    來源 | 早起Python(ID:zaoqi-python)邏輯如下:讀取器將所有pdf讀取一遍讀取器將讀取的內容交給寫入器寫入器統一輸出到一個新pdf這裡還有一個重要的知識點:讀取器只能將讀取的內容一頁一頁交給寫入器。
  • python機器學習預測分析核心算法.pdf
    AI項目體驗地址 https://loveai.tech《Python機器學習 預測分析核心算法》內容簡介  在學習和研究機器學習的時候,面臨令人眼花繚亂的算法,機器學習新手往往會不知所措。本書從算法和Python語言實現的角度,幫助讀者認識機器學習。
  • 一個函數實現PDF文檔合併與拆分
    爬蟲俱樂部將於2020年8月25日至28日在線上舉行Stata數據分析法律與制度專題訓練營,主要是為了讓學員掌握Stata軟體進階操作,涉及內容包括基本字符串函數及其應用、正則表達式、法律與制度數據網絡爬蟲技巧、判案文書的文本分析等技術。
  • python用PyPDF2庫解決pdf合併拆分問題
    pdf拆分合併專業戶PyPDF2庫還是先對PyPDF2庫簡單介紹一下,PyPDF2是一個純python的PDF庫,能夠拆分、合併、裁剪和轉換getPage(number):得到pdf文件中對應number頁的頁面對象。2.PdfFileWriter該類提供對pdf文件的寫操作。
  • python的中文文本挖掘庫snownlp進行購物評論文本情感分析實例
    現在研一,機器學習算法學完以後,又想起來要繼續學習文本挖掘了。所以前半個月開始了用Python進行文本挖掘的學習,很多人都推薦我從《python自然語言處理》這本書入門,學習了半個月以後,可能本科畢業設計的時候有些基礎了,再看這個感覺沒太多進步,並且這裡通篇將nltk庫進行英文文本挖掘的,英文文本挖掘跟中文是有很大差別的,或者說學完英文文本挖掘,再做中文的,也是完全懵逼的。