【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱 | 國政學人 第399期

2021-02-13 國政學人

【作者】Justin Grimmer,史丹福大學政治學系教授。主要研究興趣是美國國會、選舉、社交媒體和數據科學等。

【編譯】蘭星辰(國政學人編譯員,北京大學)

【審校】虞敷揚、李雯琿

【排版】賀奕

【來源】Grimmer, J., & Stewart, B. M. (2013). Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts. Political Analysis, 21(3), 267–297. Cambridge University Press.

《政治分析》(Political Analysis)發表在政治學研究方法(包括定量和定性方法)領域具有原創性並有重大進展的論文。它是美國政治學協會政治方法學會的官方期刊,由劍橋大學出版社出版,2018年的影響因子為2.548,現任編輯為美利堅大學(American University)政治學系榮譽教授Jeff Gill。

文本作為數據:政治文本自動分析方法的前景和陷阱

Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts

政治和政治衝突經常通過語言的形式表達,學者們也早就認識到了這一點。但分析一定規模的文本的高成本阻礙了文本分析在政治學研究中的應用。自動文本分析(automated text methods)的前景在於,它能降低分析大規模文本集合的成本。但是使用它的陷阱是它不能替代對文本的仔細深入的思考和閱讀,而且它也需要大量的以特定研究問題為導向的驗證。本文概述了一系列的自動文本分析的新方法,驗證這些模型的結果的指南、糾正了文獻中的概念的混淆和錯誤。本文認為,為了使得自動文本分析方法成為政治學家的標準工具,政治方法學者必須貢獻新的分析和驗證的方法。

【關鍵詞】文本分析

語言是政治和政治衝突的媒介。例如,候選人在選舉中爭論和陳述他們的政策取向。一旦被選出,代表們寫作和辯論法案。法律一旦通過,官僚們在發布法案之前徵集評論;國家經常性地協商和籤署協定,用語言表達動機和相對權力;新聞報導詳細地記錄著每天的國際事務;甚至恐怖組織也都通過招募材料、雜誌和公共陳述表達自己的偏好和目標。這些例子表明為了理解政治是什麼,我們需要了解政治行為體說的和寫的是什麼。但是由於政治文本的規模極其龐大,學者們在通過文本對政治做出推斷時非常困難。甚至學者們幾乎不可能手動閱讀一個一般大小的語料庫的文本。僱人閱讀這些文本也很昂貴。結果就是除了一些有充足資金支持的項目,分析大規模的文本集合基本不可能。

但自動文本分析方法能以很低的成本分析大規模的文本集合。在政治學的各個子領域,學者們已經發展並導入了一些促進對政治進行實質性的重要的推斷的大規模文本分析方法。本文將會概述這些方法並糾正常見的概念混淆和錯誤,為在社會科學研究中使用自動文本分析方法提供指導。本文強調自動文本分析方法應該被認為是增強人類仔細和思考性分析能力的工具,它不能替代人對文本的仔細思考和閱讀。加之這些方法都是不正確的語言模型,這就意味著不能保證任何一種方法在新的數據集上有良好表現,因此就需要大量和廣泛的驗證(validation)

下圖說明了使用自動文本分析的一般流程和本文的行文結構。首先是獲取文本,本文關注的主要是文檔(document)級的文本。有了文本之後本文概述了完成分類(classification)分級(scaling)這兩類任務的方法。以及對分析結果的驗證和注意事項。

第一,所有語言的定量模型都是錯的——但是一些很有用

即使對語言學家而言,文本的數據生成過程都是個謎。如果一句話有著複雜的依存結構,隨著新的詞語增加,它的意思將會發生很大變化。語言的複雜性導致了所有的模型都不能對文本數據生成過程給出準確解釋。因此建立文本模型和政治學中更常見的進行因果推斷所建立的模型的有所差別。因果推斷模型的建立需要對數據生成過程有基本的了解,但是這在自動文本分析中很難做到。因此這就要求模型需要根據它在一些有用的社會科學任務上的表現來評估,比如它們是否幫助研究者將文本分入之前確定好的類別、發現文本的新的有用的分類方式等。

第二,定量方法幫助人類而非取代人類

自動文本分析方法的作用在於提高了人類的能力,而不是替代人類對文本的仔細閱讀和分析思考。對文本的深入理解是社會科學家在使用文本分析時的一大優勢。在文本分析時,需要將人工方法和自動方法結合。

第三,自動文本分析沒有全局最優方法

不同的研究問題、不同的數據集都需要不同的方法和模型。模型之間單純的比較沒有什麼意義,重要地是能找到結合不同模型的有效方法。

第四,驗證、驗證、驗證

有時模型的結果可能是錯的,這就必須進行驗證。驗證方式有很多,對於監督學習,學者需要說明監督學習方法能夠可靠地複製人類的編碼。對於無監督學習,學者需要結合實驗和實質性的統計證據說明這些測度在概念上和同等的監督學習模型一樣有效。

由於使用電子文本資料庫儲存文本越來越方便,政治學家能夠在各種各樣的文本集上使用自動文本分析方法,這包括媒體數據、議會演講、委員會聽證、協約或政治學論文等。文本通過UTF-8、Latin character或者XML等格式儲存在各類資料庫中。另外,網頁上的文本也隨著爬蟲技術的發展越來越易獲得。最難獲得的是儲存在檔案或者一些需要被掃描的書籍裡的文本,但是通過一些高質量的掃描器比如Optical Character Recognition軟體,也有可能將檔案材料轉換為計算機可讀的文本。需要注意的是在一些情況下,研究者需要聚焦他們所研究的問題相關的同一類文本,自動文本分析一般對文本的長度也有一定要求。通常報紙或者政黨綱領這類較長一些的文本比更短的陳述——例如對調查問卷的開放式回復更容易分析。對於較短的文本或極大規模的文本,伴隨信息(accompanying information)對於分類或者分級模型的可靠表現十分必要。

語言雖然很複雜,但並不是所有的信息都對分析有幫助。本文在這部分給出了降低文本複雜度,把文本轉換為定量數據的一套菜單(recipe)。在實踐中,這套菜單應該根據具體問題來修正。這套菜單分析的單位是文本(text)或文檔(document),但對於其他單位的文本也可以適用。文本的集合被稱為語料庫(corpus)

降低文本複雜性的關鍵一步是忽略詞語的順序。儘管很容易的舉出改變詞彙順序改變句子意思的例子,但是在實證中這樣的例子比較少。因此,我們假定文檔是一個詞袋(bag of words),詞的順序不影響分析。詞彙的一個簡單的列表叫一元分詞(unigram),如果一元分詞不能傳達準確的含義,還可以通過二元分詞或者三元分詞保留某些詞序。如通過二元分詞「White House」將白宮和表示顏色的白房子區分開。

在丟棄了詞序之後,我們通過詞幹提取(stemming)來簡化詞彙。詞幹提取通過把詞彙映射到相同概念的詞根從而降低了文本的維度和複雜度。比如,family, families, families』, familial都通過詞幹提取變成了famili。語言學中的詞幹還原(Lemmatization)與詞幹提取類似,但是詞幹還原提取的單詞通常會是字典中的單詞,且提取後的單詞不一定會出現在原單詞中(比如將better和best詞幹還原為good)。詞幹提取的優勢在於計算速度比較快,且在大多數的應用中都適用。詞幹提取的算法有很多,其中Porter詞幹提取算法由於其優良的性質在詞彙簡化中經常使用。除了丟棄詞序,我們還經常丟棄停頓、標點、字母大小寫、表示語法的功能性詞彙和一些非常特殊的出現很少的詞彙。通常我們刪除語料庫中出現頻率小於1%和高於99%的詞彙。文本經過處理後,每個文檔i(i = 1, … N)被表示為一個計算了M個唯一的詞彙數量的向量Wi = (Wi1, Wi2,… WiM)。Wim表示了第m個詞彙在第i個文檔裡面出現的次數。它們的矩陣Wi1, Wi2,… WiM叫做文檔術語矩陣(document-term matrix)。對於一般大小的文檔集合,這個矩陣大概有300-500個特徵(features)或者叫術語(term),並且矩陣大部分的元素將會是0(稀疏矩陣)。儘管以上的步驟導致了原來文本集很多信息被刪除,但是在應用中,學者已經發現以這種方式展示文本足以推斷出文本的一些有趣的特性。

除了上述方法外,在一些特殊的應用中,也有用數據表示文本的其他方法。例如,有學者在對聯邦黨人文集的分析中,為了推斷這些文章的作者,他們只計算了停用詞(stopwords)的數量,因為不同作者在使用停用詞上有明顯的風格差異。其他的通常使用的策略包括(1)一個詞彙在文檔中出現的指標而不是次數;(2)包括一些停用詞,例如表示性別的代詞;(3)特徵的子集(通過自動特徵提取或低維投影);(4)通過詞彙在文檔集的稀有度進行加權(經常被稱為tf-idf(term frequency–inverse document frequency),詞頻-逆文檔頻率加權)。也有學者根據不同問題設計了不同的方法。

文本分類是自動文本分析方法在政治學的最常見應用。例如,研究者想知道法案是關於環境的還是其他的;地方新聞是正面的還是負面的;國際聲明是挑釁的還是和平的等等。研究者的目標是推斷每個文檔的種類和所有文檔在不同種類的分布。人工分類方法耗時耗力,但是自動文本分析可以減少人工分類的成本。本文介紹將文檔分入已知類別的字典和監督學習這兩種分類方法。

一、字典方法

字典方法使用關鍵詞在文本中出現的頻率對文本分類。例如,假設研究目的是測度報紙文章的語氣(正面或負面)。字典方法使用了一個帶有語氣分數的詞的列表和這些詞出現的相對頻率來測度一個文檔的語氣。每個單詞m(m= 1, … M)都會有一個分數,最簡單的情況下如果這個單詞是負面語氣則sm= -1,正面則s取值為1。字典方法用如下的簡單加權平均方法計算出任意一個文檔ti的語氣,其中Ni是第i個文檔的單詞數量。

ti經常被用來作為文檔語氣的連續型測度,但是它也可以被用來對文檔分類。比如根據它的正負將文檔分為正面語氣和負面語氣。詞典容易界定,詞典分類方法簡單易用且可以相互借鑑。但也要注意不同的詞在不同語境下的文本表達的意思和情感可能有很大差別。另外使用詞典分類方法也需要小心驗證。但由於詞典分類的驗證方法非常少,很多基於詞典的分類方法都有問題。本文認為有兩種改善詞典分類驗證的方式。第一是分類問題需要被簡化,如果學者用詞典對文檔進行二元劃分,那麼應使用作為黃金標準的人工驗證方式。第二,學者們應該把詞典方法的驗證視為無監督學習方法的驗證。

二、監督學習方法

字典方法在解決實際問題是有可能不適用,特別是當字典被應用在它本來所屬的領域之外的時候。監督學習方法成為了在字典方法在某一特定的研究領域的有力補充和替代。監督學習方法易於驗證。監督學習方法要求學者建立特定研究問題的清楚明確的、能夠和想要分析的概念一致的編碼規則,找到充足的數據,建立訓練集應用監督學習方法,最後驗證模型的效果。手動分類的文檔被用來訓練監督學習模型。一般的結構是,訓練集有N個文檔,一共有K個分類,每個文檔i的類別用Yi來表示。整個訓練集被表示為Ytrain。Wtrain是特徵矩陣,監督學習方法假定有一個函數f描述了詞彙和類別的關係:

每種算法都估計了f。f的估計被用來推斷測試集的性質:

本文以樸素貝葉斯為例介紹了推斷詞彙和類別關係的算法。

根據貝葉斯法則,後驗概率可以成比例的表示為:

樸素貝葉斯假設給定分類,詞彙相互獨立,因此有下式成立:

儘管這個假設很強且很有可能是錯的,但是模型仍然能夠利用文本足夠的信息進行分類。使用這個假設,可以得到後驗概率。

這個簡單的模型問題在於有一些詞彙在數據集中根本沒有出現,通常的解決方法是為每一個概率加上一點點的數量,即使用貝葉斯狄利克雷多項模型(Bayesian Dirichlet-Multinomial model)。樸素貝葉斯最大化下式得到f的估計:

樸素貝葉斯符合上文的第一條準則。儘管特徵並不是條件獨立的,但是樸素貝葉斯確實被表明是一個有用的分類器。樸素貝葉斯只是文獻的一小部分,其餘的方法還有隨機森林(Random Forest)、支持向量機(Support Vector Machines, SVM)和神經網絡(neural networks)等。

除了樸素貝葉斯,本文還提出使用多模型的集成學習(Ensemble Learning)和測度比例(Measuring Proportions)提高學習的效果。

監督模型需要驗證,即比較機器編碼和人類編碼的結果。理想的驗證將數據分為三個子集,最開始模型在訓練集擬合,擬合好的模型在手動編碼的文檔——驗證集上驗證來評估模型的表現。最後的模型被用在測試集上完成分類任務。一般用機器學習常用的V折(V-fold)交叉驗證來進行模型評估。

字典和監督學習假定了充分界定的種類,但是在一些情況下研究者不能事先就界定好這些種類,此時需要使用無監督學習方法來發現這些種類。無監督學習方法的價值在於可以辨別理論上非常有用的、但缺乏研究的文本的組織結構。最廣泛使用的是全自動聚類方法(Fully automated clustering, FAC)計算機輔助聚類方法(Computer Assisted Clustering)

全自動聚類方法主要介紹了兩種。

第一種是單成員模型(Single membership models),單成員聚類模型估計了一個聚類,並用這個聚類近似的替代類別。模型包含了三個要素:一是文檔的相似性或者距離;二是作用於一個理想聚類的目標函數;三是最優化算法。本文簡要介紹了最常用的典型的K均值聚類算法。這一方法度量一個文檔Wi與聚類中心

μk的歐式距離:

也可以使用其他的距離度量方式來計算距離,或者也可使用tf-idf對歐氏距離加權。K均值聚類的尋求每一個文檔接近它的聚類中心。這可以表示為如下的目標函數,其中I為示性函數(如果Ci= k則取值為1)

K均值聚類像其他的FAC算法一樣使用了漸進和迭代最優算法。計算機領域相關文獻中也有其他不同的聚類方法,且有一些使用了不同的距離度量方式、不同的目標函數、不同的最優化算法。本文不能給出一切皆準的指導,但是其他領域的各種算法在政治學領域一定要慎重使用。

第二種是混合成員模型(mixed membership model)。改善單成員模型輸出的一種方法是包括特定問題的結構(problem-specific structure)。主題模型(Topic models)是其中最常用的方法。主題模型屬於貝葉斯生成模型,將特定問題的結構編碼為類別的估計。本文介紹了如下圖所示的隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)、動態多主題模型(Dynamic Multitopic Model)以及表達議題模型(Expressed Agenda Model)。其中後兩個是政治學家Quinn和Grimmer等人提出的,並已經在政治學領域得到了應用,具體可以參考Quinn et al.(2010)和Grimmer(2010)。

主題模型都有兩個廣義的特徵。第一個特徵這些模型定義了主題。主題被定義為在單詞(words)上的概率質量函數。對於一個主題k,我們一個M×1的向量θk來表示概率分布。其中θmk表示第k個主題用第m個單詞的概率。比如在國會演講中,一個主題可能是對健康保障的辯論,那麼這個主題經常使用的詞很可能就有health, care, reform, insurance等。第二個特徵是這些模型都如上圖所示有一個層級(hierarchical)結構。本文以最廣泛使用的主題模型LDA的生成過程為例解釋了這兩個特徵。LDA屬於詞袋模型,該模型假定每一個文檔都是主題的混合,對於每一個文檔,πik表示這個文檔i屬於主題k的比例。我們假定i服從參數為α的狄利克雷先驗:

在每個文檔內,單詞都根據主題的分布來生成,假設一個文檔有Ni個單詞。LDA通過兩步生成每一個單詞。為了生成第i個文檔的第j個單詞,第一步,先生成這個單詞的主題,它服從多項分布。

在給定主題後,單詞被生成。即如果第i個文件裡的第j個單詞被分配到第k個主題,我們可以從它對應的主題中得到:

(想更深入的了解LDA模型的讀者,可以參考來自靳志輝《LDA數學八卦》的下圖和原文,譯者注)

第二類分類方法是計算機輔助分類方法(CAC)。該方法由本文作者之一的Grimmer和哈佛大學教授加裡金提出。方法的技術細節比較複雜,但思想易於理解。儘管事先確定特定數據集中的文檔有效聚集的假設非常困難,但事後評價特定文本的組織(聚類)卻很容易,所以可以通過CAC在大的聚類空間上進行有效搜索進行分類。步驟是,首先,在數據集應用各種各樣的FAC方法。不同的方法會改變相似性(距離),目標函數和優化算法的定義,以提供多種方式來組織文檔。然後,Grimmer and King(2011)展示了如何將分類嵌入二維空間以使得如果兩個聚類以相似的方式組織文檔,則兩個聚類會在該空間中接近。使用這個空間,Grimmer and King(2011)提出了一種探索方法,可以輕鬆地搜索其中包含的方法以及數百萬其他因數據相似組織的組合而產生的聚類。這些無監督方法的技術細節和驗證方式可參考原文和原文引用的文獻。同時本文指出,政治學界對自動文本分析中監督學習和無監督學習的優劣的爭論並無必要,監督學習和無監督學習只是解決不同的問題。如果研究者事先已經有了明確的類別,那麼他使用監督學習方法,而如果對文本的類別不了解,那麼最好使用無監督學習。

自動化內容分析方法最有前途的應用之一是在意識形態空間中定位各種政治行為體,這已經在美國政治領域得到了應用。使用現有數據估算政治行為體的位置通常很困難有時甚至根本不可能。但使用文本將政治定位政治參與者的政治空間的方法有助於檢驗一些重要的政治理論。

本文介紹了兩種使用文本對政治行為體分級(scaling)的方法。一種是Laver,Benoit和Garry(2003)的方法是一種監督方法(類似於字典方法),用於行為體使用的詞彙對其定位。這篇文獻介紹了類似詞典方法的wordscores這種全自動分析方法來定位美國國會的政治行為體。第二種方法是在空間中定位行為體的無監督方法(Monroe and Maeda 2004;Slapin and Proksch 2008)。Splapin and Proksch(2008)開發了wordfish方法,該方法屬於一種泊松-項目反應模型(Poisson- IRT model)。

本文指出,該領域不斷增長的文獻具有檢驗政治空間理論的廣闊前景。最近的幾篇論文為進行分級提供了重要的技術貢獻和改進的方法(Martin和Vanberg 2007; Lowe 2008; Lowe et al. 2011)。這些論文很重要,但最近的論文隱含地將分類方法的目標等同於複製專家意見(Benoit,Laver and Mikhaylov 2009;Mikhaylov,Laver and Benoit 2010)或使用非文本數據進行充分驗證的分類(Beauchamp 2011)。測度的可信性當然很重要,但是如果目標是複製專家意見或已經存在的分級,則沒必要使用文本方法。簡單地由專家推斷或現有分級就足夠了。

自動文本分析方法提供了研究各種問題的工具。方法適用範圍廣泛,包括從對文檔分類到現有的或尚待確定的類別,到在政策空間中對政治行為體分級。本文強調任何一種方法的表現都是隨著不同情況而變化的。而且由於文本分析方法必然是不正確的語言模型,結果始終需要仔細驗證。對於監督分類方法,需要驗證機器的分類重複了手工編碼。對於無監督的分類和分級方法,需要驗證測度確實符合研究的概念。自動文本分析相關文獻的方法遠遠超出了本文討論的方法。其他領域的教科書很好地概述了本文未討論的方法,包括自然語言處理工具。本文還建議讀者閱讀使用不在本文列舉的方法的政治學論文深入了解(如Schrodt 2000)。本文認為接下來對自動文本分析方法研究有重要的三點:

第一,新文本需要新方法:也許未來最明顯的研究方向是開發新的針對文本的統計模型,這也在政治學學界內部開始進行。這些模型補充計算機科學,統計和機器學習的眾多文獻。確實,分析政治學中的新文本數據將有必要開發新的方法。但隨著政治學方法學家開發針對特定問題的工具,他們也應該考慮方法的一般適用性。

第二,自動文本分析方法的不確定性:測量自動文本分析方法的不確定性仍然是最重要的挑戰之一。將文本作為數據進行定量分析的最大優勢之是估計測量中不確定性的能力。目前的研究已經在測量不確定性方面有了進展,尤其是監督學習方法。如Hopkins and King(2010)展示了模擬外推(simulation- extrapolation SIMEX)如何允許編碼人員分類訓練文檔時一定程度的不確定。同樣,Benoit,Laver and Mikhaylov(2009)使用SIMEX將基於文本的分級誤差納入廣義線性模型。解決不確定性可以使用更複雜的貝葉斯統計模型、為算法確定快速可靠的計算模型或方法,或者包括人類在分析時產生的不確定性。

第三,新領域:新文本和新問題:除了方法論創新之外,還有很多現在可以使用自動文本分析的大量文本。這些文本包括政治理論,法律和調查研究,學者們可以從自動文本分析在他們的領域的應用中學到很多東西。政治學者當然可以用新的數據集檢驗長期存在的理論,但新的文本也意味著新的想法、概念和還沒有被發現的過程。

本文由國政學人獨家編譯推薦,文章觀點不代表本平臺觀點,轉載請聯繫授權。

好好學習,天天「在看」

相關焦點

  • 文本分析20年
    文本作為一種社會活動產物,因其具有可見性和持久性,能為實證研究提供特定的歷史數據。政策文本是社會經濟、政治、文化等在某一領域綜合影響的結果,它能夠敏銳地感應社會過程的變動和多樣性。當文本被制定、修改或廢除時,它也記錄了組織面對內部或外部壓力時所做出的反應,其演變反映著所在領域社會結構和組織的變遷。
  • 人工智慧和文本分析:遵循的最佳方法
    人工智慧和文本分析使您對業務績效和客戶有深入的了解,使您能夠做出更好的決策。從自動化重複性任務到提供可行的客戶見解,人工智慧可以幫助企業改善收入和用戶體驗。同樣,文本分析會解釋大量數據,以發現消費者趨勢和機會。 文本分析是指分析文本以提取有用的高質量信息的方法。
  • 文本函數和正則表達式, 文本分析事無巨細
    下面主要引薦主要的文本函數和正則表達式,用來分析和處理文本文件,而這也成為社科研究中的新趨勢。歡迎到社群交流文本分析在實證研究中的應用。文本縮寫到n位用文本3替換掉出現在文本1中的文本2部分,條件是文本2作為單獨的文字
  • 讀完本文你就了解什麼是文本分析
    關鍵是,為了將文本作為數據 而不是文本僅僅是文本,我們必須破壞原始文本的直接可解釋性,但目的是從其樣式化特徵中進行更系統,更大規模的推斷。我們應該堅定不移地認識到這一過程,但也不要因此而寢食不安,因為將文本作為數據進行分析的重點永遠不是解釋數據而是挖掘其深層次的模式。數據挖掘是一個破壞性的過程-隨便問問哪個礦山-為了開採其寶貴資源,開採礦產資源不可避免會破壞地表形態和環境。
  • 基於文本挖掘的學習分析應用研究
    因此傳統的學習分析技術難以準確發現學習者的個體意願和內在心理狀態,並不能深入解釋影響學習者學業成功與否的關鍵因素。文本作為教育大數據中一種特質的類型,最真實、直接地反映了學習者的學習動機、認知發展、情感態度、學習體驗。通過文本挖掘,可提取出學習者文本表達中隱藏的關鍵信息,實時監控學習者的意見和想法,將有助於學習者在文本交互中的自動幹預和推理。
  • 機器學習自動文本分類
    網頁、電子郵件、科學期刊、電子書、學習內容、新聞和社交媒體都充滿了文本數據。我們想要快速創建、分析和報告信息,自動文本分類也就應運而生了。更多乾貨內容請關注微信公眾號「AI 前線」,(ID:ai-front)文本分類是對文本進行智能分類。使用機器學習來實現這些任務的自動化,使整個過程更加快速高效。人工智慧和機器學習可以說是近來最受益的技術。
  • 路透社文章的文本數據分析與可視化
    當我要求你解釋文本數據時,你會怎麼做?你將採取什麼步驟來構建文本可視化?本文將幫助你獲得構建可視化和解釋文本數據所需的信息。從文本數據中獲得的見解將有助於我們發現文章之間的聯繫。它將檢測趨勢和模式。對文本數據的分析將排除噪音,發現以前未知的信息。這種分析過程也稱為探索性文本分析(ETA)。
  • 文本分析與可視化
    在這篇文章中,我想描述一種文本分析和可視化技術,它使用一種基本的關鍵字提取機制,只使用單詞計數器從我在http://ericbrown.com [1]博客上創建的文章語料庫中查找前3個關鍵詞。現在是時候加載數據並開始分析了。這段代碼載入我的博客文章(可以在這裡[8]找到),然後從數據中只獲取感興趣的列,重命名它們並為標記化做準備。
  • 2016:文本分析、情感分析和社交分析的10大趨勢
    這項技術目前大量地應用於一系列的工業產品中,從醫療健康到金融、媒體、甚至客戶市場。它們從線上、社交網絡、企業數據源中提取商業洞察力。目前分析技術發展得還是相當不錯的,儘管在某些領域,例如數字分析和市場研究有些稍稍落後。但是甚至是在例如「客戶體驗、社群聆聽、用戶交互」方面,還是有很多發展空間。這個快速發展的市場空間無論對於新加入的玩家還是深耕已久的資深人士都意味著大量的機遇。
  • NLP的文本分析與特徵工程
    摘要在本文中,我將使用NLP和Python解釋如何為機器學習模型分析文本數據和提取特徵。自然語言處理(NLP)是人工智慧的一個研究領域,它研究計算機與人類語言之間的相互作用,特別是如何對計算機進行編程以處理和分析大量自然語言數據。NLP常用於文本數據的分類。
  • 商業分析中,如何進行文本挖掘
    而傳統的調研方法雖然可以回答「為什麼」,但時間成本高、較難及時進行熱點事件背後的洞察。我的好友吳亦凡在這篇文章中,提供了一種通過文本挖掘得出商業洞察的方法,簡單易上手,又極具價值。本文將從商業分析的視角來介紹文本挖掘的實際應用場景,以及一項完整的文本挖掘流程。本篇的重點以「器」的角度,介紹我珍藏的幾款文本挖掘工具,手把手教你製作一個精美的個性化詞雲。
  • 文本情感分析:讓機器讀懂人類情感
    利用distant supervision方法從評論網站(如Yelp、IMDB)或社交媒體上(如Twitter)自動獲取的情感分析語料庫[8],為在不同領域、不同任務上開展情感分析研究提供了語料庫的支持。需要指出,無論是自動構建詞典還是自動構建語料庫,都擴大了情感分析的研究領域,但是由於規模較大,無法直接評估其質量,需要通過具體任務體現。
  • NLP中的文本分析和特徵工程
    語言檢測,文本清理,長度測量,情緒分析,命名實體識別,n字頻率,詞向量,主題建模前言在本文中,我將使用NLP和Python解釋如何分析文本數據並為機器學習模型提取特徵。NLP(自然語言處理)是人工智慧的一個領域,研究計算機和人類語言之間的交互,特別是如何編程計算機來處理和分析大量的自然語言數據。NLP經常被應用於文本數據的分類。文本分類是根據文本數據的內容給文本數據分配類別的問題。文本分類最重要的部分是特徵工程:從原始文本數據為機器學習模型創建特徵的過程。
  • 中文文本分析相關資源匯總
    中文信息抽取工具https://github.com/fighting41love/cocoNLP從中文文本數據中抽取出結構化的信息,如時間、手機號、運營商、郵箱、地址、人名、身份證圖片識別https://github.com/breezedeus/cnocr識別出圖片中的中文文本label-studio多媒體標註工具https://github.com
  • 語義分析的方法簡述之文本基本處理
    要使我們廣告平臺效益最大化,首先需要理解用戶,Context(將展示廣告的上下文)和廣告,才能將最合適的廣告展示給用戶。而這其中,就離不開對用戶,對上下文,對廣告的語義分析,由此催生了一些子項目,例如文本語義分析,圖片語義理解,語義索引,短串語義關聯,用戶廣告語義匹配等。
  • 連享會-文本分析與爬蟲專題
    最後,為了實現更為複雜的爬蟲和文本分析任務,在第 5-8 講中,我們將轉入 Python。C. 為什麼要學 Python 和 R?Python 的易用和流行趨勢已經不必多言。作為 Stata 的有益補充,Python 在文本分析、爬蟲、機器學習等方面有獨特優勢。
  • 質性文本分析方法,你了解嗎?
    資料分析作為重要一環,對於社會科學的研究極為重要。那麼,資料搜集上來了,該如何分析呢? 質性研究作為一種在社會科學領域常使用的研究方法,通常是相對量化研究而言,包含但不限於民族志研究,口述史研究,行動研究,紮根理論研究,個案研究,文本分析等。 其中的文本分析,是從文本的表層深入到文本的深層,從而發現那些不能為普通閱讀所把握的深層意義。
  • Python爬蟲與文本分析應用案例研討會
    使用Python來編寫爬蟲實現簡單且效率高,同時爬取的數據可以使用Python強大的第三方數據處理庫來進行分析,最重要的是學習成本低,如此之好的東西怎能不學習呢?經過多次嘗試,我們摒棄了這種教學方式,採用以案例為主線,在案例中講解知識點的方法,在一個案例中串聯多個知識點,利用遺忘曲線的原理,我們用多個案例重現數據分析的流程,學員自然會舉一反三了。   ·選取有實用價值的案例:iris數據集、titanic數據、NBA比賽數據跟我們的工作和科研有什麼關係?基本沒關係,那我們在講課的時候就不會用這種數據。
  • 《質性文本分析:方法、實踐與軟體使用指南》介紹
    對於質性研究初學者來說,閱讀本書的第一章到第四章可以很好地幫助理解質性研究中文本分析的過程。在進行質性文本分析前閱讀這本書可以幫助研究者根據研究需求選擇合適的分析方法;而對於有過質性文本分析經歷的學者來說,書中提及的知識可以讓學者明確在之前的分析過程中存在哪些問題,並在以後的分析中加以警覺。
  • R從網頁抓取到文本分析全教程:影評的獲取與分析
    作者:鄭連虎,在數學學院取得理學學位的文科生,中國人民大學碩博連讀生在讀,山東大學管理學學士、理學學士