計算機輔助大數據政治話語分析

2020-12-25 人民網

原標題:佟德志:計算機輔助大數據政治話語分析

政治話語體系在政治學的研究當中居於非常重要的地位,是我們分析政治知識、觀念、價值以及意識形態的重要工具。伴隨著信息通信技術的來臨,越來越多的政治話語文本能夠更加快捷、方便地以大數據的方式獲得,並用計算機輔助進行政治話語分析。這為我們更加準確、更加科學地分析政治話語提供了基礎。

從某種程度上講,學術研究必然是以話語權為中心的。首先要明白別人講的一套概念和命題,這些都是話語體系最重要的元素;其次,還要用一套概念和命題把自己的思想表達出來,這實際上會形成一套話語體系。隨著人們的學習和交流,這些話語體系會形成一定的模式,決定了學術研究的基本樣式。

事實上,我們可以把政治話語簡單地分成三類。一是官方話語體系,這在中國的分析裡是非常重要的。中國的話語確實有用,官方話語代表了大致的政治走向。實際上,在西方分析裡,官方話語對社會的政治話語體系的影響就不像中國這麼重要。二是民間話語。民間話語的分析會把話語的分析引入更為細緻,也更為深入的普通民眾的精神境界,理解他們的想法。更加重要的是,官方話語必須跟民間話語相互契合,如果契合度不夠,必然會出現裂隙,甚至會影響到官方話語的存續。三是學術話語。它既不同於官方話語,也不同於民間話語,但又與這兩種語言有著千絲萬縷的聯繫。

傳統的政治話語分析傾向於精英話語分析。比如西方政治思想史的研究,實際上就是在分析這些像柏拉圖、亞里斯多德、霍布斯、洛克、盧梭、孟德斯鳩這些大哲學家、大思想家的政治話語。但是,如果太過注重精英的話語,就會出現一系列問題。比如,無法理解普通民眾的日常想法;更無法形成對當時時代的基本認識。官方話語的文本有限,因此更容易成為學者研究的重點。這導致真正對於民間話語的分析是比較少的。出現這種問題的關鍵原因是數據太多難以處理,民間話語不是幾個小時或者幾個T的容量,一般的學術是沒辦法分析海量民間話語的。現在藉助網際網路抓取話語並使用計算機軟體進行分析,為我們運用計算機輔助進行文本分析打開了廣闊天地。

最常用的方法可以包括詞頻分析、詞雲分析、情感分析、流量分析、聚類和分類分析、社會網絡分析等。有一些方法已經運用得非常廣泛了,比如,詞頻分析和詞雲分析。比如情感分析方法,運用的結果在社會科學領域還比較少。社會網絡分析雖然運用還不多,但是潛力較大,有著廣闊的運用前景。同時,這些分析方法還可以同時間、地點等組合在一起,從而分析話語體系的變遷、話語體系在空間上的不同等等。比如,使用詞頻的截面數據對話語體系的變遷進行分析;通過運用社會網絡分析、聚類分析方法從而實現對概念結構模型的估計等等。

詞頻分析是計算機輔助進行大數據話語分析的基礎。目前在這方面的研究,已經有了比較成熟的軟體,也有一些通用的標準。比如,中國科學院計算技術研究所多年研製成功的漢語詞法分析系統ICTCLAS (Institute of Computing Technology,Chinese Lexical Analysis System),功能包括了中文分詞、詞性標註、命名實體識別、新詞識別等功能,同時支持用戶詞典。其內核已經升級6次,到ICTCLAS3.0。該軟體分詞速度單機996KB/s,分詞精度98.45%,API不超過200KB,各種詞典數據壓縮後不到3M,使用起來也很方便。

詞頻分析可以直接分析到特定文本內各種詞出現的頻率,這種分析特別適合在文本量較大的文件中快速發現出現次數較多的詞語,並從中提煉出重要的主題。在大數據環境下,文本數量會變得異常龐大,可能不只是幾萬字,甚至是幾M或者是幾G,甚至是幾個T的字節。我們很難想像在這樣龐大的文本當中以人工閱讀的方式發現規律,但如果使用計算機輔助,這樣的工作就能夠很輕鬆地完成了。比如,從新華網獲取十八屆四中全會公報,分詞後對詞頻進行統計後我們發現,「法治」出現50次、「依法」出現46次、「推進」出現33次、「法律」出現29次,「社會主義」出現29次。這是全部文本中出現次數最高的前5名。根據這些內容可以做出一個基本的假設,即這次全會是圍繞著社會主義依法治國展開的一次全會,這與這次全會的主題是完全相符的。

詞雲是在詞頻分析基礎上的一種呈現,根據詞語頻次、權重以可視化的方式呈現出來,在一些基本詞頻描述中十分常見。它以大小、顏色、形狀等方式對詞頻進行可視化的處理,能夠十分直觀、形象地反映文檔中詞頻的分布情況,在話語文本分析中應用非常多。比如,把1990至2000年間的以民主為題的論文摘要做一個詞頻統計然後再做詞頻分析,我們會得到這樣一個詞雲圖:

圖1 民主的詞雲(略)

通過此詞雲圖,可以非常形象地發現,在這些文本當中,民主出現的頻率是最高的,其次是民主派、政治、國家、公共、經濟等詞。當然,這個詞雲也會把「between」、「other」這樣一些沒有實際意義的詞算在裡面。一般軟體會允許我們就這些內容的列表進行編輯,以去除那些對研究目的可能沒什麼貢獻的詞,以使詞雲更具有啟發性。

在政治話語分析中,詞頻分析與時間序列的結合,會使我們更清晰地看到關鍵詞的變遷,並從這些關鍵詞的變遷來理解政治話語的變遷,甚至進而理解理論的變遷,把握一個時代的政治知識、政治價值、政治觀念和意識形態。比如,改革開放以來,中國的經濟與社會發生了巨大變化,這直接帶來了政治話語的變化。比如,「專政」這一概念就不再被人們提起,逐漸淡出政治話語體系。在詞頻分析當中,我們可以印證這一結果。比如,「專政」在詞頻分析的結果中呈現不斷的下降趨勢。十二大「專政」出現最多,十三大有所下降,十四大又有所回升,但在十五大以後直線下降,直到十八大完全消失。目前來看,「專政」這個詞基本已經淡出中國政治的關鍵詞。

在這些紛繁複雜的變化當中,仍然有很多東西是不變的。比如,「人民」這個詞語在中國革命期間就是一個關鍵詞。隨著改革開放的不斷深入,這一概念並沒有出現淡化的現象而是呈現出不斷發展的態勢。如果用覆蓋率進行分析,改革開放的過程中,這一概念呈現不斷攀升的趨勢。

從這些變與不變當中,我們發現,中國的話語變遷不是否定性的革命,而是替代性的變革。在不否定原有話語體系的前提下,中國特色社會主義政治話語體系當中不斷有新的話語被創造出來。比如,不否定「革命」,但用「改革」進行了替代;不否定「專政」,但用「法治」進行替代。

另外,還可以對不同群體的話語體系進行分析。比如,在中國政治傳播的過程中,一直存在著官方話語體系、學術話語體系和民間話語體系的爭論。但是,當我們就某些主題進行話語體系的文本分析時我們會發現,這些話語體系會共享某些關鍵詞,出現學術話語體系和官方話語體系高度契合的狀況。

針對不同的話語分析要求,應該使用不同的政治話語分析手段。詞共現指的是「一個句子中相鄰或相近的單詞之間極大可能存在語法或語義上的相關」,基於這種現象而進行的詞共現分析廣泛地運用於基於關鍵詞的信息檢索、話題與熱點問題發現、文本分類聚類、領域文本分析、社團挖掘等自然語言處理領域。[1]

可以運用文本挖掘的方法對文本的語義進行分析,根據詞頻建立起模型,進行綜合分析。比如,對「全面從嚴治黨」進行詞頻結構模型的分析,可以看到,在提及「全面從嚴治黨」的145個段落當中,提到「群眾基礎」、「群眾路線」是163次,「執政能力」73次,「反腐敗」123次,「先進性統一」56次。這樣,我們基本可以得到以下這樣一個模型,以反映全面從嚴治黨的必然性。

圖2 全面從嚴治黨必然性的文本模型與詞頻分析(略)

詞頻分析的基本原理在於詞頻與重要性成正比,也就是說,詞頻越高,詞的重要性就越高;相反,詞頻越低,重要性越低。一般來講,這個原理是成立的。從前面舉的例子,我們也能發現這一規律。有一句流行語叫:「重要的話要說三遍」,說的就是說得越多,越重要。但是,這並不是在任何條件下都是成立的。有的時候,詞頻較低的關鍵詞也可能正是重要的主題,只是這一主題沒有被強調出來而已。因此,詞頻分析必須要輔以定性的理論基礎。

計算機輔助大數據政治話語分析是綜合運用語言學、信息管理學、政治學等多個學科的知識,將定性與定量結合起來的一種研究方法,在政治學研究的領域還是比較新鮮的事物。如何更好地把自然語言處理與信息檢索等信息通信技術運用到政治話語的分析當中來,既需要政治學定性研究的積累,同時也需要其他學科定量研究的成果。也就是說,這一分析路徑還存在著很多值得進一步深入探討的問題,其缺點也很多,不能代替人工分析,需要進一步完善。比如,如何更好地建立資料庫,獲取要研究的全部文本。還有就是這種詞共現的分析方法本身也存在著一系列的問題,比如,不能簡單地用計算機統計的詞頻來反映詞與詞之間關聯的緊密性,仍然需要更為精細的人工分析。最重要的是,計算機輔助進行話語分析有量化的特點,必須跟定性的分析相結合。如果沒有強大的知識基礎和規範性的理論體系,在進行定量分析的時候容易走偏。此外,必須承認計算機輔助進行大數據文本分析是有意義的,必須要有理論的範式和模型。

[作者簡介]佟德志,天津師範大學政治文化與政治文明建設研究院教授,政治與行政學院院長。

相關焦點

  • 政治的話語分析範式
    這種範式的主要分析方法是20世紀90年代創建的批評話語分析。批評話語分析被中國學術界幾乎同步引進,但國內學術界最初主要是用於語言學上,很少的研究轉到了政治現象和政治實踐的分析上。  馬克思關於政治的階級分析範式對後來政治學的影響是非常大的。馬克思的階級分析範式強調的是政治衝突的一面,其結論是只要資產階級存在戰爭就不可避免。
  • 話語分析理論
    批評性話語分析的原則1. 批評性話語分析關注的是社會問題 — 對社會發展和矛盾在語言和其他符號中的表現進行剖析 ,而不是為了純語言研究而分析語言的運用。批評性話語分析與傳統的社會和文化分析是一種互補關係。
  • 萬物分析的大數據
    大數據技術的意義不在於掌握龐大的數據信息,而在於對這些數據進行專業化處理,通過『加工』實現數據的『增值』,更好地輔助決策。」 數據科學與大數據技術專業 本科專業中和大數據相對應的是「數據科學與大數據技術」專業,它是2015年教育部公布的新增專業。
  • 河套學院數學與計算機係數學與應用數學(大數據分析方向)專業
    河套學院數學與計算機係數學與應用數學(大數據分析方向)專業 2021-01-04 | 來源:網絡 https://www.eol.cn/ceici/ 河套學院,簡稱
  • 20款最流行的免費定性數據分析工具
    CAQDAS是計算機輔助定性數據分析。計算機輔助定性數據分析(CAQDAS)軟體具有編碼工具,連結工具,映射或網絡工具,查詢工具以及編寫和注釋工具的功能。QDA Miner Lite,編碼分析工具包(CAT),計算機輔助文本標記和分析(CATMA),Aquad,Compendium,Cassandre,LibreQDA,RQDA,TTAMS Analyzer,ELAN,FreeQDA,Weid QDA,Qiqqa,QCAmap,ConnectedText,Transana,Vis?
  • 陳繼偉 郭明飛:大數據助力網絡化思想政治教育實效及提升路徑
    網絡化思想政治教育是在思想政治教育全部要素數據化、網絡化基礎上,通過高密度、全方位監測獲得思想政治教育全程數據;通過分析全部思想政治教育數據有效對接教與學,有針對性地引導學生內化馬克思主義立場、觀點;通過運用「微信息」、短視頻、虛擬實境技術創新思想政治教育話語模式,增強思想政治教育的親和力、吸引力、凝聚力、保障力的教育活動;最終營造出無時不在、無處不在的思想政治教育數字環境。
  • 【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱 | 國政學人 第399期
    最廣泛使用的是全自動聚類方法(Fully automated clustering, FAC)和計算機輔助聚類方法(Computer Assisted Clustering)。全自動聚類方法主要介紹了兩種。
  • 政治科學視角下的大數據方法與因果推論
    針對政治科學對因果性知識的嚴格要求,大數據方法被認為重視相關性分析而非因果性研究。作為網際網路、ICT技術和機器學習技術革新的重要成果,大數據無論是作為新興研究方法,還是作為新議題,都對政治科學的理論和方法更新產生了重大影響,為大數據時代政治學知識的生產和積累提供了創新途徑④,《政治分析》還專門刊出「政治科學中的大數據方法」網絡專刊⑤。
  • 政治學話語體系建構的路徑分析
    在近四十年的發展中,中國政治學取得了長足進步,並呈現出從理論譯介到本土研究、從意識形態到政治科學、從規範研究到經驗研究、從定性分析到定量分析、從單一學科到交叉學科、從政治制度到政治行為、從階級統治到國家治理等演變趨勢。」
  • 提升政治話語表達效果
    原標題:提升政治話語表達效果 話語表達不僅是溝通和交流的工具,也是思想和文化的載體。當前,隨著社會結構的深刻變革,人們的思想觀念、道德意識、價值取向日趨呈現出層次性和多樣性。如果只有爭論和對立,沒有共識和溝通,社會就會從思想層面的多元演變成一盤散沙。
  • 思想政治教育話語的守正創新要堅持實踐導向
    思想政治教育話語的守正創新是新時代思想政治教育創新發展的重要組成部分。在現實生活中,思想政治教育話語依據主要功能的不同可以區分為三種基本類型,即政治話語、學術話語和生活話語。政治話語的主要功能是宣傳和闡釋黨的大政方針和馬克思主義中國化的理論成果。學術話語的主要功能是從哲學社會科學的角度論證黨的思想理論的科學性與合理性。
  • 話語和話語分析
    依據這個邏輯起點,下面來探討有關話語和話語分析的問題。而對這些的研究,就是話語分析。辨別了話語分析和語篇分析的不同用途,好像二者關係並列,各有分工。這裡面,「交際」與「社會行為」,則是抽象詞語,內涵豐富,不是三言兩語可以解釋明白的。「語法連接」和「意義連貫」則需要明確所指,而「意義」這個詞語是個大詞,至今還為之爭論不止。前面,已經探討過:話語包括能夠表達他的思想的聲音,或者把這種聲音記錄下來的文字。
  • AI、大數據、圖形、軟體……計算機各專業保研方向介紹及就業情況分析!
    簡介:數據科學與大數據技術專業基於大數據時代巨大人才需求的背景下設立的新專業,旨在培養具有良好的科學素養和社會責任感與使命感,具有寬廣的國際視野,具有從事數據科學與大數據相關的軟硬體及網絡的研究特色:大數據專業主要從數據管理、系統開發、海量數據分析與挖掘三個層面設置相關課程與學習,目的是讓學習者系統地掌握大數據應用中的各種典型問題的解決辦法,包括實現和分析協同過濾算法、運行和學習分類算法
  • 兩個文藝「講話」的話語意義分析
    對兩個「講話」的敘事結構、敘事語法、符號代碼等加以語義、語用、修辭等層面的符號解碼和敘事話語分析,人們不僅能夠發現中國化馬克思主義文藝理論發展的階段性特色,而且能發現中國共產黨在不同歷史時期對文藝進行政治領導的內在邏輯。
  • 文本分析/話語分析/內容分析還分不清?建議直接背這篇!
    福柯學派對話語分析的應用,以福柯的知識考古學、譜系學、話語權力理論為哲學基礎,其主要關注話語使用行為對現實世界及社會秩序的折射、建構與維護。 批判話語分析綜合上述兩大分支流派的部分觀點,學者的關注焦點仍是社會問題,但其更重視挖掘話語使用中蘊藏的權勢關係和意識形態。
  • 2019年浙江地區計算機考研匯總分析
    計算機學院計算機學碩/計算機專碩軟體學碩/軟體專碩 思想政治理論、 英語一、數學一、856數據結構與組成原理081202 計算機軟體與理論①101思想政治理論②201英語一③301數學一④831數據結構081203 計算機應用技術①101思想政治理論②201英語一③301數學一④822電路分析 P.S:僅招收學碩
  • 張松聊數據分析_數據科學家常用的分析模型
    數據分析沒頭緒?推薦5個萬能分析模型 數據不吹牛 今天 提到數據分析,肯定要提到數據分析模型,在進行數據分析之前,先搭建數據分析模型,根據模型中的內容,具體細分到不同的數據指標進行細化分析,最終得到想要的分析結果或結論。
  • 2018年自考《計算機輔助教育》練習試題及答案二
    2018年自考《計算機輔助教育》練習試題及答案二二、選擇題34、項目反應理論的特點是(  )A.測量結果嚴重依賴被測試的樣本 B.可用於自適應測驗C.只適用於測驗被測試者的相對能力水平D.測驗某項能力水平時必須同時使用同一套測驗題35、 下列各計算機網絡的拓撲結構圖中
  • 新聞編輯室|濫用大數據? 英國監管機構開始調查在政治中濫用大數據
    英國的隱私監督機構正在進行調查:調查選民的個人資料是如何在政治運動中被截取和利用的,而這被列為去年英國脫歐和川普勝利的關鍵因素。 我們正在對使用數據分析(包括出於政治目的)導致的數據保護的風險,進行廣泛全面的評估,並將聯繫一些組織機構。ICO發言人證實「我們打算在今年晚些時候公布我們的調查結果。」
  • 科研進階 | 倫敦大學學院 | 計算機科學、網絡工程、通信工程:社交大數據分析:網絡結構與數據科學(2021.6.26開課)
    網絡科學是一門前沿新興交叉學科,核心理念在於運用計算機科學理解網絡的結構和動態發展,包括但不局限於人類行為、商業現象和行為、社會技術結構、知識創新和傳播,目標在於藉助開發工具分析複雜網絡大數據,提出預測行為的數值和分析框架,探討諸多課題,譬如網絡平臺上的反欺詐機器人,利用消費習慣實現產品精準定位和廣告精準投放,檢測運輸和物流的薄弱環節,具有廣闊的學術和行研前景。