原標題:佟德志:計算機輔助大數據政治話語分析
政治話語體系在政治學的研究當中居於非常重要的地位,是我們分析政治知識、觀念、價值以及意識形態的重要工具。伴隨著信息通信技術的來臨,越來越多的政治話語文本能夠更加快捷、方便地以大數據的方式獲得,並用計算機輔助進行政治話語分析。這為我們更加準確、更加科學地分析政治話語提供了基礎。
從某種程度上講,學術研究必然是以話語權為中心的。首先要明白別人講的一套概念和命題,這些都是話語體系最重要的元素;其次,還要用一套概念和命題把自己的思想表達出來,這實際上會形成一套話語體系。隨著人們的學習和交流,這些話語體系會形成一定的模式,決定了學術研究的基本樣式。
事實上,我們可以把政治話語簡單地分成三類。一是官方話語體系,這在中國的分析裡是非常重要的。中國的話語確實有用,官方話語代表了大致的政治走向。實際上,在西方分析裡,官方話語對社會的政治話語體系的影響就不像中國這麼重要。二是民間話語。民間話語的分析會把話語的分析引入更為細緻,也更為深入的普通民眾的精神境界,理解他們的想法。更加重要的是,官方話語必須跟民間話語相互契合,如果契合度不夠,必然會出現裂隙,甚至會影響到官方話語的存續。三是學術話語。它既不同於官方話語,也不同於民間話語,但又與這兩種語言有著千絲萬縷的聯繫。
傳統的政治話語分析傾向於精英話語分析。比如西方政治思想史的研究,實際上就是在分析這些像柏拉圖、亞里斯多德、霍布斯、洛克、盧梭、孟德斯鳩這些大哲學家、大思想家的政治話語。但是,如果太過注重精英的話語,就會出現一系列問題。比如,無法理解普通民眾的日常想法;更無法形成對當時時代的基本認識。官方話語的文本有限,因此更容易成為學者研究的重點。這導致真正對於民間話語的分析是比較少的。出現這種問題的關鍵原因是數據太多難以處理,民間話語不是幾個小時或者幾個T的容量,一般的學術是沒辦法分析海量民間話語的。現在藉助網際網路抓取話語並使用計算機軟體進行分析,為我們運用計算機輔助進行文本分析打開了廣闊天地。
最常用的方法可以包括詞頻分析、詞雲分析、情感分析、流量分析、聚類和分類分析、社會網絡分析等。有一些方法已經運用得非常廣泛了,比如,詞頻分析和詞雲分析。比如情感分析方法,運用的結果在社會科學領域還比較少。社會網絡分析雖然運用還不多,但是潛力較大,有著廣闊的運用前景。同時,這些分析方法還可以同時間、地點等組合在一起,從而分析話語體系的變遷、話語體系在空間上的不同等等。比如,使用詞頻的截面數據對話語體系的變遷進行分析;通過運用社會網絡分析、聚類分析方法從而實現對概念結構模型的估計等等。
詞頻分析是計算機輔助進行大數據話語分析的基礎。目前在這方面的研究,已經有了比較成熟的軟體,也有一些通用的標準。比如,中國科學院計算技術研究所多年研製成功的漢語詞法分析系統ICTCLAS (Institute of Computing Technology,Chinese Lexical Analysis System),功能包括了中文分詞、詞性標註、命名實體識別、新詞識別等功能,同時支持用戶詞典。其內核已經升級6次,到ICTCLAS3.0。該軟體分詞速度單機996KB/s,分詞精度98.45%,API不超過200KB,各種詞典數據壓縮後不到3M,使用起來也很方便。
詞頻分析可以直接分析到特定文本內各種詞出現的頻率,這種分析特別適合在文本量較大的文件中快速發現出現次數較多的詞語,並從中提煉出重要的主題。在大數據環境下,文本數量會變得異常龐大,可能不只是幾萬字,甚至是幾M或者是幾G,甚至是幾個T的字節。我們很難想像在這樣龐大的文本當中以人工閱讀的方式發現規律,但如果使用計算機輔助,這樣的工作就能夠很輕鬆地完成了。比如,從新華網獲取十八屆四中全會公報,分詞後對詞頻進行統計後我們發現,「法治」出現50次、「依法」出現46次、「推進」出現33次、「法律」出現29次,「社會主義」出現29次。這是全部文本中出現次數最高的前5名。根據這些內容可以做出一個基本的假設,即這次全會是圍繞著社會主義依法治國展開的一次全會,這與這次全會的主題是完全相符的。
詞雲是在詞頻分析基礎上的一種呈現,根據詞語頻次、權重以可視化的方式呈現出來,在一些基本詞頻描述中十分常見。它以大小、顏色、形狀等方式對詞頻進行可視化的處理,能夠十分直觀、形象地反映文檔中詞頻的分布情況,在話語文本分析中應用非常多。比如,把1990至2000年間的以民主為題的論文摘要做一個詞頻統計然後再做詞頻分析,我們會得到這樣一個詞雲圖:
圖1 民主的詞雲(略)
通過此詞雲圖,可以非常形象地發現,在這些文本當中,民主出現的頻率是最高的,其次是民主派、政治、國家、公共、經濟等詞。當然,這個詞雲也會把「between」、「other」這樣一些沒有實際意義的詞算在裡面。一般軟體會允許我們就這些內容的列表進行編輯,以去除那些對研究目的可能沒什麼貢獻的詞,以使詞雲更具有啟發性。
在政治話語分析中,詞頻分析與時間序列的結合,會使我們更清晰地看到關鍵詞的變遷,並從這些關鍵詞的變遷來理解政治話語的變遷,甚至進而理解理論的變遷,把握一個時代的政治知識、政治價值、政治觀念和意識形態。比如,改革開放以來,中國的經濟與社會發生了巨大變化,這直接帶來了政治話語的變化。比如,「專政」這一概念就不再被人們提起,逐漸淡出政治話語體系。在詞頻分析當中,我們可以印證這一結果。比如,「專政」在詞頻分析的結果中呈現不斷的下降趨勢。十二大「專政」出現最多,十三大有所下降,十四大又有所回升,但在十五大以後直線下降,直到十八大完全消失。目前來看,「專政」這個詞基本已經淡出中國政治的關鍵詞。
在這些紛繁複雜的變化當中,仍然有很多東西是不變的。比如,「人民」這個詞語在中國革命期間就是一個關鍵詞。隨著改革開放的不斷深入,這一概念並沒有出現淡化的現象而是呈現出不斷發展的態勢。如果用覆蓋率進行分析,改革開放的過程中,這一概念呈現不斷攀升的趨勢。
從這些變與不變當中,我們發現,中國的話語變遷不是否定性的革命,而是替代性的變革。在不否定原有話語體系的前提下,中國特色社會主義政治話語體系當中不斷有新的話語被創造出來。比如,不否定「革命」,但用「改革」進行了替代;不否定「專政」,但用「法治」進行替代。
另外,還可以對不同群體的話語體系進行分析。比如,在中國政治傳播的過程中,一直存在著官方話語體系、學術話語體系和民間話語體系的爭論。但是,當我們就某些主題進行話語體系的文本分析時我們會發現,這些話語體系會共享某些關鍵詞,出現學術話語體系和官方話語體系高度契合的狀況。
針對不同的話語分析要求,應該使用不同的政治話語分析手段。詞共現指的是「一個句子中相鄰或相近的單詞之間極大可能存在語法或語義上的相關」,基於這種現象而進行的詞共現分析廣泛地運用於基於關鍵詞的信息檢索、話題與熱點問題發現、文本分類聚類、領域文本分析、社團挖掘等自然語言處理領域。[1]
可以運用文本挖掘的方法對文本的語義進行分析,根據詞頻建立起模型,進行綜合分析。比如,對「全面從嚴治黨」進行詞頻結構模型的分析,可以看到,在提及「全面從嚴治黨」的145個段落當中,提到「群眾基礎」、「群眾路線」是163次,「執政能力」73次,「反腐敗」123次,「先進性統一」56次。這樣,我們基本可以得到以下這樣一個模型,以反映全面從嚴治黨的必然性。
圖2 全面從嚴治黨必然性的文本模型與詞頻分析(略)
詞頻分析的基本原理在於詞頻與重要性成正比,也就是說,詞頻越高,詞的重要性就越高;相反,詞頻越低,重要性越低。一般來講,這個原理是成立的。從前面舉的例子,我們也能發現這一規律。有一句流行語叫:「重要的話要說三遍」,說的就是說得越多,越重要。但是,這並不是在任何條件下都是成立的。有的時候,詞頻較低的關鍵詞也可能正是重要的主題,只是這一主題沒有被強調出來而已。因此,詞頻分析必須要輔以定性的理論基礎。
計算機輔助大數據政治話語分析是綜合運用語言學、信息管理學、政治學等多個學科的知識,將定性與定量結合起來的一種研究方法,在政治學研究的領域還是比較新鮮的事物。如何更好地把自然語言處理與信息檢索等信息通信技術運用到政治話語的分析當中來,既需要政治學定性研究的積累,同時也需要其他學科定量研究的成果。也就是說,這一分析路徑還存在著很多值得進一步深入探討的問題,其缺點也很多,不能代替人工分析,需要進一步完善。比如,如何更好地建立資料庫,獲取要研究的全部文本。還有就是這種詞共現的分析方法本身也存在著一系列的問題,比如,不能簡單地用計算機統計的詞頻來反映詞與詞之間關聯的緊密性,仍然需要更為精細的人工分析。最重要的是,計算機輔助進行話語分析有量化的特點,必須跟定性的分析相結合。如果沒有強大的知識基礎和規範性的理論體系,在進行定量分析的時候容易走偏。此外,必須承認計算機輔助進行大數據文本分析是有意義的,必須要有理論的範式和模型。
[作者簡介]佟德志,天津師範大學政治文化與政治文明建設研究院教授,政治與行政學院院長。