政治科學預測方法研究
——以選舉預測為例
【內容提要】預測是人類的基本認知活動。作為社會科學預測性研究的重要領域,選舉預測是促進政治學理論和方法創新的動力。選舉預測不僅限於民調,科學的選舉預測可以劃分為四類範式:意見聚合範式;模型範式;混合範式;大數據範式。每類範式包含若干種預測方法,不同預測方法在準確性、超前性、解釋力、可重複性、中立性和預測成本等評判標準上各具優勢,預測方法的選擇是基於預測目標和應用場景的綜合權衡。目前,選舉預測領域呈現多元化、交叉互補、跨學科的發展趨勢;其未來發展方向是「理論驅動」與「數據驅動」相結合、微觀預測變量與宏觀預測變量相結合、預測與解釋相結合,以政治科學為基礎,通過跨學科合作和前沿技術手段推進預測範式的創新,並在預測實踐中不斷更新升級。預測性研究與解釋性研究可以構成「雙螺旋」的共生互補關係,共同致力於增進人類對複雜政治活動的理解和研判,提升政治學研究的科學水平和政策應用價值。
【關鍵詞】選舉預測;預測方法;政治學預測性研究;預測
【學人簡介】
王中原,復旦大學社會科學高等研究院。
唐世平,復旦大學國際關係與公共事務學院。
【文獻來源】《政治學研究》2020年第2期。
一、引言預測是人類的基本認知活動,是根據既有信息判斷和指導下一步戰略規劃與行動決策的思維和研究過程。科學地預測未來是推進學術探索和發現的不竭動力,也是撬動範式和方法革新的重要支點。作為社會科學預測性研究的重要領域,選舉預測是帶動政治學理論和方法創新的關鍵力量。運用科學方法對選舉進行精準預測不僅可以指導競選活動,滿足公眾對選舉結果的好奇心,輔助制定相應的外交策略,同時還可以推進學科研究,提升政治學研究的科學品質和應用價值。
選舉預測始於美國,隨後發展到預測歐洲各國的選舉,近年來對發展中國家的選舉預測也方興未艾。科學的選舉預測不僅包括民調,還包括意見聚合、模型構造、大數據、仿真模擬等不同範式。在西方,選舉預測匯聚了一大批跨學科研究力量,形成了相當規模的選舉預測市場,獲得了大量來自社會和官方的資金支持。《國際預測研究期刊》(International Journal of Forecasting)、《選舉研究》(Electoral Studies)等重要學術刊物相繼發表一系列選舉預測研究成果,2017年《科學》(Science)期刊專門刊發選舉預測的相關前沿研究成果。相對而言,中國對西方國家選舉研究特別是選舉預測研究比較匱乏,公眾和決策者對選舉預測的認知尚停留在專家判斷和民意調查階段。這不僅不利於中國政治科學研究的推進,而且會讓中國在相關外交領域陷入被動。
政治學研究是否應該參與預測活動、什麼是科學的預測、科學的選舉預測怎麼做,圍繞這幾個問題,本文首先將從政治學預測性研究的視角出發,討論科學預測的界定及其評判標準,據此對現有各類選舉預測範式及其具體預測方法進行系統考察,分析各類方法的科學原理、預測效力和相對優劣勢;其次,歸納選舉預測研究的演進規律、困境局限、前沿領域以及突破方向;最後,本文將討論政治學預測性研究的學科定位和發展前景,及其如何與傳統解釋性研究相互助益,共同推進中國政治學學科體系建設。
二、政治學的預測性研究政治學研究乃至整個社會科學研究是否應該參與預測活動,一直是個充滿爭議的話題。其爭議的內容涉及政治學研究的根本任務、政治事件的可預測性、政治預測的準確性、以及預測的應用途徑等方面。
首先,社會科學的研究任務基本可分為解釋(explanation)和預測(forecasting)兩類。「解釋」關注因果關係中的自變量(X)及其影響係數β和顯著性,試圖解釋已經發生的事件或結果(Y)的影響因子和致因機制;「預測」則關注因果或相關關係中的輸出(Y),旨在根據已經掌握的各類信息和關聯結構去研判未來可能出現的結果。長期以來,政治學專注於「向後看」的描述分析、因果識別和假設檢驗等,聚焦於解釋業已發生的政治現象,對「向前看」的科學預測研究缺乏熱情和關注,甚至相當排斥。究其原因,一方面,研究者們認為政治學研究的根本任務在於解釋而非預測,預測意味著「幹預」,破壞了社會科學的「價值中立」;另一方面,預測性研究的科學方法薄弱、難度較大、風險極高。
其次,研究者們對政治事件和行為的可預測性充滿質疑。一方面,人類社會是一個動態變化而非靜態機械的複雜系統,有著多元交錯的影響因素和作用機制,且受到不可觀測要素和突發事件的影響,以致很多學者認定人類活動本質上是不可預測的;另一方面,以往預測效果較差,未能預測到諸多重大政治事件的發生,包括蘇聯解體、「911」恐怖襲擊、阿拉伯之春、英國脫歐等「黑天鵝事件」,甚至有統計發現,專家預測活動的準確性跟喝醉的黑猩猩擲飛鏢差不多。2016年,川普當選美國總統,一時間關於選舉預測的悲觀聲音甚囂塵上。例如,《紐約時報》評論道,「今夜數據死了」、「民調無法從統計上計算出不可預估的和高深莫測的人性細節」。此外,當前大量憑藉個體感知的預測活動不僅因缺乏科學方法而頻頻出錯,而且泛濫化和娛樂化,失去了公眾信任。
上述質疑和批評提醒政治學者必須對預測性研究保持審慎和謙卑,但這絕不是放棄預測性研究的理由。首先,研判和指導實踐是社會科學研究的重要目標,即使描述性研究和因果推斷中也帶有預測和啟發未來的意涵,正如湯普森(Thompson)和德爾(Derr)所言,「好的解釋可以預測」,進而驗證解釋的可靠性。解釋和預測並非是孤立的,更不是對立的,相反可以相互助益、互為補充。其次,我們應該將錯誤運用預測方法導致的問題與預測本身的問題區分開來,預測失準說明目前預測方法尚不夠科學,需要進一步探索和改進,但不能將「嬰兒和洗澡水」一同丟棄。
在開展預測性研究之前,需要明確什麼可以預測、什麼難以預測。海因德曼(Hyndman)和雅典娜梭普洛斯(Athanasopoulos)指出,「可預測性」取決於三個限定條件:第一,我們對產生結果的影響因素理解多少?第二,目前擁有多少數據?第三,預測活動是否會改變預測對象的運行軌跡?在此基礎上,本文增設「預測手段和方法是否科學多元」作為第四個限定條件。由此將政治事件分為三類:高度可預測、高度不可預測和審慎可預測(參見表1)。高度可預測的政治事件是我們對其變量關係和影響機制理解充分,數據的體量、質量和可獲得度都很高,預測活動不會影響預測對象的運行軌跡,預測的手段和方法科學多元的政治事件。高度不可預測的政治事件則相反,「黑天鵝事件」之所以極難預測是因為其缺少歷史數據,研究者對其致因機制知之甚少,同時缺乏科學的預測方法。諸多政治事件介於二者之間,屬於「審慎可預測」的範疇,即我們對該類事件有一定的研究積累,並掌握一定量的可靠數據,預測活動之於對象運行軌跡的影響基本可控,同時預測方法處在不斷豐富和發展當中。這也是政治學預測性研究應當致力攻克的領域,選舉正是屬於「審慎可預測」的政治事件範疇。
總之,科學的預測性研究是政治學乃至整個社會科學發展相對滯後的學術領域。目前,無論公眾還是學者對該領域尚存在諸多質疑和誤解,打消這些疑慮的關鍵在於發展出更加精準可靠的預測方法。近年來,大數據、人工智慧、仿真模擬等方法的興起為社會科學預測性研究提供了新的可能和契機。伴隨著數據的指數級累積、計算機算法的突破、跨學科研究的興盛,諸多「向前看」的定量預測方法應運而生,並被運用於政治學、經濟學、社會學、國際關係等領域,涵蓋選舉、族群衝突、革命叛亂、政治風險等政治學議題的研究。科學預測可以成為政治科學探索和發展的前沿領域。既運用政治學理論、知識和方法指導預測活動,又通過預測驅動、豐富和優化政治學研究,將預測性研究與解釋性研究相結合,有望提升政治學的科學水平和應用前景。
三、選舉預測的科學方法選舉是西式民主政治的核心事件,熊彼特(Schumpeter)認為「競爭性選舉」是民主體制最關鍵的構成要件。一國的選舉結果不僅將對其國內政治和治理產生重大影響,甚至會波及國際局勢。對西式選舉的科學預測不僅能夠推動政治科學研究,而且可以服務於外交和經貿決策。選舉預測是社會科學預測性研究中歷史較為悠久、方法相對成熟的領域。然而近年來,發生於英國脫歐公投、美國總統大選、馬來西亞國會選舉中的一系列黑天鵝事件讓我們重新審視選舉預測。同時,選舉誤判導致相關國家(包括中國)政策應對和外交事務陷入被動局面,使得更新選舉預測方法更具必要性和緊迫性。
科學的選舉預測怎麼做、如何構建選舉預測的綜合評判體系、當前選舉預測方法有哪些、各自的優勢和缺陷怎樣,選舉預測的發展困境、前沿領域和突破方向為何,這些問題都呼喚政治學研究的學理探索。「預測已死」嚴重誇大了選舉預測遇到的困難和瓶頸,預測困難或失準並不是我們放棄探索預測的理由,而是我們推動科學預測方法創新的契機。
選舉預測是指在選舉結果發布之前預判結果的研究活動,其具體任務可分為預測總體得票率、預測席次或選舉人團、預測選舉勝負、以及預測政府組成方式等方面。通常精度要求越高,預測鏈條越長,預測的難度就越大,預測失誤的風險也越高。選舉預測可以追溯到19世紀下半葉的美國,早期因為技術手段和數據資源的缺乏,預測活動主要依靠非科學的個人判斷。20世紀中葉以來,隨著研究方法和技術路線的革新,各種科學的量化預測方法相繼出現。然而,大量非科學的預測手段仍長期存在,其中包括通過政客、觀察家或學者的個體判斷進行預測;通過歷史上與大選結果相近的同趨勢小選區來預測;通過「徵兆」預測,例如「倘若復活節在四月,民主黨會贏」,「姓氏最長的候選人當選」,等等。這些方法雖能在某屆選舉中預測較準,但其缺乏科學依據,要麼混淆了相關性與因果性,要麼受制於個體層面的認知偏差,不具備解釋性、透明性和可重複性。選舉預測不是拍腦袋和碰運氣,必須依賴科學的研究路徑和預測機理。因此,本文將聚焦科學的量化預測方法,並將在構建選舉預測評價體系的基礎上考察現有各類量化預測範式的原理和優劣。
(一)選舉預測的科學評判標準
評判選舉預測成功與否需要一套系統、客觀的科學標準,準確性(accuracy)無疑是最重要的衡量指標。除了「準確性」之外,政治學預測性研究還須兼顧預測的超前性(leadtime)、解釋力、透明性、可重複性、中立性等指標,並根據具體預測目標和研究任務在不同標準之間做好綜合權衡。
1.如何認識準確性? 準確是最關鍵的指標,也是實現預測功能的基本要求。然而,社會科學定義的準確性與媒體和大眾理解的準確性略有不同。首先,對於不同預測任務,準確性的標準存在差異,例如預測選舉勝負與預測得票比率對準確性的精度要求不同,媒體和大眾更關心誰勝誰負,學術研究則更加追求預測精度。其次,預測的成敗和統計學意義上的準確是不同概念,科學的選舉預測給出的是某種可能的結果、有關這個結果的概率以及預測的誤差估計。第一,預測結果是一種概率而非固定不變的數值;第二,任何預測都存在偏誤,統計學上已經發展出包括均方根誤差(RMSE)、平均絕對誤差(MAE)、平均絕對百分誤差(MAPE)在內的預測誤差度量方法。選舉預測的特殊性在於,誤判了勝負的預測結果,很可能落在統計誤差允許的範圍之內,即統計學上準確。最後,沒有絕對準確只有相對準確,所有預測方法都存在局限性,無法達到百分百精準,只能追求相較於此前預測或者其他預測方法更加準確。
2.選舉預測的綜合評價指標。第一,平衡準確性與超前性。準確性是選舉預測的必要但非充分條件;除了準確性之外,選舉預測還須兼具超前性。通常來說,距離投票日越近,預測者獲得的信息越完全,預測準確性越高。然而,預測的功能在於指導決策,這就要求足夠的超前性,以預留充裕的時間窗口研製對。隨著選舉日臨近,預測的政策應用價值遞減,選舉當日的民調(如「出口民調」)除了提供媒體報導的噱頭外,已不具政策價值。有學者將選舉預測方法分為「長視野」(longview)和「短視野」(shortview)兩類,並認為依賴模型的長視野方法側重「超前性」,以民調為代表的短視野方法追求「準確性」。因此,選舉預測需要在準確性和超前性之間做出某種權衡,在保證準確性的前提下最大限度地提升超前性。第二,平衡預測力和解釋力。選舉預測作為一項學術研究,除了追求預測力之外,還必須兼顧解釋力,即通過預測促進假設檢驗、機制解析和學理推斷,提升人們對選舉制度和選舉行為的洞察力。量化預測的模型設定、變量選取、數據分析不僅要滿足精度追求,同時其預測過程和結果需具備學理上的可解釋性。一個高度複雜的預測模型可能具有超強預測力,但如若無法從學理上對其變量、參數和模型構造進行解釋,就會產生「預測黑箱」,無法獲知中間機制和理論意涵,也無法服務於選後分析。例如,機器學習方法可以通過特徵工程(feature engineering)構造出各種特徵變量以提升預測力,但其模型過度複雜,往往超出社會科學的解釋範疇。因此,選舉預測需要兼顧預測力和解釋力,保持預測的學理價值。第三,平衡計算和判斷。量化的選舉預測將數據(data)變成信息(information)進而變成知識(knowledge),計算機算法可以讓預測活動擺脫專家個體判斷的偏誤,提高預測的科學性和精準度。然而,純粹技術驅動的預測也存在較大風險,甚至帶來災難性後果。首先,量化預測在數據收集和編碼、變量選取和測量、模型建構和優化等階段都少不了專家知識和政治學理論的指導;其次,計算機無法精準處理數據中的「噪音」(noise),需要人工監督。當然,科學預測必須謹慎把握「學者自由度」(researcher degrees of freedom)。一方面,判斷的標準和過程必須有理可依、有據可循,保證預測過程的透明性和預測結果的可重複性;另一方面,判斷標準和計算過程必須公開,接受學術共同體的監督。總之,科學的預測應該綜合計算和判斷,將「知識驅動」與「數據驅動」相結合。
(二)量化選舉預測範式的類型和演進
選舉預測研究聚焦西式民主國家。源於美國的各種選舉預測方法被逐漸應用到對英國、法國、德國等國家以及歐盟議會的選舉預測當中。近年來,選舉預測方法在不斷豐富的同時,也延展到對「邊緣國家」「新興民主國家」和「競爭性威權國家」的選舉預測當中。不同國家的政治體制、選舉制度、經濟社會環境不同,對選舉預測帶來諸多挑戰,同時推動著預測方法推陳出新。
經過八十多年發展,選舉預測形成了一系列科學量化的預測方法,並隨著計算社會科學的興起呈現出新的創新態勢。選舉預測方法不僅限於民調,本文將選舉預測的科學方法劃分為四大類:意見聚合範式(Aggregators);模型範式(Models);混合範式(Synthesizers);大數據範式(Big Data)。每一類範式下又可細分出不同的預測方法,每種方法都各具比較優勢,也面臨不同的問題和挑戰。
1.意見聚合範式。意見聚合範式通過測算調查對象對候選人/政黨的支持意見或基於意見的支持行為來預測候選人的獲選概率,包括民意調查(polls)、政治博彩市場(prediction market)、群體智慧(wisdom of crowds)、以及專家調查(expert survey)等方法。雖然這些方法的數據來源和技術路線不盡相同,但其共性在於根據抽樣或特定分布來聚合不同個體意見(或基於意見的客觀行為),由此克服個體判斷的偏差,獲得更為可靠的預測結果。
首先,最為人熟知的當屬選民民意調查。第一種是「簡單民調」,即基於某種選民分布結構的抽樣民意調查,通過郵寄、電話、網絡、入戶等方式了解樣本選民的投票意向,由此推測整體的投票趨向。然而,簡單民調面臨抽樣調查本身的各種問題,包括拒訪率過高、樣本量過小、樣本結構不科學、測量方式不合理、成本太高,等等。此外,不同民調機構往往具有各自的政治傾向性,即所謂「機構效應」(polling house effects)。這些問題都可能導致民調結果失準,也是近年來民調預測表現欠佳的原因。第二種是「綜合民調」,為了克服單一民調的弊端,研究者們嘗試將不同民調數據進行加權綜合,以期讓不同民調的「機構效應」相互抵消,減少誤差和噪音。該方法近年來越發流行,最具代表性的當屬奈特·希爾沃(Nate Silver)在「538網站」(FiveThirtyEight)做出的綜合民調預測,其根據歷史準確率、樣本量、時效性等來加權多個民調數據,曾在2012年美國總統大選中成功預測了所有50個州的勝負結果,類似方法也被運用到英國、法國和荷蘭的議會選舉預測當中。第三種是「民調映射」,即測算歷史上選前某個關鍵時點的民調支持率與最終得票率的相關關係得到映射函數,進而推算當屆選舉的結果,例如,根據美國勞動節當日的民調來預測選舉結果。
其次,除民調外,學界還發展出諸多意見聚合的預測方法:其一,根據政治博彩市場的投注風向預測選舉,其預測機理是選舉投注是民眾根據選情預判做出的投資決策,相當於讓其回答「您認為誰會贏」?因此具有風向標意義。1884~1940年的統計數據顯示博彩市場的預測準確率達到73%,其準確率甚至超過部分民調。當代最知名的政治預測市場是帶有學術研究性質的「愛荷華選舉對賭市場」(Iowa Electronic Markets)。其二,「群體智慧法」,又稱「公民預測法」(citizens forecasts),即通過詢問選民「您認為誰會贏」而非「您會投給誰」來預測選舉結果,這種「期望調查」相當於把個體的預測匯集起來,集合群體的智慧,研究顯示群體預判在意見多元、決策獨立以及可綜合的條件下比個體預判更加精準。其三,專家調查法,即通過調查選舉專家群體來測算結果。雖然單個專家或政客對選舉的預判常存在偏差,但藉助一些科學方法(例如德爾菲法、群體提案評估法)對專家群體進行意見調查通常具有一定的預測力。
通過科學規則聚合個體意見或基於意見的行為來預測選舉結果是當前最為流行、最受關注的預測範式。該範式一定程度上克服了個體判斷的偏誤,具有較強預測力,並且以其簡單易懂、實時迅速、動態更新等優勢長期佔據預測市場和媒體報導的中心,僅民調一項在美國的市場規模就達180億美元。然而,這類預測也具有明顯局限:第一,非理論驅動,意見聚合是某個時點上群體判斷的截面圖,除了直觀反映大家的意向和預期之外,缺乏對變量關係和影響機制的解釋,對從學理角度理解選舉貢獻較少;第二,受制於技術手段局限,數據本身的代表性、測量的信度和效度、樣本量等問題都將影響預測績效;第三,無法預測投票率,意見聚合是通過樣本支持率推測總體得票率,然而支持意向不等同於選票,近年來投票率下降成為明顯趨勢,並成為決定選舉的關鍵因素。上述問題都可能導致嚴重的預測偏差,也是近年來選舉民調等意見聚合方法飽受質疑的原因。
2.模型範式。模型範式依據影響投票決定的某些關鍵影響因子來構建模型以預測選舉結果,其中典型的模型方法包括指數模型方法(index model)、結構性因素模型方法(structuralist model)和選舉周期模型方法(election circle model)等,雖然模型構造不盡相同,但都是依託某種變量關係和影響機制來預測選舉。
第一,指數模型方法是通過收集候選人履歷數據或能力評估數據來構建其潛力指數,進而預測其當選概率。該方法的預測機理是候選人資質和能力是影響投票的關鍵因素,其理論支撐是「選舉個人化」。一種方法是根據候選人履歷來建構其資質指數(bio-index),例如,阿姆斯特朗(Armstrong)和格雷費(Graefe)通過收集總統候選人的59個簡歷指標合成候選人的資質指數、建立指數預測模型,發現該模型可以成功預測1896~2008年29次美國總統選舉中的27次,準確率甚至超過民調和博彩市場;另一種方法是基於對候選人在關鍵議題上的能力評估來構建候選人能力指數模型,據此預測選舉結果,其議題通常包括經濟、就業、移民、反恐、福利等。該方法預設選民會圍繞選舉當年的重大事項展開投票(issue voting),歷史回測表明,該方法與政治博彩市場的預測力不相上下。指數模型方法很好地「變量化」了候選人資質和能力指標,在候選人因素日趨凸顯的新媒體時代更具預測力,並對候選人提名具有指導價值。
第二,結構性因素模型方法是根據影響選舉的關鍵結構性因素來構建回歸預測模型。通常被納入模型的預測因子包括經濟變量(例如GDP增長、失業率)和選民對在任者的政績評估,等等。該類模型融合了政治學中的「經濟投票」理論、「在任者優勢」理論(incumbent advantages)、「回溯性投票」理論,其預測機理是選民會根據當下的宏觀經濟狀況以及在任者的過往執政表現來投票。例如,一個經典的預測模型表達式為Vote=f(Incumbent Popularity,Economic Growth),即依據某個時點上的在任者受歡迎程度和經濟增長狀況兩個宏觀指標來預測選舉。多年來,此類模型不斷更新升級,發展出適用於不同國家的次模型,並被證明在總統制和在議會制下都具有一定的預測力。
第三,選舉周期模型方法是根據歷屆選舉的波動規律來預測選舉,其預設同一個國家的同一種選舉在時間上具有某種穩定的周期性規律,當屆選舉與此前選舉之間不是孤立的,而是存在某種延續性。此方法對應的是「政治重組」的周期性理論,該理論認為選民的政治傾向和對政黨的偏好會隨著一定的時間周期移轉或回歸,進而帶來政治的重組和輪替,這種選舉「鐘擺效應」在以美國和英國為代表的成熟西式民主國家表現較為明顯。基於選舉的時間序列特徵,學者們構建出選舉預測的自回歸模型。例如,諾波特(Norpoth)根據美國總統大選的周期變化規律構建出二階自回歸預測模型(VOTEt=49.2+0.525VOTEt-1-0.474VOTEt-2),發現當屆選舉的結果可以根據上屆和上上屆選舉的結果來預測,該模型成功預測了2016年美國總統大選結果。
綜上,模型範式具有兩大優勢:第一,預測模型納入了變量關係,依託選舉理論指導,具備較強可解釋性;第二,模型範式可以提前較長時間(甚至半年)得到預測結果,具有更強政策應用價值。模型範式的不足在於:第一,只注重少量宏觀預測因子,忽略微觀層面的選民因素,而選舉研究表明投票活動除了受外在因素影響之外,選民自身的人口學特徵、認同結構和社會化過程等都對其影響甚大;第二,模型範式生成的是穩態的預測結果,無法捕捉競選活動以及突發事件引發的波動;第三,不同模型在理論視角、變量選取和測量方法上差異較大,難以檢驗不同模型之間的競爭性理論假設。總之,模型範式雖然優勢明顯,但也面臨諸多挑戰。
3.混合範式。混合範式通過一定規則綜合不同預測手段來優化預測效力,以期克服單一預測方法的局限。其基本預設是集合多個方法的預測結果比運用單個方法更加精準,具體可細
分為一階混合方法和二階混合方法。
一階混合方法通常是將「回歸預測模型」與「選舉民調」相結合。例如,經典的預測表達式為:
即先依據選民對在任政府的認可度和經濟增長狀況兩個結構性變量來構建預測模型,用以預判候選人的基準得票率,再通過實時民調捕捉選情波動,最後將兩個結果通過一定的加權規則集合加總,以期得到更加精準的預測結果。該方法綜合了「模型範式」和「意見聚合範式」的各自優勢,同時彌補了民調和模型的部分弱點。研究表明,該方法在英國、德國、愛爾蘭等國家的選舉預測中比單個靜態模型或單個民調預測都準確,雖然民調和回歸模型在不同國家對預測精準度的貢獻率各有不同。
二階混合方法則更為複雜,其試圖對運用各種不同方法得到的預測結果進行整體加權集合以提高預測精準度。該方法通常分兩步展開:第一步是綜合同一類方法內部的不同預測數據(例如不同機構的民調結果)得到此類方法的總體預測結果,以此削弱單一預測主體可能存在的預測偏差;第二步再憑藉一定的加權規則來集合各類不同方法的總體預測結果,得到一個大集總的預測,由此降低單一預測範式可能存在的偏差。當前,最具影響力的當屬「Polly Vote」方法,其集合了來自民調、博彩市場、專家調查、群體智慧、候選人指數、經濟模型等不同方法的預測數據,通過上述兩步集合方法得到一個集總預測結果,回測表明該預測方法比其他單個方法都更加接近真實結果。
混合範式的優點在於:第一,將基於結構性因素的穩態預測與來自意見聚合的動態預測相結合,在提前數月得到模型結果的同時可根據選情動態調整;第二,綜合不同類型的信息源,克服單一方法存在的局限。混合範式也面臨諸多問題:第一,存在系統性偏差的風險,特別是當被集合的多個預測源都朝同一個方向產生偏誤時,預測偏差將被放大(例如2016年美國總統大選);第二,對不同預測方法的權重估計需要更加科學、透明的標準,權重設定失誤可能產生新的偏誤;第三,預測源選取可能存在研究者偏見,綜合併不總是最好的選擇;第四,綜合的預測源越多,其預測結果越難從學理角度進行解釋。如果預測錯誤,也較難回溯驗證。
4.大數據範式。大數據範式通過收集社交媒體上網民關於選舉的語言和行為數據,並藉助機器學習算法預測選舉結果。近年來,隨著移動終端和社交網絡的普及,人們在虛擬空間裡積累了海量的行為和交往大數據,運用計算機技術挖掘社交媒體數據以預測電影票房、產品銷量、信貸風險等成為趨勢,該方法也被運用於選舉預測,並呈現出預測潛力。
早期的大數據預測比較簡單直接,通過收集社交網絡(如Twitter、Facebook)上針對某個政黨或候選人的評論量、轉發量、點讚數、粉絲數,以及熱搜、維基百科瀏覽量等數據,來測量民眾對政黨/候選人的關注強度,進而推測其選舉支持率。該方法被證明在某些選舉中具有一定預測力,但整體預測效果欠佳且不穩定。原因在於,上述網絡行為數據無法準確測量真實支持率,其中夾雜了大量「噪音」,包括機器自動推送(bots)、網絡水軍、黑公關等。此外,網絡關注熱度無法直接轉換為選票,這受到投票資格和投票意願的影響,且有正向和負向關注之分。為了克服這些缺陷,研究者們開始運用「自然語言處理」技術和無監督或半監督的機器學習方法對社交數據進行情感分析(sentiment analysis),試圖探索網絡意見表達(例如網民評論)的語意與情感取向,並綜合不同網絡信息源來推算選民對政黨或候選人的支持率,其改進後的預測效力有時堪比民意調查。
大數據範式的優勢在於:第一,實時快捷,能夠每天甚至每小時及時更新,真正做到實時播報(nowcast),即刻掌握選情動態;第二,信息源豐富,成本較低,同時可供分析和解釋;第三,藉助計算機處理技術,可以挖掘選民心理與投票行為的關係,捕捉線上動員的選舉後果。大數據預測也面臨一些挑戰:第一,網絡數據通常缺乏代表性,社交網絡上活躍的群體往往只是選民中的一部分(偏年輕、都市和教育程度高的群體),同時存在迫於政治正確較少發聲的「害羞選民」(shy voters),代表性偏差會影響預測效力;第二,網絡語言屬於自然語言,自然語言處理技術目前尚不成熟,例如政治暗語和場景化語言的語義甄別、多語種語言採集和分析難度較大,數據「信噪比」低會影響預測質量;第三,社交媒體的普及率在不同國家存在差異,在較多發展中國家無法獲取足量的網絡數據用於預測。此外,自從「劍橋分析」(Cambridge Analytica)利用臉書數據影響美國總統大選,社交媒體平臺對數據獲取設置了更高門檻,這些都影響了大數據預測的發展。但是,隨著算法技術的突飛猛進和數據的指數級激增,加之計算社會科學的發展,該範式前景廣闊。
四、選舉預測範式、方法的評估比較和發展趨勢選舉預測是政治學預測性研究的前沿領域,經過八十餘年的探索和積累,已經發展出豐富多元的科學預測方法,並處在不斷創新升級當中。本文歸納出四類選舉預測範式:意見聚合範式;模型範式;混合範式;大數據範式。每一類範式下又可細分出不同類型的預測方法,每種預測方法的技術路線、預測機理、數據基礎和應用場景各有差異,同時在選舉預測綜合評價體系的各個維度上各顯優劣(見表2)。
具體來說,混合範式在準確性上要高於意見聚合範式、模型範式和大數據範式,因為其綜合了模型範式的穩態預測和意見聚合範式的動態預測,在可重複性和中立性方面也表現較好,但由於集合方式複雜而欠缺可追溯性和解釋力。模型範式在超前性、解釋性、可重複性、中立性和成本方面都佔據優勢,然而由於預測時間超前不得不犧牲一部分準確性。意見聚合範式實時更新,具備較高的準確性,但在超前性和解釋力上較弱,同時調查類預測成本高昂。大數據範式結合前沿算法,具有較強的成本優勢和追蹤預測能力,雖然目前在機制解釋、因果識別和準確性上略有不足,但有望隨著技術突破和理論引導得到改進提升。總之,預測範式和方法的選擇是基於不同預測目標和應用場景的綜合權衡。
整體而言,現有選舉預測範式存在一些共同缺陷,部分方法(例如民調)甚至遭遇發展瓶頸。首先,多數預測方法缺少選舉研究理論的系統支撐,未能將「理論驅動」與「數據驅動」相結合,雖然模型範式納入了一些有意義的預測變量,但其模型過度簡約、理論依據單薄,難以檢驗競爭性理論假設;其次,現有預測範式缺少對選民個體層面數據的有效運用,未能納入對選舉產生關鍵影響的選民因素(例如性別、年齡、族群、教育、收入、宗教、職業),過度關注有限的結構性因素或候選人指標等因素,選民作為選舉決策中最重要的能動主體(agent)卻是缺失的;最後,未能充分將預測和解釋相結合,政治學預測性研究應該致力於貫通解釋和預測,在預測結果的同時探索變量之間的因果關係和影響機制,檢驗和優化選舉理論,增進人們對選舉活動的認知。
「科學預測基於對現有信息的分析,對未來尚未發生的事件進行判斷,是風險較大的研究工作」。選舉預測對精度的要求遠超過其他形式的預測,因此風險更大。任何預測方法都可能犯錯,但科學預測對錯誤有著不同的理解和因應方式。首先,方法運用不當導致的問題與方法本身的問題應該區分開來,誤差和錯誤應該區分開來;其次,需要建立一套評價預測結果的客觀標準,科學預測除了精確度之外,還需兼顧超前性、解釋力、可重複性等;再次,失敗的預測可以揭示我們知識和方法的短板,推動收集更優質的數據、優化變量選取和模型建構、反思和改進選舉研究,科學的預測是一種可以被檢驗、被追溯、被改進的預測;最後,量化選舉預測也面臨不可觀測因素、過度擬合(overfitting)以及樣本外(out-of-example)等問題,研究者需要保持謹慎。
選舉預測呈現出以下發展趨勢:第一,數據來源、技術手段和預測機理不斷開拓創新,老方法不斷朝精細化方向改進完成自我升級,新方法旨在彌補老方法的短板和缺陷,不同預測方法相互競爭趕超,形成「百花齊放」的局面;第二,不同範式之間以及同一範式中的不同預測方法之間逐漸整合,各自發揮比較優勢又相互助益;第三,選舉預測越來越成為一個跨學科的研究領域,在這個領域,政治學、經濟學、統計學、社會學、心理學、計算機科學甚至腦科學等不同學科交相融合,需要我們吸納各個學科的理論和方法以及前沿的技術手段來不斷推進預測研究。
選舉預測的若干前沿議題值得學界共同探索:第一,「預測選舉預測」,即預測不同的選舉預測方法在什麼時候、在哪些條件下更加準確,這屬於更高階的預測活動(high-order prediction);第二,提升運用不完全信息和低信噪比數據做預測的能力,預測活動無法等到擁有高質量的數據才去做,必須探索如何高效地收集清洗數據、識別有效信息、減少噪音並將信息轉化為知識和預測力;第三,加大對發展中國家選舉以及各國地方選舉的研究和預測。新興民主化國家的選舉往往對區域性政治動蕩、投資貿易摩擦、族群宗教衝突等產生重大影響,此外,地方選舉的波動性和情境性遠高於國家選舉,現有的各類預測方法盛行於西方成熟民主國家並聚焦國家層面,如何拓展到新型選舉當中、需要做哪些調試和修正,值得學界深入探究。
五、結論「選舉預測是一項高風險的工作,但卻是一項值得探索的科學事業」。選舉預測是社會科學預測性研究的關鍵議題,是政治學理論和方法創新的前沿領域,預測結果不僅可以滿足人們預知未來的好奇心、推進政治科學研究,同時可以指導科學決策。目前科學量化的選舉預測方法可劃歸為四大類:意見聚合範式;模型範式;混合範式;大數據範式。這些預測範式及其具體的預測方法克服了非科學預測的隨意性、不可解釋性、不可重複性等問題,為我們預測選舉提供了豐富的工具。選舉預測接下來的突破方向是將「理論驅動」與「數據驅動」相結合、微觀的個體預測變量與宏觀的結構性預測變量相結合、預測與解釋相結合,通過跨學科合作和藉助前沿技術手段推進預測範式創新,並在預測實踐中不斷更新升級,提升預測過程的透明度和預測結果的解釋力。在這些方面,結合選舉理論和計算機技術的微觀仿真模擬預測方法將是有益的嘗試。
加強對選舉預測以及整個政治學預測性研究的重視並非旨在替代原有的解釋性研究。相反,我們認為預測和解釋是「雙螺旋」式的共生成長關係:解釋性研究可以為預測性研究提供理論和知識基礎,開啟預測的議題和領域,指導預測的數據收集、變量選取和模型建構,以及解釋最終預測結果;反過來,預測性研究可以檢驗和優化理論,發現新的研究方向,提升政治學研究的政策應用價值,等等。兩者相互助益,共同服務於增進人類對複雜政治現象和政治行為的理解。
科學的預測性研究是政治學乃至整個社會科學發展相對滯後的領域,中國政治學者在相關領域涉足更少。相比西方國家(特別是美國)對預測性研究的高度重視和資金扶持,中國在相關學術領域投入嚴重不足。科學的預測性研究呼喚中國政治學者的參與和嘗試,同時離不開學界和政府的寬容、重視和投入。作為社會科學發展的前沿領域,科學預測可以成為中國政治學探索的「富礦」。大數據、人工智慧、仿真模擬等方法的興起為預測性研究提供了新契機。選舉預測的研究經驗表明,解釋性研究和預測性研究可以相得益彰。中國政治學學科可以在不斷完善解釋性研究的同時,探索預測性研究,在諸如政治風險預測研究、海外衝突預測研究、公共服務需求預測研究、公共危機預測研究等領域做出努力,運用政治學理論、知識和方法指導預測活動,通過科學預測不斷豐富、完善和推進政治學研究,提升政治學的科學水平和應用價值。
編輯|小梧桐
審核|華唐門生
-- PoliticalReview --
原標題:《論文 | 王中原 唐世平:政治科學預測方法研究——以選舉預測為例》
閱讀原文