大數據文摘出品
來源:nature
編譯:張睿毅
2007年,一群有野心的科學家召集了一次會議,討論新興的社會科學數據處理的藝術。他們想運用自己的技能來改變世界。在演講中,麻薩諸塞州劍橋市哈佛大學的政治學家加裡·金(Gary King)說,數字信息的泛濫「將使人們有可能了解更多有關社會的知識,並最終開始解決(實際上是解決)影響人類富足的主要問題」。
那時,已經有少量的計算社會科學研究完成發表。2006年的一項研究通過創建一個由14,341人使用的人工在線音樂市場,研究了社會影響力對音樂流行的作用。參與者選擇了要下載的歌曲,有時帶有或不帶有有關這些歌曲在其他市場用戶中的流行程度的信息。
研究發現,歌曲的受歡迎程度越來越難以預測用戶受他人行為的影響,這提供了一種為什麼難以預測不可控的成功的解釋。
來自盧安達150萬用戶的手機數據有助於推斷出部分財富和貧困(較黑暗的地區更加貧困)。
兩年後,一項研究分析了六個月內100,000名手機用戶的移動情況,研究發現人們出行模式簡單且高度重複。作者可以計算在任何特定位置找到個人的可能性,並建議確定社區中出行方式的相似性可以幫助進行城市規劃,了解疾病的傳播或為緊急情況做準備。
同年,科技雜誌《連線》(Wired)發表了一篇文章,認為大數據時代將標誌著整套科學理論的終結。儘管被廣泛批評為過於簡單化,但該文章還是觸動了研究者的神經:十多年後,社會科學家多次援引《連線》(Wired)文章,以表明社會科學理論的相關性正在受到攻擊。
但是大數據的趨勢只增不減。對於費城賓夕法尼亞大學的社會學家鄧肯·瓦茨(Duncan Watts)而言,社會科學的變化讓人想起1990年代生物學的變化,當時高通量技術開始產生大量有關DNA序列和基因表達的數據。他說:「新數據中出現了雪崩式增長,需要以非常不同的方式來考慮數據。」
但是,許多傳統的社會科學家對這場革命的最初成果並沒有留下深刻的印象,並發現其中的一些方法值得懷疑。懷疑論者將對社交媒體的研究視為對數千名不知情和不同意的參與者進行的實驗。2018年,有消息傳出,英國諮詢公司Cambridge Analytica未經其所有者同意,已從數百萬個Facebook帳戶中收集了數據。醜聞的餘波繼續給社交媒體研究帶來更多的審查和猜測,隨著平臺制定新的隱私政策,一些科學家的項目受到了阻礙。
大數據領域還因早期解決「玩具」問題的論文而被汙名化,這些問題可以從數據中得到回答,但並未解決社會科學中長期存在的基本問題,例如如何解決不平等問題或影響公眾輿論。
GESIS萊布尼茲社會科學研究所的計算社會科學家克勞迪亞·華格納(Claudia Wagner)表示:「一開始,很多Twitter研究讓社會科學家們並不興奮。」
一些人認為玩具問題的接納至少有一部分是逐漸找到根基的新興領域的產物。Strohmaier說,隨著分析因素變得越來越複雜,數據來源也越來越多樣化,該領域已經開始解決更重要的問題,例如歧視,不平等和激進化的根源。他說:「只有現在,我們才能獲得可以查看重大問題的數據。」
手機數據表明人們堅持簡單,可預測的運動方式。
例如去年,來自公共衛生和行為經濟學的研究人員在美國衛生保健系統中使用了50,000多名患者的衛生保健記錄,分析了一種常用算法,該算法建議有複雜醫療需求的人進行額外的監督和健康幹預。該團隊使用建模方法表明,該算法系統地歧視了黑人,從而可能影響數以百萬計的人們的保障。
然後,研究人員利用美國醫療保健差距來追蹤這種偏見的根源,並提出消除偏見的方法。例如,算法不應假設個人醫療保障支出是他們需要多少醫療保障的重要因素:由於無法平等地獲得醫療保障,照料黑人美國人的花費通常比白人美國人少,甚至當他們有相同的醫療保障需求時。
但是獲取良好數據並不是唯一的挑戰:從物理學或計算機科學領域出身的科學家被指控未能檢查社會科學家為解釋人類行為而制定的理論。「他們傾向於尋找模式,」朱利亞·安德裡格託(Giulia Andrighetto)說,他接受過哲學教育,但現在是義大利國家研究理事會下屬的義大利認知科學與技術研究所的計算社會科學家。「但是通常他們不會尋找產生這些行為的機制」。
要進行這項工作,需要牢固地掌握社會科學理論。多哈哈馬德·本·哈利法大學(Hamad Bin Khalifa University)的計算社會科學家安吉孫(Jisun An)於2010年開始獲得計算機科學博士學位,在計算社會科學運動開始盛行之際,她研究社交媒體上的新聞共享模式。
最初,她只與其他計算機科學家合作,而他們努力處理不同的社會科學理論。現在,她與政治科學家合作研究媒體對公眾輿論的影響(反之亦然),以及如何鼓勵人們提高新聞來源的多樣性。安說:「隨著時間的流逝,雙方在語言和方法上都相互理解。」
現在有融合的端倪。計劃於2021年舉行首次會議,將上述兩種方法結合起來。大學還創建了一些研究所,將來自不同部門的人員聚集在一起,以彌合鴻溝。例如,維吉尼亞州費爾法克斯的喬治·梅森大學就有專門的系。計算社會科學的夏令營在全球30多個地方舉行,一群熱情的年輕學生以及增加的可用工作機會給人們帶來了一些希望,即權力鬥爭可以讓位給更多樣的合作。
兩種方法的結合可能很強大。西雅圖華盛頓大學的數據科學家約書亞·布魯門斯託克(Joshua Blumenstock)和他的同事使用盧安達數百萬人的手機數據來推斷他們的社會經濟狀況,然後將其結果與使用常規調查收集的數據進行比較,從而證實了他們的結果。例如,政策制定者可以使用這種方法將目標對準需要幹預的國家貧困地區,或者監測已頒布政策的效果。
但是缺乏溝通的問題仍然存在。哈佛大學的社會科學家瓊·多諾萬(Joan Donovan)指出了去年發表的一項研究,研究人員在Facebook和VKontakte平臺上繪製了網絡仇恨團體網絡,並展示了網絡結構隨時間的變化。她說,進行這項研究的物理學家和計算機科學家未能在他們的工作中引用關鍵的社會科學研究,結果,他們對研究結果的解釋並不像可能的那樣豐富。
他們還調查了很少的社交媒體平臺,而過去的研究表明,仇恨團體會在許多領域跟隨有魅力的領導者。團隊得出了她認為危險的結論:社交媒體平臺可以嘗試引導仇恨團體中的討論,例如通過創建虛假帳目或在仇恨集群之間進行工程對抗。她說,這可能通過增加小組中的討論量並提高其在搜索算法上的排名來適得其反。她認為,更好的策略是通過讓搜尋引擎限制此類人群的知名度來檢查仇恨消息的傳播。
美國的治療師會檢查患者的肺部。醫療保健決策通常是通過算法得知的,其中一項研究發現存在種族偏見。
華盛頓特區喬治華盛頓大學的物理學家尼爾·詹森(Neil Johnson)是仇恨研究的主要作者,習慣於接受社會科學家的批評。他說他引用了最相關的參考文獻。他說,對於搜索算法,社交媒體公司有權操縱它們,「就像他們現在正在壓制反疫苗和COVID-19錯誤信息頁面和群組的突出顯示一樣」。他研究過錯誤的信息,衝突和極端主義,並說每次發表高調論文都會遭到投訴。
但是他的工作引起了政策制定者的共鳴:組織經常要求他諮詢,這些組織喜歡他的工作的定量性質以及能夠對幹預措施可能產生的影響進行建模的能力。他說:「我們真的可以用我認為他們沒有與其他學者互動的經驗來看待具體問題。」對於詹森而言,他擔心太多的社會科學家會在沒有經過適當培訓的情況下衝向計算方法。
詹森並不是唯一對理論對他們的項目的重要性持懷疑態度的科學家。Giangiacomo Bravo受過社會經濟學家的培訓,現在是瑞典Växjö的Linnaeus大學的計算社會科學家,他說許多社會科學理論太含糊,無法使用大數據進行檢驗。例如,社會資本的概念有時被定義為社會中允許個人共同努力的共同理解和價值觀。他說:「這種社會資本概念的原始表述太模糊而無法檢驗。」 「我怎麼測量?」
但是,有些理論更為具體。研究社會規範(控制社會上可接受或不可接受的行為的共同規則)的安德裡格託(Andrighetto)說,研究人員花了十年的時間為該主題拼湊了清晰的定義和理論。例如,該理論建議,當社會規範發生變化時,應促使人們對特定情況的反應方式發生變化。人們還認為,社會規範只會在緩慢的社會互動過程中緩慢變化。諸如此類的可測試陳述使Andrighetto可以將計算工作與社會科學理論相結合:她使用在線實驗8來測試社會規範的模擬變化是否會影響行為。
她並不孤單地想要利用社會科學來改變世界。瓦茨說,他和其他學術研究人員常常是在追求出版物,而不是現實世界中的解決方案。他說:「當論文發表時,我覺得我的工作已經完成。」
「把這些想法付諸實踐是我的工作,而要想出如何將它們轉化為現實世界中有意義的幹預措施,則是別人的工作。」
瓦茨說,為了實現這種轉變,兩個陣營的研究人員必須保持合作的動力。有些人已經可以感覺到它的發生。華格納說:「傳統的社會科學和計算社會科學實際上隨著時間的流逝越來越緊密。」
「在20年內,將沒有鴻溝。」
相關報導:
https://www.nature.com/articles/d41586-020-01747-1