隨著雲計算、物聯網、移動網際網路的廣泛應用,人類社會真正進入了大數據時代。通過大數據的運用,我們對人類社會獲得了更為廣泛和深入的認知,進而通過更為客觀和精確的方法,對人類社會進行更加科學和有效的探索和研究。大數據對當前社會科學研究產生了深刻的影響,使社會科學研究的視野和領域發生了革命性的變化。
儘管大數據這一概念提出很早,但從為社會科學界熟知,到迅速轉向反思與批判,卻僅僅經歷了短短幾年的時間。為什麼社會科學研究能夠迅速對大數據做出響應?大數據在社會科學研究中有哪些應用?大數據應用於社會科學研究體現出哪一些價值?而它在應用中又有哪些悖論使其不能解決社會科學研究所面臨的問題?本文試對以上問題進行分析。
一、社會科學為何對大數據迅速響應
社會科學研究對大數據的快速響應主要包含了兩個層面的問題:一是從普遍意義上講,大數據為本身具有數據需求與實證傳統的社會學科研究提供了更為豐富的數據基礎;二是從特殊意義上講,大數據為社會科學的各個研究領域帶來了新的視野和新的研究方法,提供了更為廣闊的跨學科、跨領域研究的可能。
(一)從普遍意義上講,社會科學研究在研究對象、研究方法、文獻資料、技術支撐等方面需要大數據的迅速融入
社會科學研究很重要的一點是需要數據基礎,而大數據無疑在這一方面具有劃時代的意義,這也是社會科學研究迅速對大數據應用做出響應的基本原因。這主要基於四個方面:
一是從研究對象上講,當前紛繁複雜的社會現象越來越具有編碼數據化的傾向。隨著計算機及其相關技術,如數據編碼技術、傳感器技術、模式識別技術以及計算機仿生學、人工智慧的發展,在大數據時代,事物本身、社會關係乃至人本身的自然狀態和社會活動都存在進行編碼的可能,而人類信息一旦被編碼,則可以通過模數轉換進行數位化記錄,形成計算機可以直接處理的數據信息。
二是從研究方法上講,本身基於數理統計方法的社會科學研究亟需大數據的滋養與豐富。
三是從文獻資料上講,大數據使社會科學研究的信息獲取變得迅速而便捷。基於社會科學研究對象的編碼數據化趨勢,可供研究的文獻資料發展到了極大豐富的階段。
四是從技術支持上講,大數據為社會科學研究提供了亟需的技術支撐。正如美國國家科研委員會在2002年的報告中所稱:「數位技術和網絡的飛速發展從根本上改變和推進了數據在科學及其他各個領域中的生成、分發、管理和使用方式。」信息技術促進學術研究轉變的最新發展就是大數據,它使得數據運用和計算方法成為社會科學的必需品。
(二)從特殊意義上講,社會科學的各個研究領域需要大數據運用帶來的新的視野和新的研究方法,並在跨學科、跨領域研究中有所拓展在具備前述研究基礎的條件下,社會科學各研究迅速地對大數據應用做出了響應。從當前社會科學研究的大數據應用狀況來看,其影響不僅波及社會學科學科及研究領域,更是由此提升了跨學科研究的質量及促進了新興研究領域生長。
一方面,大數據促進了社會科學研究領域的新的視野和新的方法。2012年《華盛頓郵報》研發了新聞核查機器人——truthteller(吐真者),用於新聞事實的鑑別;2014年《洛杉磯時報》和美聯社wordsmith公司開始使用新聞撰寫機器人,直接用於新聞文本生產;《紐約時報》使用新聞編輯機器人——Blossom(花開),英國《衛報》開啟總編輯機器人實驗——紙媒測試計劃,用以挑選新聞熱點,進而生產「一張完全由算法生成的報紙」。國內應用也集中在機器人寫作,如騰訊的Dreamwriter、新華社的「快筆小新」等;機器人挑選新聞,如新聞客戶端以大數據算法為基礎分析熱點並結合用戶習慣,完成新聞信息的自動選擇和發布。可以說業界大數據運用的風起雲湧,促使新聞學研究快速地轉向大數據應用領域,以機器人新聞研究為例,2016年發表文章的數量超過之前的總和。
另一方面,大數據促使社會科學研究向跨學科、跨領域的拓展對跨學科研究以及新興研究領域的生長起到了非常積極的作用,在傳統領域裡難以進一步溝通或協作的學科之間有了更好的交流與對話的平臺和基礎,如大數據背景下新聞傳播學的跨學科發展。2015年中國人民大學喻國明教授出版了《新聞傳播的大數據時代》一書,該書闡釋了大數據時代的新聞內容生產、廣告整合營銷以及輿情信息的抓取與分析等。其中,跨新聞學、傳播學、政治學、管理學等學科的輿情分析與社會治理這一研究領域,已經成為世界關注的研究熱點,而正是大數據的應用——輿情信息的抓取、提煉、分析,成為這一研究領域各學科共通的基礎。
二、大數據應用對於社會科學研究的價值
一般認為,大數據具有4V特徵,即:3V+1V——大量(Volume)、多樣(Variety)、高速(Ve-locity)+價值(Value)。這四個特徵的前三者為客觀性特徵,來自於埃德·頓姆比爾,是需要通過各類計算機工具進行獲取,並可以進行客觀性描述的。而第四個特徵——國際數據公司IDC(InternationalDataCorporation)後來添加的特徵——價值是最重要最核心的,它也是大數據在社會科學研究中應用的最終歸宿。
(一)信息獲取方面,研究者可以高速地獲取更為廣泛的信息、擁有更為廣闊的視域
傳統的社會科學研究,其數據採集主要來源于田野調查和採訪,但由於搜集資料方法的可操作性和調查成本等方面的制約,能夠獲得的數據至少在數量上非常有限。隨著計算機的普及,特別是網絡技術的發展,社會科學研究所獲取的數據大量增加,而且各類專業資料庫也能為社科研究帶來必要的、專業化的數據補充,但數據的準確性和全面性依舊不盡人意。
《大數據》一書的聯合作者,牛津大學網際網路中心的維克託邁爾·舍恩伯格教授,曾說他最喜歡的對於大數據集合的定義是「N=所有」,因為有了整個社會和所有人的數據,所以數據不再需要以抽樣的方法獲得。雖然從目前大數據採集的現實情況看,舍恩伯教授的定義還是一個美好的願望,但當前數據量的增長卻是不爭的事實。美國學者莫裡斯·克萊因曾說「一個時代的特徵在很大程度上與該時代的數學密切相關,數學隨文明的興衰而枯榮」,這句話用在當前的大數據爆炸性的增長方面最好不過了。
大數據是社會信息的集合。社科研究者、社會管理者、社會生產者之間的相互交織,大數據滲透進入了各行各業。而社科研究本身是以社會為研究對象的科學,社會的動向就是研究者開展研究工作的方向。目前,大數據廣泛應用在零售、電信、金融以及教育、醫療、交通等行業,並已經創造出了巨大的經濟價值,這些價值也正在轉化為人類了解世界甚至於認識自身的基礎信息,使社會科學的研究者擁有更為廣闊的視域。
(二)問題挖掘方面,研究者對研究問題能夠快速響應和深度挖掘
如前所述,大數據最核心的意義在於價值的追求,而這一追求需要在一定數據基礎上進行問題挖掘才能得以實現。大數據獲得應用之後,社科研究的研究過程發生了變化或是有了另外一種逆向選擇。
在傳統的社會科學研究中,實證研究具有自上而下的決策和有限數據驗證的特徵,其過程主要為:研究者通過理論探索建構研究的概念模型和結構模型,在此基礎上提出假設,之後通過所設定的研究方法採用適合的搜集資料的手段採集數據,最後通過數據分析來驗證假設。這一過程中,研究者本人的研究水平,包括其經驗、見識以及對研究問題的認知和判斷,決定了研究本身的方向和深度;被研究者也只能囿於研究者想研究的問題,而使最終的數據局限於研究者的研究範疇之內。
從目前的實際情況看,社會科學界運用大數據進行社會研究主要包括資料庫的應用和網際網路信息分析,另外還有其他一些如地理信息系統之類的輔助研究。
我們發現,社會科學研究和網際網路企業在大數據應用方面沒有本質的差異,關鍵是研究的問題不同,企業關注的是產品營銷、品牌形象、位置服務等,而社會科學研究關注的是社會治理、信息傳播、人與社會的關係等社會科學核心話題。
(三)研究方法方面,大數據使研究者的研究方法更為豐富
2009年微軟公司的研究人員託尼等人共同寫作了「TheFourthParadigmData-IntensiveScientificDiscovery」,他們認為,實證的、分析的、模擬的方法能夠用來回答很多問題,但數據密集驅動的大數據的出現,使人類的科學研究將會被計算思維重塑,可稱之為第四範式。從社會科學研究的角度來看,國內學者徐磊認為,「傳統的技術條件只能使人們獲得小樣本、靜態的個體或社會關係的數據,不得不簡化社會研究對象的特徵,人們更多地依賴假設、直覺和經驗解釋社會問題,其準確性和可信度自然大打折扣……糾結了100多年的社會科學研究方法的問題,將徹底歸併到更大的複雜系統認知的問題集合中」。如香港城市大學的祝建華教授在認為大數據研究可以放棄研究模型的探尋,也無需研究的假設便可以依據數據展開研究。大陸學者何非與何克清等則認為大數據開啟了科研中的「第四範式」。
在研究方法的豐富方面,大數據的價值還體現在研究者可以通過大數據對社會問題進行更為有效的前瞻與預測,超越了既有時間序列分析方法的效能。因為,大數據不再是以精確的方式定位分析某條信息、某個人的基本性質,而是在看似混雜的全面性的信息中發現趨勢、預測走勢。如PredictionImpact,Inc的董事長、哥倫比亞大學前計算機科學教授埃裡克·西格爾博士發起成立世界預測分析大會,其在《大數據預測》中對數據效應、集團效應、機器學習、數據表達等問題進行了闡釋,內容涉及公共管理、商業策略、金融風險、社交媒體等社會科學研究的領域。
從現在的應用來看,大數據預測已經在新聞傳播、影視娛樂、金融投資、政策制定等方面得到了快速的應用。如影視行業中依據大數據來進行演員的選擇和劇情的創作、BAT通過大數據平臺預測票房等;相應地在影視產業研究中,有學者就提出通過大數據和雲計算技術建構深度分析平臺,能夠為電影產業的發展和研究提供數據支持和科學決策方面的服務。再如美國學者託馬斯·沙德福通過「搜集1990年到2013年間166個國家的報紙文章,形成大數據後進行,來分析預測是否會發生戰爭」。另外,在網絡信息空間的內容分析方面,2010年美國和英國的三位學者合作發表了《Twitter情緒預測股市》論文,通過近1000萬條推文作為樣本展開網民情感研究,預測股市漲跌。
總體來看,大數據給傳統社會科學研究方法帶來了範式轉變,但目前對大數據方法的選題依據、理論框架、研究設計、數據分析、研究倫理、信度和效度等方面的議題仍缺乏深入的研究,社會科學研究在這些議題上多援引計算機領域學者和數學家們的觀點,而沒有本質上的創新。
三、大數據應用於社會科學研究的悖論
毫無疑問,大數據能夠提升社會科學研究的質量,但近些年的研究表明,對大數據應用於社會學科研究的價值需要有更為理性的思考,既不能否定其積極的意義,也不能誇大其作用。舍恩伯格的《大數據時代》無疑推動了當前的大數據浪潮,在作者看來,從思維的角度講大數據具有三大特徵:「一是基於總體而非樣本的思維,二是擁抱混雜性而非精確性,三是著眼於相關性而非因果性」。這三點也是社會科學研究經常引用的「座右銘」,而對於這一具有革命性的論斷,從當前的研究來看,已經引發了一系列的爭議。我們發現在一些社會科學研究邏輯的基礎性問題上,大數據存在著若干悖論。以下從舍恩伯格關於大數據思維的三個特徵進行探討。
(一)總體與樣本的悖論:大數據的採集與測量中,「一切皆可量化」的理想與數據獲取現實之間存在較大差距
舍恩伯格的第一個思維是關於總體與樣本關係的思維,他認為大數據時代的數據一定是基於總體的。按照舍恩伯格對大數據的解釋,「世界的一切關係皆可用數據來表徵,一切活動都會留下數據足跡,萬物皆可被數據化,世界是一個數據化的世界,世界的本質就是數據」。這一理解歸結為一句話便是數據科學家們的座右銘「Ifyoucan'tmeasureit,youcan'tfixit」(唯有量化問題方能解決問題)。大數據的鼓吹者們宣稱一切「皆可量化」。傳統的社會科學研究不得不以擴大樣本量的辦法獲得描述性統計的精確性,但由於抽樣框的限制,最大比例的樣本量也不可能與抽樣總體相一致,因此傳統的描述性統計所用的樣本再大也具有推論的性質。在大數據時代,全樣本基礎上的全數據成為可能性。
於是我們發現一切皆可量化的結果,按照舍恩伯格的邏輯來講,應該獲取總體的數據。雖然從研究方法上講,社會科學樂見獲得總體的數據,但在社會科學研究中卻與舍恩伯格的願望大相逕庭,主要問題在於社會科學研究對象的特殊性,這主要包括兩個方面的問題。
一是社會學科的研究對象本身的性質決定了難以獲取總體數據。舍恩伯格所描述的能夠量化的總體在社會科學研究中屬於完美數據,是很少出現的,甚至沒有出現過的。以輿情研究為例,通過現有傳感器比如twitter、facebook、新浪微博等平臺,甚至整個網際網路上的數據,都只能是部分輿情。因此,網絡輿情從來就不等於網民民意,網民民意更不是國民民意。當前快速獲得民意的方式主要是網絡調查,而網絡上的聲音和意見是由網民發出的,從統計學角度講,網民作為抽樣框和其背後的人口總體結構之間難以匹配。對於我國而言,據《第39次中國網際網路發展報告》顯示,我國網絡普及率為53%,網民的主要人口指標和實際人口結構有著強烈的差異。
二是社會學科的研究對象本身難以通過測量獲得大數據的概念體系。社會科學研究重在通過概念的操作性定義建構概念間的邏輯關係,而從存在環境上講,大數據存在於各種形式的信息系統中,進行社會科學研究就要對研究對象進行精確的界定,如實證研究需要概念建構與測量的過程。這樣,問題又回到了社會科學研究的一個基礎性問題上,是不是所有的概念均可量化,進而建構概念之間的關係?我們知道,社會科學的研究對象是人類社會的發展規律,而人文學科的研究對象則是人類的精神世界和精神文化;人文學科研究中有人類社會研究內容的指向,而社會科學研究中也有人類精神世界的研究內涵,特別是在跨學科研究及新興研究領域不斷生成、不斷擴展和深入的過程中,難以從學術理念及研究方法上真正切割各學科之間的邊界。那麼問題就還是聚焦在大數據的背景下,無論是人文學科還是社會科學在牽涉人類精神世界研究內容問題上的概念是否可以量化。如「美」這一概念,康德講美是「無目的的合目和性」,黑格爾講美是「絕對理念的精神顯現」,經過社會科學方法的測量,結果卻均為「美的」這一概念,而不是「美」。因此,大數據推崇者所說的「一切皆可量化」是要有限度的,至少在社會科學研究領域而言,在牽涉人類精神領域的概念測量方面,並不是至少潛在可觀察可測量的人類社會那樣,概念的描述性定義和操作性定義具有高度的一致性。
(二)混雜與精確的悖論:大數據追求質量,但數據的混雜性與精確性卻不可調和舍恩伯格強調數據的精確性,但面對多元化來源的海量數據,他用數據的混雜性來解釋大數據的特點,數據的混雜從何而來,主要是兩個方面:一是空間的混雜,這種混雜直接影響共時數據獲取的質量;二是時間的混雜,這種混雜的結果直接影響數據預測的精確。兩者的混雜又構成了數據的盲目增長,而在這一過程中,無效數據的增長使得數據有效性或數據質量大打折扣。
第一,空間的混雜及影響。由於網絡水軍、五毛黨或美分黨在網際網路上大量存在,以及其它的虛假信息的泛濫,經常使得我們所獲取的來自網際網路、移動網際網路的數據的真實性、可靠性值得懷疑。正因為這樣,舍恩伯格以混雜性為名對數據質量進行辯護,會引發大數據領域的社會科學研究基礎問題的紊亂。
第二,時間的混雜及影響。大數據很重要的一個應用是對社會未來發展趨勢的預測。在這一方面,有一個社會科學研究的精度問題,即高速獲得的社會數據能不能精確描述社會的真實狀況。
第三,數據精確性直接相關的是數據有效性的問題。隨著數據量的增大,有效數據與無效數據都在增大。
(三)相關與因果的悖論:大數據的分析與研究範式,相關性的探索不能替代推斷的價值實證研究中相關關係與因果關係的研究都有著重要的地位,而大數據應用於社會科學的主要功能則在於對相關性的探索。在這方面有三個問題需要討論:
一是從相關性研究自身而言,大數據重在發現相關性,而難以解釋相關性。在非大數據應用的情況下,相關性的探索主要依靠研究者對研究對象相關關係的提前設定,通過結構化的數據進行分析,對於提前設定的相關關係證實或證偽,這一過程我們可以稱之為證明相關性。
二是從相關與因果關係而言,大數據無法闡釋表象背後的本質。社會科學研究一直遵循「大膽假設,小心求證」的研究傳統,而大數據的應用使研究有了從假設作為起點之外還可以從數據作為研究起點的另一選擇。
三是從社會科學研究方法而言,質化研究的價值是大數據的相關分析所不具備的。社會科學的研究方法不僅是量化方法,還包括質化方法。而質化方法也是開展相關關係研究與因果關係研究之前進行探索性研究的主要方法,是凝結了研究者高度理論智慧的研究環節。
四、結語
從以上分析可以看出,大數據的生產、分享與使用正在迅速地改變著社會科學研究的格局。它使我們更加客觀、全面、準確認識和了解這個世界,在社會學科研究中取得了不菲的成績。但是大數據所描繪的理想狀態,與我們研究的實際狀況還有很大差距,可能科學研究的結果只能無限趨近於真理。就社會科學的各個研究領域而言,大數據方法的理論基礎、選題指向、研究框架、信度效度和倫理規範都還處於起步階段,只能說當前大數據給社科研究視野的提升、領域的拓展提供了一定的工具和思路。因此,在大數據的應用過程中還需要不斷強化兩個認識:一是對社會科學研究特殊性的認識。社會科學的「研究對象是事實性與價值性的統一,是可預見性與預見的有限性的統一,而且具有偶然性與不確定性。因此,複雜性思維是人文社科研究的總體方法論」,②再發達的技術也無法替代社會科學理論思維對社會現象本質以及研究過程中對人類精神的把握。二是對大數據應用方式和作用範圍的認識。要認識到大數據對社會科學研究具有提升的作用,但只是達到社會科學研究目的的一種路徑。(原文有刪節)
(智庫專家、山東大學新聞傳播學院倪萬唐錫光)