大數據時代的社會科學研究新範式

2020-11-22 中國社會..

  大數據技術體系為推動社會科學借鑑自然科學成果、形成基於數據驅動的社會科學研究新範式提供有力支撐。

 

  不同於自然科學,社會科學以人類社會現象為研究對象,其傳統研究範式在認知準確性方面飽受爭議。然而,大數據時代的到來為彌補這一缺陷提供了潛在的解決方案。隨著全球新一輪科技革命與產業變革的加速演進,數據來源、數據處理以及數據分析等數據相關技術發展迅速,特別是以統計學習、機器學習、深度學習乃至更為廣泛意義的人工智慧為代表的數據分析手段,正在帶來新的認知方式,為形成數據驅動的社會科學研究新範式提供有力支撐。

  大數據概念特徵及內涵

  大數據(Big Data)最早出現於2010年2月英國《經濟學人》雜誌有關信息管理的一篇專題報導。2011年5月,麥肯錫環球研究院在一份題為「大數據:下一個創新、競爭和生產力前沿」的報告中,將大數據定義為「大小超出常規資料庫工具獲取、存儲、管理和分析能力的數據集」。時下較流行的大數據定義是,需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。在維克託·邁爾·舍恩伯格的《大數據時代》一書中,大數據技術被描述為:不再基於傳統隨機分析法,而採用所有數據進行分析的處理模式。海量性(Volume)、實時性(Velocity)、多樣性(Variety)和有效性(Volatility)成為大數據的典型特徵。這也是大數據定義中被廣為接受的3V、4V或nV。此外,大數據技術還包括數據收集(生產)、數據存儲、數據處理、數據分析及展示等各環節所需的專業知識和技能。這些多學科、跨學科交叉的知識技能集成在一起,共同構成大數據技術體系(或「數據科學」)。

  自大數據概念被首次提出後,這一技術已在精準營銷、信息安全、智能製造、語義識別、文本分析等眾多領域的應用中取得豐碩成果。然而,社會科學領域的大數據應用更多停留在概念和模式複製階段。即便如此,學者們普遍認為,大數據的興起為社會科學學科體系的重構和研究範式的改變帶來新機遇。

  有效應對人類社會複雜適應性

  事實上,大數據及圍繞大數據利用形成的大數據技術體系,為有效應對人類社會活動的複雜適應性特徵提供了技術可行性,從而為推動社會科學借鑑自然科學成果、形成基於數據驅動的社會科學研究新範式提供有力支撐。

  其一,大數據技術有助於對社會科學現象進行系統性掃描。傳統社會科學研究受限於資料收集、信息傳遞以及知識獲取的技術性因素,往往不可能對社會現象的全貌進行系統性定位和描述。其二,大數據技術有助於對社會問題進行動態跟蹤。社會科學問題往往具有實時性和演化性特徵,傳統研究方法難以對促使事物轉化的諸多內外因素進行實時跟蹤和反饋,在時間上滯後於事件的衍生和發展進程。其三,大數據技術有助於對事物發生發展的本質動因和多元影響因素進行系統解析。基於顯著性變量設定的傳統研究方法,在技術上無法對影響社會現象的全體要素進行資料收集和計算處理,被忽略要素的顯著影響、顯性突變或累積躍遷效應,可能導致研究結果的重大偏差。其四,大數據技術有助於趨近總體數據。傳統研究方法往往通過主觀判斷或科學抽樣對資料的代表性和誤差因素進行控制,在此基礎上構建量化描述、假設檢驗、參數估計等一系列方法體系。而大數據的總體逼近特徵不僅是對數據資源的擴展,其理論基礎和技術構架更為社會科學發展提供了結構性變革的可能性。

  扭轉對於大數據的認知偏差

  當前的大數據理論和大數據技術與為社會科學複雜適應性提供解決方案的目標仍有較大距離,具體存在以下主要障礙。第一,大數據名稱本身具有一定的誤導性。強調數據之「大」是大數據技術的首要內涵。然而,由於存儲和計算能力的大幅提升,數據收集已成為無明確目標的被動過程。這使得資料的價值密度呈指數化衰減,冗餘數據的處理成本不斷飆升,客觀上形成重數量、輕質量的現實缺陷。第二,大數據的有偏性和非一致性。大數據技術針對特定目標被收集起來的「一手」資料,仍然存在「選擇性偏差」。被動性收集的數據資料使得大數據技術僅能觀測和收集行為發生者的信息。因此,無法保證數據的無偏性和一致性。第三,重技術開發輕問題解決的傾向。大數據技術始於資料的收集、存儲、傳輸和計算,目前的應用也多在這些領域,更多集中於大數據技術開發,而非真正應用大數據解決實際問題。社會科學研究的本質是以問題為導向,應基於現實問題選擇恰當的數據和方法,而非生搬硬套大數據解決方案。第四,重微觀層面的精準定位,輕宏觀層面的總量。大數據在商業營銷領域的成果,使得人們更多地利用大數據對微觀個體進行精準定位、狀態識別和行為預測,而社會科學的核心仍是對社會現象的解析,必須打通微觀基礎與宏觀現實之間的邏輯關聯和傳導機制。第五,過分強調關係發現,輕視因果分析。這也是制約大數據技術發揮有效作用的關鍵問題。這一技術極大提升了收集資料的維度和深度,使得人們可以真正從全局和動態演化的視角審視社會現象和社會問題。但它排斥傳統研究基於因果關係建立的研究體系,試圖越過事物的作用機理而尋求社會現象認知的解決方案。因此,如果大數據技術不能扭轉偏差的認知模式,就很難在社會科學領域取得突破性進展。

  推動社會科學研究智能化

  總體而言,大數據時代的到來為社會科學發展提供了一個重要契機。社會科學研究有望突破傳統社會調查方法以及數理模型、推論統計和計量建模等傳統量化技術的限制。然而,社會科學發展不應該也不會完全局限於當前大數據概念的界定和技術限定。基於社會理論與社會現實問題,主動挖掘多元基礎數據,搭建社會主體間的聯繫網絡,充分利用人機結合的綜合集成模式,溯源社會現象的本源和邏輯傳導機制,從而對社會科學研究對象進行精準量化的結構解析和預測推演,使之成為社會科學未來發展的重要途徑之一,即數據驅動的社會科學研究新範式。

  新範式為突破傳統社會科學研究被動尋找經驗證據的實證方法、建立搭載在數據資源基礎上的主動量化提供新的途徑。問題導向、數據出發、機制溯源、綜合集成、量化計算將是數據驅動的社會科學研究範式的基礎特徵。未來,社會科學研究範式將面臨重大變革,但並不會違背自身的學術本源;更多地應用大數據技術,但不會摒棄建立在定量統計方法上的經驗研究基礎;不斷深入而精準地刻畫微觀個體的行為和狀態,但不會忽略宏觀總量特徵和微觀—宏觀一體化的研究途徑;主要採用數據計算和模擬實驗的科學方法,但仍以人類智慧和專業經驗為指導。在上述基礎上,社會科學將從數據實證應用的研究範式逐步向數據驅動的研究範式轉變。

  數據作為現代社會科學研究的基礎性支撐,不論是多源非結構化大數據還是統計抽樣數據,其核心都是解決與社會發展要求相匹配的現實問題。因此,未來有必要重點關注以下問題。

  首先,建立科學的數據資源評估體系。大數據收集模式的創新並不能完全消除數據樣本的有偏或非一致。建立在大數定律和中心極限定理之上的科學抽樣方法,未來仍有著無可替代的適用性。因此,當前的首要任務應以社會問題為導向,建立較為系統的數據資源(質量)評價理論和評價方法,針對全域、多元、實時的非結構數據提出有效性判定標準,同時關注數據科學的倫理問題研究。

  其次,解決大數據級別的總量累積問題。將微觀非結構數據科學系統地提煉匯總為不同層級的總量信息,是基於微觀大數據解構宏觀社會現象的基礎。數據信息的有效提煉在某種程度上也決定著大數據技術能否真正融入社會科學的研究體系。

  再次,在數據分析基礎上提出解決方案。未來社會科學的發展應以多源數據為基礎,通過智能計算和專家智慧的結合,對社會現象進行量化解析,對社會問題提出科學治理體系和模式,最終建立社會科學「類工程化處置」的研究機制和範式。

  最後,注重邏輯因果機制和機理的發現。大數據研究不能片面地關注相關性,更應注重對社會現象的本質動因進行發掘,科學回答「是什麼」「為什麼」的基本命題。因此,有必要利用多元化實時數據的關聯性優勢,準確釐清社會現象的因果機制,挖掘社會問題的邏輯機理,形成真正科學有效的治理方法和途徑,進而形成智能化的社會科學研究工具和平臺。

 

  (本文系國家社科基金重點項目「數字經濟對中國經濟發展的影響研究」(18AZD006)、「綜合集成模擬實驗平臺的設計與構建研究」(18AJL006)階段性成果)

  (作者單位:中國社會科學院數量經濟與技術經濟研究所)

 

作者簡介

姓名:蔡躍洲 萬相昱 工作單位:中國社會科學院數量經濟與技術經濟研究所

相關焦點

  • 計算社會科學:一種新研究範式
    然而,由於大數據時代數據的生產和社會科學研究的數據挖掘成為兩個相對獨立的過程,研究與數據的生產關係被改變甚至倒置了——從生產數據轉向挖掘數據。因此,相對於傳統的小數據而言,大數據絕不僅意味著更多的數據,還意味著在產生方式、形態、維度、結構、分析方法、與科學研究的關係等方面都完全不一樣。從方法論來看,基於大數據的社會科學研究,實際上代表了一種全新的社會科學研究範式。
  • 大數據應用於社會科學研究的價值與悖論
    隨著雲計算、物聯網、移動網際網路的廣泛應用,人類社會真正進入了大數據時代。通過大數據的運用,我們對人類社會獲得了更為廣泛和深入的認知,進而通過更為客觀和精確的方法,對人類社會進行更加科學和有效的探索和研究。大數據對當前社會科學研究產生了深刻的影響,使社會科學研究的視野和領域發生了革命性的變化。
  • 數據科學研究的現狀與趨勢全解 - 大數據_CIO時代網 - CIO時代—新...
    最後,結合本文工作,為數據科學研究者給出了幾點建議和注意事項。  大數據正在改變著人們的工作、生活與思維模式,進而對文化、技術和學術研究產生了深遠影響。一方面,大數據時代給各學科領域帶來了新的機遇——認識論和研究範式的轉變,出現了一種區別於傳統科學研究中沿用至今的「知識範式」的新研究範式——「數據範式」。「數據範式」的廣為應用成為現代科學研究的一個重要轉變。
  • 推進大數據、人工智慧等信息技術與人文社會科學研究深度融合
    新華社發  當代人文社會科學研究的新場景  ·大數據時代,從典型案例探析研究新動向      人文社會科學研究的真正價值源自於研究問題。把握人文社會科學研究的發展趨勢在於尋求研究問題的解決路徑。相同的研究問題可以從不同學科領域、不同角度以及不同側重點進行分析。在大數據時代,運用信息技術有助於人們更加深入透徹地了解人文社會科學研究中的新動向,例如,進一步跟蹤和關注以下具體研究問題。
  • 教育研究中的科學主義範式與自然主義範式辨析
    在教育研究中,科學主義範式排斥形上學的本體論,自然主義範式則認可質性研究方法;科學主義範式無視研究者個人的存在,自然主義範式則強調人直接參與調研的作用;科學主義範式傾向於將對象進行分解研究,自然主義範式則強調從整體上把握研究對象;自然主義範式主要採取緊跟設計和目的抽樣的研究方式,科學主義範式往往採取預先設計和傳統隨機抽樣的研究方式。
  • 從質性研究到大數據方法:超越與回歸
    大數據研究促使質性研究和量化研究走向融合,社會學的科學性與人文性也獲得了交匯的途徑,大數據方法是對既有研究方法的超越,也蘊含著社會學想像力的回歸。  隨著大數據時代的到來,為區分起見,也有人把這種大多來源於抽樣調查、訪談、行政記錄和實驗設計等傳統統計方法的數據稱為「小數據」,把傳統的量化分析方法稱為「小數據」方法。一般來說「小數據」體積小、易於快速理解、數據的讀取分析和處理都相對簡單。③而大數據指「無法在可容忍的時間內用傳統IT技術和軟硬體工具對其進行感知、獲取、管理、處理和服務的數據集合」。
  • 觀點摘錄 | 新興技術論壇:雲時代的科學第四範式
    大數據時代下微生物與宿主相互作用的研究○ 1.如今數據的溝通和交流變得越來越重要,在生物學的傳染疾病研究過程中,微生物整個發展的相互介入包括整個遺傳學還有物理、化學包括基因組學各方面相互作用,所有的研究過程均會生成大量數據
  • 觀點摘錄 | 新興技術論壇:雲時代的科學第四範式
    ,相關數據採集量越來越大,總體上的數據複雜度也越來越高。○ 1.傳統的科學研究是問題導向的研究,而大數據時代的科學第四範式下的科學研究是產生問題,核心是通過產生大量數據而產生問題首先要通過「測量」獲得大量數據,然後才能進行分析。生命科學已進入大數據時代,與大數據的概念相似,基因組學範式的第一步即是發現基因與表型的關聯。
  • 朱治軍:社會史範式對課程史研究的重構
    新鄉 453007  內容提要:作為一種新的史學範式,社會史倡導整體研究、自下而上視角和運用其他社會科學的理論工具闡釋歷史。在社會史範式的影響和克裡伯德、古德森等人的推動下,西方課程史在研究視域、研究路徑和功能定位等方面實現了積極的重構:從關注過往學校教什麼、如何教等技術性問題轉向探討特定歷史脈絡中課程知識及權力被分配、建構和爭奪的過程;從拒絕基於原始材料之外的歷史書寫意圖轉向運用其他社會科學的理論工具詮釋課程變遷的社會意涵;從如實描述和再現課程領域的全部記憶轉向把課程史作為一種「理智工具」,藉此批判性地審思課程改革中的問題並檢視和修正社會科學理論
  • 計算社會科學:發展現狀與前景展望
    進入21世紀,以大數據和人工智慧等為代表的新一輪科技革命的興起,拉開了被稱為第四代科學——(大)數據集約型科學發展的序幕。作為一門科學或學科的發端,CSS其實可上溯到20世紀中葉馮·諾依曼(John von Neumann)的經濟行為的可計算規範研究、赫伯特·西蒙(Herbert A. Simon)的人工科學等。
  • 大數據管理與分析方法研究北京市重點實驗室召開學術委員會會議暨...
    文繼榮表示,實驗室致力於推進大數據和人工智慧理論系統研究,促進計算機與人文社會科學的學科交叉,推動人民大學整體學科建設,為北京市的科技發展貢獻力量。大數據管理與分析方法研究北京市重點實驗室學科帶頭人、高瓴人工智慧學院副院長竇志成就「大數據、人工智慧與交叉學科研究」年度工作情況作了匯報。
  • 哲學社會科學與時代同行
    高校哲學社會科學隊伍是有中國特色社會主義哲學社會科學事業的主力軍。高校哲學社會科學的健康發展,關係到整個中國哲學社會科學話語體系的構建。當前高校哲學社會科學存在著一些問題,主要表現在哲學社會科學學術評價體系還不夠科學、學術研究的現實感還不夠鮮明等方面。這種狀況,必須引起高度重視。
  • 《第四範式:數據密集型科學發現》中文版圖書正式發布
    10月23日,《第四範式:數據密集型的科學發現》中文版圖書在中國科學院國家科學圖書館正式發布。微軟研究院的《第四範式:數據密集型的科學發現》(The Fourth Paradigm: Data-intensive Scientific Discovery)是第一本、也是至今為數不多的從研究模式變化角度來分析「大數據」及其對革命性影響的專著。
  • 譯見||文旭:認知翻譯學:翻譯研究的新範式
    國家社會科學基金學科規劃評審組專家,國家出版基金評審專家,國務院政府特殊津貼獲得者,教育部「新世紀優秀人才支持計劃項目」獲得者。翻譯的語言學研究是翻譯學的一個主要領域。近年來,隨著認知科學尤其是認知語言學的發展,把認知語言學與翻譯學的研究結合起來已成為一大趨勢,並形成了一種新範式。本文從翻譯作為語言學的研究對象入手,基於認知語言學的哲學基礎、語言觀/工作假設及表徵方法,探討了認知翻譯學的一些基本問題,期望本研究能對認知翻譯學有所裨益。
  • 社會工作研究中方法論、範式和研究方法的選擇問題
    (註:華勒坦等:《開放社會學》,牛津大學出版社,生活·讀書·新知三聯書店,1997年版,第20頁。)到迪爾凱姆的《自殺論》發表,他採取了主客二元論和價值中立的態度,將實證研究發展到非常精細的程度,證實了許多先前的假設。(註:北京大學社會學系林彬博士2000年8月授課內容。)
  • 微軟《第四範式:數據密集型科學發現》中文版發布
    2012年11月7日,北京——微軟研究院今天發布了《第四範式:數據密集型科學發現》論文集中文版,該書是迄今為止為數不多的從科學研究模式角度來分析大數據及其深遠影響的著作。本書擴展了開創性計算機科學家、圖靈獎獲得者、微軟研究院技術院士吉姆•格雷(Jim Gray)的思想,基於e-Science提出了科學研究的第四範式:以大數據為基礎的數據密集型科學研究(Data-intensive Science)以及學術交流。該書從地球環境、健康醫療、科學的基礎架構以及學術交流等四大部分,對數據密集型科學研究願景進行了探討,就如何充分利用科學發展的第四範式提供了深刻見解。
  • 從空間視角拓展人文社會科學研究領域
    有學者表示,空間視角的引入有望拓展人文社會科學研究新領域。 關鍵詞: 作者簡介:   空間和時間是描述和闡釋人類社會發展變遷的兩個基本維度。長期以來,在人文社會科學研究中,時間維度較多受到重視,而空間維度或多或少地被忽視。
  • 哲學社會科學學術期刊的時代擔當
    黨的十八大以來,以習近平同志為核心的黨中央多次強調要堅持政治家辦報、辦刊、辦臺、辦新聞網站,明確提出「堅持以馬克思主義為指導,是當代中國哲學社會科學區別於其他哲學社會科學的根本標誌」。做時代發展變遷的記錄者。當前,中華民族偉大復興戰略全局與世界百年未有之大變局歷史性交匯,「社會大變革的時代,一定是哲學社會科學大發展的時代」。習近平總書記指出:「一切有理想、有抱負的哲學社會科學工作者都應該立時代之潮頭、通古今之變化、發思想之先聲,積極為黨和人民述學立論、建言獻策,擔負起歷史賦予的光榮使命。」
  • 中國工程院院士徐宗本:大數據的挑戰和問題
    大數據的挑戰和問題  談論大數據是時代話題,擁有大數據是時代特徵,解讀大數據是時代任務,應用大數據是時代機遇。這四句話概括出大數據時代。從本質上說,數據,就是指資料的信息化、數位化,大數據的複雜性體現在四個方面,第一,海量性;第二,實踐性;第三,異構性;第四,分布性。
  • 中國近代史研究範式與方法再檢討
    革命史範式、現代化範式、「衝擊—回應」範式與「中國中心觀」取向、「社會—國家」範式與市民社會理論等,一方面為研究近代中國歷史提供了分析工具,從不同方面豐富和深化了中國近代史研究,並帶來歷史敘事的變革。另一方面,這些範式的產生都有其特定的時代背景和學術淵源,也各有其局限。