數據——它是複雜紛呈的研究基石,是科學理解世界的基礎,是政治、社會與經濟利益較量的避雷針。數據是如何越變越大的?這篇文章或許能夠告訴我們,數據在過去 150 年如何塑造了今天的科學體系。
插圖:Se or Salme | Nature
原作 Sabina Leonelli
什麼是數據?哪些數據最可靠?數據所有者是誰?過去 150 年裡,人們對數據的認識發生了天翻地覆的變化。曾經,數據被視為是穩定的對象,其重要性僅由少數專業人員說了算。而現在,數據卻成了可重複利用的商品。數據的價值取決於其在不同背景下能發揮多大的作用,以及能否與其它條件形成合力。隨著其體量、種類與價值的不斷增長,數據已經可以推動研究發現的根本進程。
數據成為資產的這種明確轉變,只有在制度、技術與經濟發展相互交織的複雜網絡下才能夠實現。這個複雜網絡的形成歷史與結果,不斷改變著研究本身和它在社會中的角色。
收集商品
直到 19 世紀初,對事實和研究對象的收集工作主要由一些遠見卓識的個人在進行,他們的背後往往是富裕的贊助商。博物學家環遊世界,搜尋著前所未見的生物標本。宮廷天文學家發明出觀測宇宙的各種工具。科學家將由此積累的大量數據,用一些簡單卻強大的模型(如克卜勒定律)和分類系統(如植物學家卡爾·林奈提出的分類系統)進行系統化與分析,從而誕生了英雄理論家從混亂的觀察中發掘秩序的神話。這種個人主義的觀點與數據私有性的觀念密切相關,即數據從根本上講是私有的,其科學價值取決於概念的解讀。
19 世紀發生了一次重大轉變。我們現在所熟悉的數據,被制度化成了社會商品。它們的知識價值、經濟價值與政治價值來自於投資,同時離不開規範與監管。巴黎的自然歷史博物館,本來是一處收藏珍奇植物的園林,後經過重新整理,成為了世界領先、向公眾開放的科學研究寶庫。到了 19 世紀 50 年代,柏林、倫敦和紐約的自然歷史博物館也紛紛效法。
食品市場的集中化催生了對生物體進行估值和貿易的標準化方法,例如美國芝加哥貿易委員會制定的農作物度量方法。歐洲的霍亂疫情促使人們大規模地收集有關疾病傳播和傳染對象的信息。新的可視化技術與分析方法應運而生,比如約翰·斯諾醫生曾用那張著名的地圖揭示出倫敦市中心的汙染水源才是傳播霍亂的媒介。
國家級的氣象服務部門開始在各地區收集的數據之間建立聯繫。1853 年布魯塞爾航海氣象大會將船舶的航海日誌編入了氣候科學的第一個準全球性數據記錄。在柏林,第一個真正意義上的標準局——帝國技術物理研究所,於 1887 年成立。物理學家赫爾曼·馮·亥姆霍茲擔任第一任所長,並受命生成全社會所需要的數據。同時,美國陸軍責成陸軍醫務部部長辦公室圖書館盡其所能地收集疾病病例報告。不到 30 年,這個圖書館就發展成了全世界最大的醫學圖書館。
國家寶藏
進入 20 世紀,民族國家的崛起和與日俱增的國際貿易需求,促使人們積極地採取更加系統和客觀的方式來測量自然與社會。國家信息基礎設施促進了區域間的數據共享,標誌著新一輪信息全球主義的開始[1]。國際聯盟和國際貨幣基金組織這類國際實體,迫切地希望能夠實現多目的、所有科學領域的數據收集與分析的全球化。
例如,國際聯盟衛生組織成立了生物標準化常設委員會,從 1924 年開始監督藥物測試和生物測定。早在第二次世界大戰爆發之前,共享就業、失業、工資和移民信息的大趨勢已經形成。1947 年起,新的國際統計委員會開始負責這些數據的收集工作。不斷壯大的研究人員、管理人員、商人和政治家群體推動著這類工作的進行。
隨之發展還有各種實現量化的複雜方法。統計學變成了一門單獨的學科,成為了新興保險業和公共衛生監測系統的主要信息來源[2,3]。人們開發出了各種各樣的技術,以應對人口普查等高度複雜的社會事務[4]。人口層面的思考也在好(遺傳學)壞(優生學)兩個方面影響到了生命科學。一種新型的數據收集手段以單一模式物種(如果蠅)的基因突變為焦點[5,6]。
圖片來源:Pixabay
兩次世界大戰對數據收集和共享造成了嚴重的短期影響。但是從上世紀 40 年代開始,對情報和信息技術的巨額軍事投入開始把趨勢轉向機械化計算。太空競賽或許是冷戰對全球化數據系統與實踐、特別是衛星技術做出的最大貢獻:不僅帶來了從太空拍攝的第一個地球影像,還推動了 60 年代全球民用通信網絡Intelsat(國際通信衛星組織)系統的出現。
世界氣象組織於 1950 年成立,負責管理各地區氣象部門在一些國際項目中的合作,比如全球大氣研究計劃等。1957-58 年的國際地球物理年標誌著地球科學對全球數據交換事業的承諾,也是冷戰時期一項外交成就[7]。
全球貨品
從 1970 年代開始,幾乎每個科學領域都在建立用於數據共享的全球數位化基礎設施。聯合國加強了其全球環境監測系統,同時,世界衛生組織也將其在防控傳染病擴散方面所做的努力加以系統化。開發新工具成了一種必殺技,比如能夠處理空前規模數據的計算機模型。
逐漸地,數據被看作能夠重新利用的可共享資產,其價值也隨用途而改變。這種看法很大程度上受到了強調模塊化和複雜性的控制論運動的影響[8]。再者,國際貿易的增長,以及越來越多的人把研究看作經濟發展、軍事力量與國際關係的引擎,也推動了數據作用的轉變。
同樣也是在 70 年代,大科學項目走上了舞臺的中央,比如從事粒子對撞研究的美國洛斯阿拉莫斯國家實驗室和歐洲核子研究組織 CERN。在這些項目裡,數據的產生和交換不再由個體研究人員完成;相反,它們是在大量投資和集體努力下,來自中心化實驗設施的產物。在很多領域,這樣的中心化是不可行的。例如以觀測為主而不是以實驗為主的環境、生物和氣候科學領域。但即便是這些學科也在抓緊建立自己的信息共享網絡,以便將信息輸入最新的計算工具。
自 80 年代以來,可攜式計算機、建模和仿真的出現,改變了數據收集、處理和歸檔的方式。氣候科學家開發出了全新的方法,可以使用遺留下來的記錄重建全球規模的大氣歷史。這項工作推動了國際數據的匯集,並最終推動了 1992 年全球氣候觀測系統的建立。
在生物學領域,大型遺傳測序項目讓生物學圖譜的繪製水平精確到了分子級別。從最早對秀麗隱杆線蟲這類模式生物進行基因組測序,到現在的「人類基因組計劃」[9]。測序資料庫被重構成全新發現的試驗場,通過推動低成本實時共享、可視化和在線分析,讓基因組數據的龐大投入轉化為有用的知識。
開放時代
隨著全球範圍內數據基礎設施和相關制度的蓬勃發展,維護它們所需的資源也與日俱增。但這些資源與當前的資助、貢獻和傳播制度卻並不兼容。例如,生物資料庫的管理員做著非常關鍵的工作,卻不能經常在頂級期刊上發表文章,也不太會被認為是高級研究人員,得不到應有的獎勵。類似地,維持數字平臺穩健性和適用性也需要大量投資。被遷移和重新利用的數據越多,它們面臨未授權使用以及遭到誤導性操縱的可能性就越大。
在過去的幾十年中,開放科學運動一直呼籲讓廣泛的數據共享成為更好研究的基礎。這也推動了一些變革。首先,由此誕生了一批主要從事數據集出版的期刊。此外,數據基礎設施領域得到了投資者的青睞,歐洲開放科學雲的建立便是其中一例。而《FAIR指南》的編制也為數據的標記和管理提供了實際方法,使得數據可以重複利用[10]。也有人呼籲提高數據管理人員(如技術員,檔案員和管理員)的待遇,讓他們的專業地位從支持工作者提升到知識創造者[11]。
當前研究系統面臨的大規模危機,其根源在於我們無法對數據的各種社會和科學方面進行妥善的協調,因此,這些改革只能解燃眉之急。這場危機使人想起了 20 世紀的研究數據被重新配置成了政治和經濟資產。數據的所有權可以賦予權力並代表權力,而數據的洩露則會構成安全威脅——比如冷戰時期對核試驗相關地質數據的保密工作。如今,新技術的誕生也伴隨著數據所有權和交易體制的興起。從本世紀頭十年開始,少數的幾家公司已經創建了並管理著一種新型數據:數十億人在網上會面、工作、娛樂、購物和互動時留下的數據。(想想亞馬遜和谷歌吧。)
不僅算法的透明度在降低,用於解讀數據的技術和工具的透明度和可靠性也在不斷下降。數據管理員的地位仍然像是學術界的灰姑娘,而理解並從事數據管理的人已經在產業界扶搖直上。圍繞著數據產權的擔憂不斷增加,尤其是在 Facebook 和劍橋分析之類的公司濫用個人數據之後。
數據到底是公共產品還是私人財產?諸如此類的緊張關係長期影響著相關實踐和技術發展。舉個例子,回憶一下 90 年代關於基因數據的所有權和傳播權的激烈辯論。在那次事件中,百慕達規則(Bermuda Rules)的建立宣告了免費共享的勝利。公共資金資助的研究人員之間達成了一項協議,要儘快將自己的測序結果保存在公共資料庫中[12]。這項工作大獲成功,也為其他領域的開放數據實踐鋪平了道路。同時,它也讓人們意識到,擁有基因組數據可以帶來經濟上的好處[13,14]:一些公司迅速發現了這一點,他們為客戶進行基因測序,並宣稱可以解讀測序結果,不過他們通常會保存並使用這些數據。另一個例子則是化學產業為合成生物申請的大量專利。
谷歌在美國的一個數據中心裡存放著成排的伺服器。| 來源:Connie Zhou / Google / ZUMA Press
附加價值
全球性、全方位、易於獲得的數據資源,是大數據成為人工智慧系統輸入信息的前提。理論上,強大的分析工具與大量的生物數據相結合,可以為個性化醫療和精準農業提供支持。同樣,從網際網路平臺和社交媒體服務中獲取的社交數據,也可以引導基於證據的政策制定、商業決策和教育。然而,歷史表明,研究數據的遷移並非易事。圍繞數據整合與使用的根本技術問題實際上是棘手的社會、道德和語義問題。
如何鼓勵不同的研究文化之間展開有效的溝通?如何才能最好地收集、共享和解讀來自政府、業界或社交媒體的數據?哪些專家和利益攸關者在數據管理和分析上享有發言權?誰在什麼情況下可以用哪種方式使用數據?解決這些問題需要有效的監管,對當前研究領域的長遠認識[15,16],以及研究具體對象所需的技能、方法和制度[17]。
總之,數據的生成、處理和分析不可避免地摻雜著價值取向。這些活動的科學合理性,取決於這些價值取向在多大程度上受到了公眾的監督。確實,迄今為止最好的數據密集型研究案例都制定了相關策略與方法,確保研究充分考慮到了在數據收集、存儲、傳播和分析中的各種選擇過程。
例如,PomBase(用於粟酒裂殖酵母)和 FlyBase(用於果蠅)等模式生物資料庫可以清楚顯示其所存儲數據信息的出處,包括創建人、研究目的以及實驗的環境等信息。用戶也能因此評估數據的質量和重要性[18]。同樣,《癌症體細胞突變目錄》(COSMIC)也記錄了其數據的出處,並對數據管理員在處理過程中做出的決策進行了解釋。這有助於臨床醫生重新評估信息的價值[19]。
大型數字基礎設施過濾掉的假設和判斷越多,就越容易隱藏或者丟失這些假設和判斷,後人也就無法妥當地處置這些數據。數據是一種文化產品,只有在知曉其出處和後續處理過程後,才能明白它的重要意義。
技術發展,尤其是數位化進程,已經徹底改變了科學的生產過程、方法論、傳播方式、目標、參與者和所扮演的角色。而同樣重要的是科研流程、規則和制度的巨大變化——它們決定了科研活動的參與者及其行為、環境與原因。總而言之一個詞:治理。數據是相互關聯的對象,不論其意義與解讀如何,數據作為證據來源的身份,取決於相關者的利益、目標和動機,還有他們的體制與財務背景。從數據中提取知識絕不是一種中性行為。
將可靠的決策記錄融入數據系統,輔以它們明確代表、包含或排除的對象,將極大地增強未來數據使用的責任性。這也把價值取向的問題帶入了研究的核心,我們再也不能像生物倫理學曾經發生過的那樣[20],假裝這不屬於科學研究的範疇。如果想用大數據科學解決 21 世紀的嚴峻社會和環境挑戰,這將是不可或缺的前提。
參考文獻:
1. Hewson, M.in Approaches to Global Governance Theory(eds Hewson, M. & Sinclair, T. J.) Ch. 5 (State Univ. New York Press, 1999)
2.Desrosières,A. La politique des grands nombres: Histoire de la raison statistique(Editions La Découverte, 1993).
3.Porter, T. M.Trust in Numbers: The Pursuit of Objectivity in Science and Public Life(Princeton Univ. Press, 1995).
4.Von Oertzen, C.Osiris32, 129–150 (2017).
5.Kohler, R. E.Lords of the Fly: Drosophila Geneticists and the Experimental Life(Univ. Chicago Press, 1994).
6.Strasser, B. J.Collecting Experiments: Making Big Data Biology(Univ. Chicago Press, 2019).
7.Anorova, E., Baker, K. S. & Oreskes, N.Hist. Stud. Nat. Sci.40, 183–224 (2010).
8.Pickering, A.The Cybernetic Brain: Sketches of Another Future(Univ. Chicago Press, 2010).
9.Hilgartner, S.Reordering Life: Knowledge and Control in the Genomics Revolution(MIT Press, 2017).
10.Wilkinson, M. D.et al. Sci. Data3, 160018 (2016).
11.European Commission Directorate-General for Research and Innovation.OSPP-REC: Open Science Policy Platform Recommendations(European Union, 2017).
12.Maxson Jones, K., Ankeny, R. A. & Cook-Deegan, R.J. Hist. Biol.51, 693–805 (2018).
13.Parry, B.Trading the Genome: Investigating the Commodification of Bio-Information(Columbia Univ. Press, 2004).
14.Sunder Rajan, K.Biocapital: The Constitution of Postgenomic Life(Duke Univ. Press, 2006).
15.Edwards, P. N.A Vast Machine: Computer Models, Climate Data, and the Politics of Global Warming(MIT Press, 2010).
16.Daston, L. (ed)Science in the Archives: Pasts, Presents, Futures(Univ. Chicago Press, 2016).
17.Ankeny, R. A. & Leonelli, S.Stud. Hist. Phil. Sci. A60, 18–28 (2016).
18.Leonelli, S.Data-Centric Biology: A Philosophical Study(Univ. Chicago Press, 2016).
19.Forbes, S. A.et al. Nucleic Acids Res.45, D777–D783 (2017).
20.Leonelli, S.Phil. Trans. R. Soc. A374, 20160122 (2016).
ID: Nature-Research