中國網/中國發展門戶網訊 無論科研領域、無論利益群體,科學數據的有效管理與開放共享使科研工作、廣泛社會公眾與個體普遍受益:推動科學進步,減少重複勞動並收穫更多生產力,打造高效的科學政策邊界;推進科研與教育長期進步;為社會問題帶來新的解決方案;縮短新產品孵化周期、滿足大眾信息訴求等。然而複雜的科研場景中,數據無法按照知識共同體(knowledge commons)來看待和管理,數據的有效流動需要更多激勵措施與質量控制、更複雜的博弈策略選擇與平衡。更好地把握國內外科學數據管理與共享趨勢,有利於我們識別和分析問題,對比和反思現狀,以便對未來形成合理預期與研判。通過大量調研,筆者將科學數據管理與共享相關主題內容進行了整理(表 1)。
表 1科學數據管理與共享相關主題
分類
熱點主題
主要內容
研究
對象
1. 定義與研究範圍
數據、信息、科學數據、數據管理、數據政策、數據權力、開放數據與開放獲取等核心定義
2. 目標和基本原則
特定數據政策的目標和原則
3. 相關利益群體
角色和責任
研究
方法
4. 數據政策方法論
數據政策的體系框架
制定數據政策的方法
理論與
實踐
5. 數據管理
數據資源(如屬性、特徵、質量)
信息技術與標準
全生命周期數據管理
數據交換與交易
數據管理的培訓教育與人力資源體系保障等
6. 數據治理
數據權力
制度的邏輯框架(公共領域:條約、協議、法規、規章、法律;私有領域:非政府間的協約、合同、許可、守則)
開放數據模型
法律限制與開放邊界
7. 數據政策實施
適用性和適用條件
數據政策的解讀
政策實施的評價和反饋
國內外發展趨勢研判
積極溫和的科學數據政策導向
開放數據 FAIR 化提供宏觀原則,數據管理計劃(DMP)堅持務實操作,全方位政策體系日漸豐滿,重塑科學數據開放邊界從未停歇。這些積極的發展態勢並非自上而下、「一刀切」的行政命令,而是與自下而上的一線科學數據生產相呼應,尤其通過技術應用、培訓教育、公民科學發展與影響力全面計量等舉措全面夯實。積極開放是大勢所趨,溫和推進則是現實所需。
「全面開放」FAIR化
2000 年以後,以經濟合作與發展組織(OECD)、地球觀測組織(GEO)、國際科技數據委員會(CODATA)等為代表的一系列國際組織推行「全面開放」(full and open)的科學數據共享政策,旨在推動科學數據資源儘可能免費、無限制性地跨界流動重用。2014 年,荷蘭萊頓一場由多利益相關群體參與的名為「聯合共建數據公平港口」的學術研討會提出「可發現(findable)、可訪問(accessible)、可互操作(interoperable)和可重用(reusable)」的 FAIR 原則,進一步詮釋現代科學數據共享的基本理念並迅速流行。FAIR 原則將科學數據資源依開放狀態分為 6 類,其中「FAIR 化的元數據」「FAIR 化有限開放數據」「FAIR化開放數據」和「FFAIR 化增強版開放數據」等 4 類被認為是開放數據的主要形式。該原則在歐盟、美國、澳大利亞等地普及。FAIR 化數據資產的計量研究和以「Go change,Gobuild,Go train」為主題的 FAIR 運動,進一步使該原則落地。
動態生長的科學數據開放邊界
科學數據共享的深度和廣度也即開放的邊界。英國皇家學會研究報告《科學是一項開放的事業》中明確指出,科學開放邊界的制約因素包括經濟利益(如數據所有權與智慧財產權等)、隱私權力、公共安全等。歷經 4 年準備,歐盟《通用數據保護法案》(GDPR)於 2016 年 4月14日通過審批並於 2018 年 5月25日起正式施行,旨在保護數據時代的歐洲公民免於隱私數據洩露。其核心內容確立「知情權、訪問權、反對權、個人數據可攜權、被遺忘權」5 種公民權利,被視為近 20 年來最重要的數據隱私規章。而數據資產確權由於科研場景的複雜性,仍值得持續探討。可以說,生長著的科學數據開放邊界正是科學數據從封閉走向開放的動態博弈。邊界刻畫將持續成為科學數據共享的焦點和難點。
全方位政策體系的日漸豐滿
從組織視角來開,科學數據管理與共享的政策體系全面擴展(圖 1),無論是國際與國家層面,抑或區域、領域與機構層面或者更小的單元組織。其中,領域機構層面的科學數據政策更貼近科研與數據場景,因而成為推動整個政策鏈條延伸與豐滿的重要力量。除縱向一體化的政策體系搭建外,不同層級的政策聯繫也日益緊密。如以數據外交為橋梁的國際政策與國家政策的接軌,領域機構政策面向國家政策的調整與校正等。
一些組織歸檔了現有數據政策:美國能源部系統生物學知識庫(Kbase)包括美國本土為主的生物信息學數據政策資源;公平共享平臺FAIRsharing收錄面向多領域門類 112 份數據政策元數據信息。歐盟與 OECD 合作組建國際科技政策資料庫 STIPCompass,收集並發布包括中國在內的 51 個國家的科技政策,科學數據管理政策涵蓋其中。
全面細緻的科學數據開放管理
數據管理計劃:從理念到實踐
1995 年,英國經濟和社會研究委員會(ESRC)制定了數據管理計劃(Data Management Plan,DMP),要求 ESRC 資助研究所產生的數據儘可能共享,並做好長期保存和高質量管理。美國國家科學基金會(NSF)於 2011 年 1月規定項目申請需包括數據管理計劃。近年來,數據管理從紙面計劃逐步走向實踐:關注數據類型、數據或元數據格式和內容標準、獲取和共享重用政策、數據歸檔計劃等。大量圖書館、科學數據中心、科研機構、政府部門、國際與區域組織等參與了數據管理計劃實踐的技術支持、政策解讀與培訓教育。
新興技術應用的持續助推
新興技術應用助推科學數據開放共享的例子不勝枚舉。以下僅就區塊鏈推動的數據共享、公民科學激發的數據生產和數據文獻倡議組織(DDI)推行的人機網絡互操作等方面揭示冰山一角。
區塊鏈推動的數據共享。科學大數據全生命周期的多層次演化、流水線處理等特徵,對數據傳輸處理和共享提出全新挑戰。區塊鏈技術提供了解決方案:使用加密算法和共識機制保證安全;追溯源頭並「過濾」,保障數據質量;分布式決策去除中間機構,大幅提升數據共享效率。醫療數據已嘗試利用區塊鏈存儲共享個人健康數據。此外,分布式邊緣計算將發揮更大作用,通過區塊鏈一體化快速實現數據採集、處理和分析。
公民科學激發的數據生產。作為數據採集的新源頭,公民科學蓬勃發展。過去 22 年間,生態旅行者提供的近 3 萬張鯨鯊圖片幫助科研人員有效識別了 20 個鯨鯊聚集點。公民科學的數據價值也不容小覷。例如,公民科學聯盟(Citizen Science Association,CSA)現已吸納超過 80 個國家的會員註冊;而該組織所參與的 1 000 餘個重要科學計劃項目,已有超百萬志願者參與其中。
人機網絡互操作。為推動人機網絡的可理解性,DDI 聯盟推出 DDI3.3,技術內容涵蓋分類管理、非調查數據收集、樣本和權重、問卷設計、支持 DDI 作為屬性圖、質量聲明優化等,主要應用於社會學、行為科學、經濟學和公共衛生領域數據的歸檔、發現與互操作技術指導。
數據出版與可信存儲庫
數據出版為科學數據開放管理提供新平臺。以數據集及數據論文出版在近年流行,如 ESSD(2008年)、GigaScience(2012 年)、Nature Scientific Data(2015 年)、《中國科學數據》(2015 年)等實踐。廣義數據出版還包括數據存儲庫建設。存儲庫為數據集提供存儲和訪問平臺,支持標準化的數據質量控制和完整的全生命周期管理,分為通用存儲庫、機構存儲庫、領域存儲庫、出版物存儲庫、圖書館/檔案館/博物館以及科研項目存儲庫等類型。可信存儲庫作為一種穩定可靠的數據基礎設施,為包括數據出版等開放數據工作帶來技術和管理資源保障。
繁榮的數據管理培訓
數據管理培訓通過實用性強的短期技能訓練,指導科研實踐。其中,涵蓋 20 個國家節點的歐洲政府間組織ELIXIR整體推進歐洲科學數據管理培訓。英國的領域培訓涉及 DCC(通用)、CAiRO(藝術),DataTrain(考古學、人類學)、DATUM(健康衛生)、DMTpsych(心理學)、科研數據 MANTRA(地學、社會科學和臨床心理學)等。CODATA 面向發展中國家科研人員連年提供數據管理技術培訓。Data carpentry由軟體培訓衍生而來,與世界多國合作開展培訓推廣。此外,數據科學專業學位教育也日漸興盛。
影響力全面計量
始於數據引用。2010 年至今,國際科技數據委員會(CODATA)數據引用與實踐工作組詳細討論了「數據引用標準與規範」;2014 年,美國信息科學與技術協會(ASIS&T)數據訪問與保存峰會重點探討數據引用、元數據、數據重用;哈佛大學量化社會科學研究所(IQSS)在 2014年啟動數據引用研究項目。高校圖書館與非營利性組織(如 DataCite、ICPSR)也參與到數據引用規範的制定與推介培訓中。
替代計量學的社會化視角。替代計量學基於大眾社交媒體、傳統主流媒體、學術社交媒體、網絡博客、文獻管理軟體等網絡數據來綜合評價學術成果的社會影響力(包括被瀏覽、保存、討論、推薦、引用等情況)。
數據計量更進一步。從傳統文獻和參考文獻擴展到數據和文獻、數據和數據、數據和數據集間的多重關係,更關注「數據」「學術記錄」以及「學術個人」。
我國的科學數據管理與開放
國家科學數據政策體系概覽
科學數據管理伴隨著科研活動從未停歇,2000 年後尤為繁榮。目前我國已形成由以政府、行業機構和領域數據中心為主體的數據政策體系(表 2)。其中,《科學數據管理辦法》於 2018 年 3 月17日生效。該辦法首次站在國家高度、面向多領域科學數據,提出開放為主的指導原則,具有劃時代意義。
此外,典型行業部門制度建設既包括數據管理辦法,也涵蓋政策指南,如國家海洋局《關於規範海洋生態環境監測數據管理工作的意見》(2015 年 2 月)、交通運輸部《關於推進交通運輸行業數據資源開放共享的實施意見》(2016 年 9 月)等。跨部門合作共享逐步推進,如 2015 年國家林業局與國土資源部籤署數據資料共享協議,建立長效共享機制。領域科學數據中心則將數據實踐與數據政策並軌,值得關注。
相伴而生的科學數據開放共享實踐
圖 2 回顧了我國科學數據開放共享歷程中的部分代表性事件,其中 2017 年 1月—2018 年 7 月國內科學數據共享主要實踐見表 3。從所屬機構看,既包括政府、科研機構,也囊括企業社會力量;從實踐內容看,包括數據基礎設施建設、大數據項目驅動的科學數據管理與開放、科學數據交流研討、國際交流與合作等。相對於數據政策,數據實踐先於政策並服務於政策,絕大部分領域數據政策根植於數據實踐。科學數據管理先行,而開放共享尚在摸索,相關實踐仍以交流研討居多。雖也有開放數據示範平臺,但廣泛的數據共享實踐仍有待開展。
比較思考與發展展望
與發達國家相比,我國科學數據政策與實踐情況
從發展水平來看,《科學數據管理辦法》新近頒布,貫徹落實仍需多年探索積累。基於現有的科學體系和數據資源量,數據政策宏觀管理體系尚待擴展。
從發展廣度來看,國內的科學數據管理典型實踐多集中於自然與工程科學,雖不乏社會科學數據實踐典範,如國家統計數據、研究機構調查數據平臺(如中國人民大學中國調查與數據中心等)等實踐,但與學科科研活動規模相比,仍有很大進步空間。科學數據開放共享整體水平仍需提升,分散於研究個體手中所形成的數據黑洞仍客觀存在。
從發展動因來看,科學數據共享為大勢所趨,但與之匹配的數據共享計量評價與激勵尚不成熟。數據共享工作的動力多來自自發性或者行政約束。如何更好地將有形和無形力量結合,調動全生命周期利益相關者共同參與,關乎科研數據管理事業的未來。
未來科學數據管理與共享主流趨勢
積極溫和的主流共享趨勢仍將持續。從開放科學(open science)到開放獲取(open access)再到開放數據(open data)乃至 FAIR 化實踐,開放數據面向不同科研場景仍需靈活調整。例如,代表全世界 33 個國家 282 個臨床研究人員的實驗數據公平性調查國際委員會(ICIFTDS)組織提出,反對 14 份醫學雜誌關於免費共享臨床試驗數據的出版政策,並認為出版後 6 個月內開放數據不切實際。可見,開放數據非一夜之功,而更如春雨潤物,積極而溫和的共享策略仍將佔據主流。
科學數據私權和公權博弈愈演愈烈。科學數據既應開放共享使社會公眾受益,又需保護特定對象利益免於受侵。為此,科學數據確權至關重要。如何有效尋求公私權力的平衡,既需法律制度的智慧,也需信息技術扶持(如儘可能細粒度地分享數據的同時,降低對號入座的隱私侵犯風險方面的技術探索),還包括全社會的理解與參與,共享文化營建等。
不容小覷的信息技術變革。信息與通信技術引領我們進入全新的數據時代並作用於科研數據資產。科學數據開放共享離不開技術支持,也對信息技術不斷提出新挑戰,如區塊鏈技術的應用、公民科學的繁榮等。以開放心態迎接新技術應用,是推動開放數據管理走向成熟的新利器。
科學數據管理的再認識。成熟的科學數據管理,不僅僅是和數據打交道,更涉及多方利益相關群體的參與。高效的科學數據管理活動需要科學數據管理職責細分,如機構數據資產專業細化、落實責任到人,才有可能保障數據管理達到預期。推動科學數據有效管理的基礎包括但不限於機構宏觀數據管理職能、數據治理機構(制度制定者與踐行者)、團隊文化以及成果度量評價等。
綜上,通過文獻調研與交流實踐,總結了國內外科學數據管理與共享研究與實踐的主要進展。基於國內外實踐對比,從發展水平、發展廣度和動因三方面出發,認為國內的科學數據管理領域實踐日趨成熟,但宏觀發展仍需更多積累,不同學科領域間數據管理水平仍存在顯著差異,信息技術的靈活運用與科學數據管理邊界的拓展將是提升科學數據管理發展的重要推動力量等。(作者:張麗麗 溫亮明 石蕾 鄭曉歡 黎建輝 中國科學院計算機網絡信息中心北京 科技部國家科技基礎條件平臺中心北京中國科學院辦公廳北京。《中國科學院院刊》供稿)
致謝感謝國家留學基金委員會對本文第一作者在美訪學研究期間的支持。