摘要:「老科學家學術成長資料採集工程」(以下簡稱「採集工程」)是由中國科協牽頭,會同中組部、教育部、科技部等11部委,以搶救和挖掘我國老一輩科學家學術成長史料為目標的國家基礎性工程。採集工程歷經10年建設,已積累海量可供探究科技人才成長規律、宣傳卓越科技人物的實物和數據資料。本文從信息化建設角度出發,在系統介紹當前採集數據成果的基礎上,對各環節涉及的數據採集、存儲、分析和展示的全生命周期管理和信息化系統進行歸納分析和展示,總結採集過程中遇到的問題,並據此提出建議。
●1. 採集工程緣起●
2009年,季羨林、任繼愈、錢學森、貝時璋等學術泰鬥相繼離世,引發社會廣泛關注。中國科協組織專家研究起草《老科學家學術成長歷史資料亟待搶救》報告並上報中央,國務院領導高度重視並作出批示,2010年,採集工程正式啟動。
截至2019年底,採集工程已啟動543個採集小組,共有427位科學家的125128件實物資料、298498件數位化資料、8000餘小時的音頻資料、7000餘小時視頻資料入藏,涵蓋科學家口述文字資料、傳記、手稿、報導、學術評價等共計15個分類。
●2. 採集工程信息化建設●
2.1 平臺概覽
為永久保存採集工程數位化資料,中國科協創新戰略研究院於2013年啟動了採集工程信息化建設。目前已建成服務採集小組、項目管理、研究支撐、對外展示不同業務場景的11個應用系統/工具(表1),擁有1PB大容量NAS架構存儲,業務系統雙活災備,全面支撐採集工程的「採、藏、研、宣」工作。
表1 採集工程信息化系統總覽
上述11個業務系統及基礎設施平臺的整體業務架構如圖1所示。
圖1 採集工程信息化業務架構圖
2.2 業務系統概述
目前採集工程信息化平臺運行了11個業務系統,分別面向採集、管理、服務、支撐和展示等五大類業務。採集業務主要服務採集小組資料採集和規範入庫工作,管理業務為資料管理者、學術專家提供資料入庫、審核管理和查詢功能,服務業務提供全文檢索、目錄檢索和基於典型流媒體資料的轉碼、播放和管理服務,支撐業務提供內容發布管理和運營分析,展示業務實現對採集資料的公開展示。五類業務之間的關係如圖2所示。
圖2 採集工程信息化系統關係圖
五大業務中,除展示業務外的其他四類屬於與硬體類似的基礎設施,對於用戶不可見,但卻是支撐展示不可或缺的根基。展示業務是對用戶可見的系統,其核心是中國科學家博物館(網絡版)。自2015年啟動建設以來,中國科學家博物館(網絡版)已成為科技人物宣傳的重要陣地、弘揚科學精神的窗口以及開展科技人物學術研究、進行文獻檢索的資源寶庫。同時,為了加大中國科學家精神及採集工程的海外宣傳推廣力度,創新院於2017年6月啟動了中國科學家博物館(英文版)建設工作,該網站已於2018年12月正式上線。此外,展示業務中另外一個平臺—科學家數據可視化系統,力求方便快捷地從多個維度對採集資料進行統計分析及快速展示(圖3),也已於今年上線。
圖3 數據展示業務組圖
2.3 平臺數據總覽
採集工程信息化平臺數據包括資料數據、成果數據、項目數據和業務系統數據(圖4),涵蓋採集項目啟動、中期、結項全過程(圖5)。
圖4 採集工程數據結構
圖5 採集工程數據生命周期
2.3.1 採集工程數據概述
採集工程的項目數據包含年採集量、承擔單位數量、參與課題人員的數量以及項目管理方數量等。截至2019年底,參與採集工作的項目承擔單位共554個(含終止項目)(圖6),參與課題人員達4124人,承擔項目管理工作的地方科協、所屬事業單位及各級學會共19家,遍布全國24個省市自治區。從年採集數量上來看,採集工程經歷了搶救期(2010年-2012年)、過渡期(2013
年-2016年)、平穩期(2017年至今)等三個階段,目前採集工程已進入常態化工作階段。
圖6 科學家和群體年度採集數量圖
目前,位於中國科技會堂的採集工程自建機房已存儲經初步規範化清洗、總量達218TB的科學家資料,平均每位科學家的數據總量約400GB,單個文件最大可達100GB(圖7)。
圖7 數位化資料和實物資料逐年數量
2.3.2 中國科學家博物館(網絡版)數據概述
截至2019年,中國科學家博物館(網絡版)已建設完成了375位科學家的專題。其中,以科學家為單位、依據其學術成長脈絡梳理、加工開發進行展示的「珍貴史料」欄目,已成功上線17866件數位化資料,且以每年千件的速率穩步增長(圖8)。
圖8 2015-2019年科學家博物館上線採集資料數量趨勢
2.3.3 系統數據概述
除採集資料數據、成果數據以及項目數據外,採集工程信息化業務系統中也存在諸多數據,如內容管理系統中的編輯展示數據、英文網站以及可視化系統中各類統計數據、科學家資料數據服務系統中的系統管理數據、中國科學家博物館(網絡版)運營分析系統中的運營分析數據等等。採集工程信息化業務系統中的主要數據如表2所示。
表2 採集工程信息化業務系統數據內容及數量
●3. 思考與建議●
隨著採集工程業務體系逐年擴大,現有信息化框架如何適應需求的變化、數據資源的開放標準和價值挖掘等將是採集工程信息化建設面臨的主要問題,據此我們提出如下建議:
一是注重信息化應用的頂層設計,健全數據治理環節。採集工程歷經十年建設,隨著用戶需求的不斷延展,查漏補缺型的應急型應用建設模式已經難以為繼。注重頂層設計、優化數據生產模式、完善數據管控工作機制、突破業務與信息化間的融合壁壘、將信息化手段以標準規範的細粒度貫通全生命周期管理,是採集工程信息化建設的當務之急。
二是探索科學家數據開放模式,加快推動數據資源開放標準建立。隨著採集工程以採集為核心轉向側重應用的趨勢導向,面對已積累的海量科學家數據資源,當前的數據管理及利用審批模式並不能充分滿足數據開放使用的需求。這就要求在充分考慮從數據研究到成果轉化和實際應用周期的前提下,採取「分對象、分領域、分階段」的開放原則,推動科技人物數據資源開放標準化,打造「科技史+N」的複合型隊伍,為實現數據二次開發利用提供國家層面的準則支撐;面向不同需求,逐步探索進行開放共享、分級使用等舉措,推動數據服務精準指向。
三是拓寬數據複合型產品研發模式,佔領中國科學家精神宣傳數據高地。以現有「中國科學家博物館」網站為基礎,盤活科學家數據資源,建成集「人-事-物」為一體的綜合性科技人物數字博物館;充分利用中國科協的優勢資源,將分散在各機構各平臺下的異構數據源重組,統一交互模式,消除「信息孤島」,在對現有數據有效整合的基礎上,建立國家級科技人物數據服務平臺;融合拓展涉及多學科、多形式的數據資源產品,推動形成以宣傳、研究兩條主線為支點的應用品牌,結合社會網絡分析與知識圖譜等熱點技術,分析、挖掘與展示科學家群體的學術成長經歷,打造以弘揚科學精神、培育科學文化為目標的多維品牌矩陣,力求多鏈條推進中國科學家精神傳播進程。
文獻來源:武虹,齊碩,趙立新,寧華華,楊寶龍.「數」說老科學家採集工程[J].今日科苑,2020(4):31-36.
參考文獻:略
作者:武虹1,齊碩1,趙立新1,寧華華2,楊寶龍1
1 中國科協創新戰略研究院
2 中國科學院軟體研究所
感謝您的支持與關注,歡迎賜稿交流
投稿郵箱:nais-research@cnais.org.cn