圖1:中科院數據云「一主一備+12分中心」分布式、可擴展存儲系統
圖2:1992—2012年夜間「一帶一路」區域夜間燈光變化數據
圖3:大熊貓棲息地保護數據圖
圖4:大亞灣中微子實驗數據傳輸
圖5:近地天體望遠鏡
圖6:太陽射電頻譜儀
迅速發展的信息技術正不斷助推科研行為方式的變革和科技創新發展。當前,世界各科技強國已經把科研信息化作為21世紀科技創新的戰略舉措。在我國,科研活動信息化已是提高科研水平和創新能力的必要手段。
作為中國科技的「國家隊」,中國科學院(以下簡稱中科院)一直高度重視科學數據在科研發現、信息化建設中的創新及應用。上世紀70年代,中科院開始建設專業資料庫。1982年科學資料庫被列入中科院「七五」和後十年的10項重大基本建設項目。1986年國家計委正式批覆同意建設「中國科學院科學資料庫及其信息系統」,1987年科學資料庫數據資源和信息系統正式啟動建設,1997年獲「中國科學院科技進步一等獎」, 1998年獲「國家科技進步二等獎」,基本形成了以研究所和課題組自主自治為單元的科學數據資源建設和積累模式。「十五」期間,科學資料庫建設逐步系統化、規範化,共建成503個專業子庫。「十一五」期間,在中科院信息化專項和國家科技基礎條件平臺等支持下,科學資料庫逐步形成結構合理的科學數據網格體系,整合可共享數據量達148TB。
「十二五」期間,隨著傳感器、信息獲取等數位技術的不斷發展,科學數據也以史無前例的速度急劇增長。面向科技創新和科研信息化新需求,中科院啟動「科技數據資源整合與共享工程」建設。「科技數據資源整合與共享工程」涵蓋數據存儲與管理雲服務環境、海量科學數據分析與應用示範、科學數據整合與共享服務等三個子項目,工程著眼於「海·雲」服務思想,開展海量存儲基礎設施服務、海量數據資源共享服務和數據密集型公共支撐服務,全面推進數據環境建設和持續深化數據應用,成為立足中科院,面向科技界,共享開放、服務創新的國家級科技數據中心。
在中科院的統一部署推動、全院50多家下屬單位共同參與下,中國科學院計算機網絡信息中心作為科學資料庫牽頭建設和技術支撐單位,緊緊抓住信息技術發展的脈搏,推動科學資料庫在建庫、整合和應用的全方位成長。科學資料庫踐行由硬體建設向環境構建、工程化項目向持續化發展方針,以雲服務模式為基礎,形成支持科研活動與科技創新的數據云,並從基礎設施、數據資源、應用平臺三大類服務的角度整合集成各類資源和服務,形成中國科學院數據云環境。
從最早「七五」期間15家單位、21個資料庫,發展到目前「十二五」期間58家單位、1340個資料庫,中國科學院數據云整合了從資源學科領域到植物學科領域等多領域資料庫資源,提供共享數據量已從2.68GB增加到655TB,年均在線訪問超過千萬人次。「十二五」期間,共發表論文751篇,申請軟體著作權55項、專利30項。累計為131項科研項目提供了數據支持和服務,在支持科研項目、支撐學科發展和服務經濟社會發展等方面均取得良好的效果。項目積累的存儲、處理與應用等資源整合為數據云一站式服務的相關技術,為持續推動科學數據云發展打下了堅實基礎。
一、面向科研創新前沿 構建科研服務新模式
中科院數據云以數據資產為核心,充分利用先進的雲計算技術,整合數據全生命周期的重要設施與資源,是現代科研創新體系的重要組成,是大數據科研成果服務於社會應用的示範平臺。
中科院數據云環境為科研活動提供以海量存儲設施為基礎的雲存儲、雲歸檔、虛擬機和數據云等服務,為科學數據管理和共享提供運行支撐環境,為科研創新活動存儲提供了有效保障。截止到2015年,中科院數據云存儲環境運行服務總容量達52PB,雲存儲規模達8PB,共擁有物理伺服器約300臺,虛擬機5000+的計算服務能力。數據歸檔總容量達38PB,擁有歸檔能力大於20TB/天,在線磁碟陣列容量達到2PB,近線磁帶庫存儲容量達到30PB的歸檔系統。建成布局中科院、直達各所的「一主一備+12分中心」的分布式、可擴展存儲系統,提供滿足國標5級的「同城雙中心」、「兩地三中心」的高等級災備服務。
「十二五」期間中科院數據云形成以基礎設施雲服務、科研數據云服務、數據應用雲服務為主體的多層次、交叉式信息化服務體系。中科院計算機網絡信息中心通過研發部署雲計算系統,為中科院信息化專項、先導專項、重點基金項目、科技支撐計劃等項目提供支持。以生物信息學分子數據分析環境、地理空間數據云、DViz大數據可視化等應用的開發,示範了多學科領域數據、模型及雲服務應用的技術手段與服務模式。2015年8月,中科院網絡中心成功申請並獲批我國首批試點網絡連續性出版物,創辦《中國科學數據》期刊,探索建立科學數據產權保護的新方法,推動科學數據出版與數據引用,進一步促進我國科學數據資源的開放與共享。
在服務科研的同時,中科院數據云面向社會需求不斷加強產業化創新服務,提升拓展技術優勢。在交通管理、食品安全、新材料研發等公共領域,中科院計算機網絡信息中心與國家發改委、食藥監總局、北京地稅等三十多家企事業單位開展相關合作。2012年獲得中國產學研創新合作獎,2013年獲批成立大數據應用服務技術北京工程實驗室。2014年、2015年先後兩年成功舉辦科學數據大會,吸引了來自全國科研院所、高校以及相關企業參加。
二、中科院數據云成果五大亮點
2015年8月31日,國務院發布了《促進大數據發展行動綱要》標誌著我國正式把發展大數據上升為了國家戰略。中科院數據云服務平臺的建成,將進一步釋放我國科學大數據價值,為 「一帶一路」、「生態文明」、「科學前沿」、「基礎學科」與「創業、創新」等國家戰略需求及社會熱點應用提供了有力的數據支撐與科學技術應用服務。
(一)讓中國科技照亮「一帶一路」
實施並建設好「一帶一路」,是融合中國發展優勢與全球合作願景,實現中國夢的一個重大舉措和抓手,為促進區域共同繁榮和世界和平發展提供了新契機。「一帶一路」建設需要科技創新引領和驅動,依靠科技創新支撐「一帶一路」實現可持續發展已成為戰略共識。
1.大數據協同平臺提供有力數據保障 成為主管部門決策「智庫」
「一帶一路」建設涉及新亞歐大陸橋、中蒙俄、中國—中亞—西亞、中國—中南半島等多個經濟走廊,經濟帶建設需求已對科學技術發出強勁召喚。2015年4月,中科院白春禮院長做出批示,支持並推動建設「一帶一路」國際科學家聯盟和信息網絡平臺。平臺以中科院為主導,著力打造滿足國際科學家了解問題、開放研討、協同研究和信息共享需求的協同創新網絡平臺。
中科院信息化建設專項課題「資源學科領域基礎科學數據整合與集成應用」以俄羅斯、蒙古等「一帶一路」國家的基礎地理與資源環境為本底資料,通過整合獲取沿線國家的人口、經濟、能源、交通設施等數據資料,集成大數據信息,直接為「一帶一路」科學院聯盟和協同創新網絡平臺提供數據,實現了為「一帶一路」建設決策和國家治理提供長期的科技戰略諮詢作用。
2.環境監測數據服務於「一帶一路」區域環境治理與資源開發
「21世紀海上絲綢之路」戰略實施過程中,海上經濟活動和海洋保障都需要海洋科技發揮基礎支撐作用,而海洋數據作為海洋科技發展的基礎,其有效管理及共享為國家戰略實施提供重要的科學依據。中科院海洋研究所科研數據整合項目整合了包括觀測浮標、航次調查、國內歷史資料等多源數據,形成了集水上、水面、水下數據於一體的海洋立體綜合數據集,特別是在中國黃海、東海,長期連續的觀測數據與開放航次等調查數據組成的觀測研究網絡,為保障海上絲綢之路正常運行提供了基礎海洋環境數據。此外,通過多源數據的整合,科研工作者也可更加方便地獲取海上絲綢之路沿線區域的調查數據,推動海上絲綢之路沿線海洋資源的開發,創造更大的社會經濟價值。
3.語言資源資料庫推動「一帶一路」區域文化與科技交流
中科院合肥物質科學研究院牽頭負責的多民族語言資源資料庫為「一帶一路」少數民族地區的言語教學和言語科研提供了堅實的語言數據基礎。資料庫將藏語言語資料庫應用於當地少數民族青少年的雙語教學,促進當地的對外開放與合作。此外,將蒙語和維語的言語資料庫嵌入面向少數民族地區的旅遊信息產品中,將旅遊領域的漢語日常會話翻譯成少數民族的語言語音,加強遊客對「一帶一路」相關少數民族地區的了解,利於少數民族地區的旅遊業發展。
中科院自動化研究所中文語言資源庫建立了「100萬詞蒙語單語語料庫」、「漢藏雙語句子級對齊語料庫」、「維吾爾語—漢語綜合領域平行語料庫」等語料庫,增進少數民族語言地區與漢語普通話地區的學術交流,加強上述地區與「一帶一路」上蒙語、藏語語言國家和地區的紐帶作用,促進新疆、內蒙古等地發揮區位優勢,提升其作為向西開放的樞紐和文化科教中心地位。
4.科學數據開放為國際科學數據引進和交流共享奠定基礎
中科院地理科學與資源研究所「東北亞中亞地區資源環境科學數據共享培訓班」在授課期間,以中科院資源學科領域的「人地系統資料庫」作為數據共享教學資源,並由該平臺資源建設、平臺開發和標準研製人員授課。來自俄羅斯、吉爾吉斯、塔吉克斯坦、烏茲別克斯坦、哈薩克斯坦、蒙古、泰國、巴基斯坦、孟加拉國的29名青年科學家接受培訓,在掌握資源學科領域科學數據共享的技術和方法的同時,也獲得了國際相關區域科學數據資源,為進一步加強「一帶一路」區域的國際科學數據引進和交換共享奠定基礎。
(二)讓科技創新成為美麗中國的綠色引擎
生態文明建設需要科技創新支撐和引領。當前以大數據為基礎的新一輪科技革命和產業變革,對我國的綠色發展既是挑戰,也是機遇。如何將科技創新作為戰略基點,加快培育和發展新興產業,推進傳統產業優化升級,支撐引領綠色發展成為時下科技工作者的新使命。
1.生態系統與安全資料庫為全國生態功能區劃提供依據
全國生態系統評估與生態安全資料庫為全國和區域尺度的生態環境重大科研項目提供了數據支持,同時為國家生態環境保護、生態文明建設提供了重要科學支撐。由環境保護部與中科院聯合頒布實施的《全國生態功能區劃》以全國生態系統、生態服務功能及生態敏感性數據為基礎。全國生態系統評估與生態安全資料庫還為區域和地方生態保護與生態文明建設提供了數據支撐,在長江流域生態健康評估中,明確了長江生態環境狀況、面臨的生態環境問題與未來生態風險;在北京市生態保護紅線規劃研究中,明確了北京生態保護的關鍵區域;在內蒙古阿爾山市生態系統生態總值核算中,為地方開展生態效益核算開展了示範。
2.南海海洋科學資料庫支撐我國海洋經濟發展和海洋權益維護
黨的十八大報告提出「大力推進生態文明建設」的戰略決策並明確指出保護海洋生態環境。海洋是地球的主體,海洋生態子系統的狀況對地球生態母系統起著舉足輕重的影響,海洋生態文明是整個生態文明建設的重要方面。
立足南海,跨越深藍。圍繞熱帶海洋環境與資源兩個重大研究方向,中科院南海海洋研究所南海海洋科學資料庫致力於海洋動力環境與觀測技術、邊緣海地質演化與油氣資源、海洋生態與生物資源優先學科領域科技數據資源的整合,南海海洋研究所數據資源體系和一站式共享服務系統的建設,支撐我國海洋科技創新、海洋經濟發展和海洋權益維護。
3.地理與湖泊資料庫為湖泊流域生態文明治理提供決策依據
湖泊流域大多為人口和經濟發展密集區,流域生產生活排放的大量氮、磷等營養鹽進入湖泊,造成湖泊富營養化和藻類水華頻發,湖泊成為我國水環境問題最為突出的地理單元。目前,太湖、巢湖和滇池等大型湖泊富營養化突出,藻類水華暴發的水汙染事故頻繁發生。
圍繞湖泊水環境保護,中科院南京地理與湖泊研究所承建的「南京地理與湖泊研究所數據整合與共享應用示範」開展了「面向政府決策的湖泊水環境治理決策與預警」專題服務,為太湖流域水資源保護局、巢湖流域管理局掌握太湖和巢湖藍藻水華範圍分布及水華面積,提供了及時有效的信息。在太湖、巢湖藍藻調查、水資源調度以及流域水資源保護等方面起了較大的支撐作用,並為有關行政管理決策提供了依據,受到太湖流域水資源保護局的高度認可。
(三)取之於科學用之於科學 科學資料庫激活科學前沿新研究
數據的爆發式增長,已把科學研究各個領域和環節推到了一個前所未有的「大數據」時代。一個國家的科學研究水平將越來越多地取決於其在數據的優勢以及將數據轉換為信息和知識的能力。中科院數據云作為科學大數據的基礎資料庫,在促進我國科學技術研究佔領國際制高點上發揮了越來越多的支撐作用。
1.核能數據處理開啟核能領域未來發展大門
大亞灣反應堆中微子實驗是由中科院高能物理研究所主導、中美亞歐等國家和地區參加的大型國際合作項目,主要目標是利用核反應堆產生的電子反中微子來測定具有重大物理意義的參數—中微子混合角。中微子實驗資料庫主要存儲大亞灣實驗產生的實驗數據,結合數據中心計算環境向大亞灣國際合作組的研究人員提供數據和計算服務。
中微子實驗正式取數以來,取得了突破性的研究成果。2015年,大亞灣國際合作組在《物理評論快報》發表了中微子測量的最新結果,將中微子混合角θ13和中微子質量平方差的測量精度都提高了近一倍,為世界最高精度。大亞灣中微子實驗獲得的研究成果,開啟了未來中微子發展的大門,產生了極大的社會影響。 2012年,首次精確測量θ13,入選美國Science雜誌「2012年度十大科學突破」,為此大亞灣中微子實驗合作組在2013獲得「影響世界華人大獎」提名;2015年,大亞灣國際合作組發表迄今世界最精確的反應堆中微子振蕩測量結果,實驗團隊獲 「基礎物理學突破獎」, 這是中國科學家和以中國科學家為主的實驗團隊首次獲得該獎項。
面向核能發展對數據的緊迫需求,為解決核能學科領域數據資源匱乏、分散等嚴峻問題,中科院核能安全技術研究所在中科院「十二五」信息化專項的支持下,聯合中科院計算機網絡信息中心、高能物理研究所、近代物理研究所等優勢單位經過3年的持續建設,建成包括核資料庫、核材料資料庫、可靠性資料庫、聚變資料庫等數據資源,二十餘套在線服務軟體的綜合性數據平臺。核能資料庫網站,已為來自中國、美國、英國等二十多個國家11500餘名核能研究人員提供了核能數據及在線計算服務,用戶累計下載量超過2TB,為核能設計及安全分析提供了全面的支持。核資料庫子庫HENDL面向先進核能系統核數據應用需求,成功解決了世界首個嬗變高放射性核廢料ADS系統設計關鍵問題。核反應堆材料子庫支持世界三大低活化馬氏體鋼之一的CLAM鋼性能優化,為世界核材料領域低活化鋼研發做出了突出貢獻。
2.中國植物物種信息資料庫開闢後植物分類學新時代
隨著生物多樣性信息學、新一代網際網路技術的發展與應用,以及後基因組時代測序技術的發展,植物資源和植物多樣性的研究遇到更多新的挑戰。基於中國植物物種信息資料庫基礎上編著的《中國植物志》出版後,昆明植物研究所率先提出了「iFlora研究計劃」。iFlora研究計劃擬基於《中國植物志》的研究成果,整合植物學、分子生物學、生物信息學等現有優勢學科力量,通過與生態學、自然地理學、植物化學、計算機科學等學科的交叉,打破傳統意義上的紙本和單一產品的《植物志》的界限,實現植物物種多樣性研究標準化、信息化和動態化,滿足我國生物多樣性保護研究與資源持續利用需求。「iFlora」研究計劃的提出,開闢了後植物分類學的新時代。
(四)科學大數據孕育科研方法新範式
大數據作為改變人類生活及理解世界的新方式,正驅動著科學研究範式的轉化,科學大數據已成為科學發現與知識創新的新引擎。從海量數據中解析所蘊含的新模式,科學大數據正帶來科研方法論的新範式。
1.高能天體物理資料庫成為我國空間天文科學體系中的重要組成部分
隨著全球大型巡天觀測項目的開展,天文學研究從小樣本向著大數據模式轉變,海量的天文數據給天文學家帶來了巨大的機遇和挑戰,天文學的研究也越來越離不開大數據集的統計分析,即數據挖掘和知識發現。
硬X射線調製望遠鏡(Hard X-ray Modulation Telescope, 簡稱HXMT)衛星是我國正在研製的既可以實現寬波段、高靈敏度X射線成像巡天又能夠研究黑洞、中子星等高能天體的短時標光變和寬波段能譜的空間X射線天文觀測設備。HXMT將於2016年發射升空,並發布大量科學觀測數據,用於開展緻密天體和黑洞強引力場中動力學和高能輻射過程、X射線脈衝星的物理性質等方面的研究。
中科院先導專項項目「HXMT數據處理技術」將建成具備對HXMT衛星有效載荷實施在軌性能分析、完成數據處理與數據產品生成、提供數據發布與用戶支持服務的數據分析平臺,高能天體物理資料庫為科學用戶開展數據分析提供基礎支撐,並成為我國空間天文科學體系中的重要組成部分。
2.海量土地數據確立我國土系變化趨勢
在高強度利用下,我國農田究竟是丟碳還是固碳,國內外爭論很多。在此之前,由於科研過程長時期缺失足夠數據支撐造成結果難以定論。「中國農田土壤固碳潛力與速率研究」課題基於我國農田土壤有機碳採樣分析和中國土壤資料庫歷史數據,進行「面對面」和「點對點」的比對,對於我國農田土壤碳庫變化進行了研究。初步結果顯示,除了東北地區丟碳,其他區域都有不同程度固碳。「中國土壤資料庫」在該項目中提供了本底的土壤數據,對於土壤固碳速率正確估算,並確立我國農田主要是碳匯等結論提供了關鍵的數據支持。
面向《內蒙古自治區土系調查與<中國土系志·內蒙古卷>編制》項目的需求, 中科院地理科學與資源研究所基於收集整理的原始數據、初級加工數據以及項目成果數據建立了內蒙東四盟土壤分析剖面實物和數據組。東北地理所黑土數據整合中心負責對課題採集的剖面數據和表層樣點數據進行分析,並通過空間處理落實到相關圖位上,建立土壤剖面實體模型,為中國土系的建立奠定了基礎。
3.生物庫成為科研人履行保護生物多樣性公約的具體行動
生物多樣性是人類共同的財富,也是人類社會賴以生存和可持續發展的基礎。為了摸清中國生物多樣性的家底,中科院生物多樣性委員會自2007年起組織國內外100多位分類學專家,依據物種2000標準數據格式,每年編研、更新《中國生物物種名錄》,並與全球生物物種名錄實現信息共享。2015版《中國生物物種名錄》,包括了動物界、細菌界、色素界、真菌界、植物界、原生動物界和病毒等七個部分,共收錄物種8.3萬個,編研過程中參考了中國動物志資料庫,中國動物名錄資料庫、動物名稱引證資料庫。《中國生物物種名錄》的編研和發布為生物多樣性保護政策和規劃的制定提供科學依據,為開展生物多樣性科學研究提供基礎數據,為公眾參與生物多樣性保護創造必要條件,是中國貫徹實施《中國生物多樣性保護戰略與行動計劃》和積極履行《生物多樣性公約》的具體行動。
(五)大數據撬動創業創新新應用
在信息經濟發展迅猛的今天,大數據扮演生產要素的角色,讓數據在碰撞中聚變,充分釋放大數據的價值,帶動「大眾創業、萬眾創新」是中科院數據云的應用目標,雖然我國基於大數據的創業、創新業務和服務模式還不成熟,但卻意味著更多機會,中科院數據云實際應用中已不斷湧現出基於大數據的新嘗試和探索。
1.災種、救災資料庫為應急救災提供災害預測等創新服務
2014年10月,廣東登革熱疫情嚴重,為了支撐軍事醫學科學院的救災防疫行動,「資源學科領域基礎科學數據整合與集成應用」為其提供了廣東省鄉鎮級數字地圖、廣東省面狀人口數據和GDP數據、廣東省土地利用數據直接應用於疫情聚集區的分析、重點採取防控區域的確定、傳播風險的預測,為防疫救災和危險評估提供了保障。
2015年4月,尼泊爾發生8.1級地震。「資源學科領域基礎科學數據整合與集成應用」人地系統主題資料庫迅速反應,第二天就整理出災區及周邊範圍的基礎地理、冰川冰湖、人口及社會經濟、土地覆蓋、歷史地震資料等15個數據集,無限制、無償向公眾開放下載。通過開放尼泊爾數據直通車,快速集成不同災種、救災階段所需要的數據資源和產品,為應急救災提供無障礙的無償共享服務,成為科學救災的重要依據。
2.DNA條形碼標準參考資料庫助力森林公安快速破案
隨著分子生物學的快速發展,DNA條形碼為快速的物種鑑定提供了分子水平的精細分類學標準。該技術通過建立一套基於標準短基因片段的數位化序列文庫來實現物種鑑定。
森林公安、海關等有關部門在打擊野生動物盜獵、珍稀植物砍伐時,很多時候發現的是一些骨頭,毛皮,甚至是一些木屑等不完整樣本,而依法追責一定要鑑定出這些是動植物的具體信息。中科院昆明植物研究所在獲得迪慶州森林公安的木屑標本後,通過與其建設的標準資料庫進行比對,不僅鑑定出這些木屑來自紅豆杉,而且準確地告訴了這些紅豆杉大概生活區域,即採伐地。森林公安憑藉這份鑑定報告,快速地破獲了這起盜伐偷運案件。
3.語言資源庫促進人工智慧領域產品研發
中科院自動化所中文語言資源庫項目在建立和整合語言資源的基礎上,形成系列化的標準和規範,整合百餘套資料庫,建立了數據支撐服務平臺,大大提高了語料庫的有效獲取和共享利用,並積極開展與企業合作,將語料庫應用到企業的創新技術、新產品研發中。平臺的資料庫大量應用於30餘個企業的技術研發,支持包括百度在內的商業公司的產品研發中。基於「語音合成語料庫」等數據資源研發的語音合成技術,已與三星和聯想分別合作,應用在其多款手機中。
「十三五」期間,在國家大數據行動背景下,以中科院「率先行動」計劃為行動指南,面向智慧中科院發展願景,中科院數據云將以科研需求為牽引,社會應用為落腳點,繼續推動科學大數據的整合與開放、提高科學大數據為科學家與公眾的服務,探索科學資料庫發展和共享服務新模式。
科學大數據正在使科學世界發生變化,促進數據密集型科研範式的產生。中科院數據云先進的發展理念和有效的運行機制,有力的引導和整合了科學數據基礎性工作,將科學數據戰略機遇轉化,成為數據密集型科學發現的制高點和前沿陣地。科技引領著社會的發展,面對「網際網路+」、「萬眾創新、創業」的時代號召,科學大數據將釋放出巨大潛力,在社會管理、民生保障、產業發展方面提供新的動能。
(原載於《科技日報》 2016-04-12 07版)