新數據時代,科研需要什麼樣的創新基礎設施

2020-09-23 大數據在線

一直以來,從腦疾病的研究到大腦功能的解密,科學家從未停止過對大腦探索的步伐。在華中科大蘇州腦空間信息研究院,科學家們正在做一件對於腦科學研究具有裡程碑意義的事情:繪製一張可能是世界上最複雜的「地圖」——靈長類全腦的三維圖譜。

以小鼠三維腦圖譜為例,科學家們通常先對小鼠進行腦成像:將鼠腦標本固定,用金剛刀從上至下、從左至右,將鼠腦標本順次切成1微米厚度的薄片,一邊切片一邊拍照,照片實時存儲到計算機系統之中。當鼠腦成像結束,腦科學家再根據這些二維照片合成三維腦圖譜。

一個小鼠全腦有超7000萬個神經元,繪製小鼠腦圖譜需要15380張圖片,未壓縮的數據量高達8TB。人腦的體積大約是小鼠腦的1500倍,擁有860億個神經元,人腦的三維圖譜數據量將會再提升幾個量級。

現如今,單純的腦成像已經不成問題,但成像之後巨大的數據量如何存儲和分析成為當下腦科學等多個科研領域最為棘手的挑戰。

是什麼阻礙了「腦洞大開」

華中科大蘇州腦空間信息研究院所遇到的情況是科研機構在新數據時代下的一個縮影。

一方面,得益於國家經濟實力的不斷提升,科學研究投入持續加大。根據《2019年全國科技經費投入統計公報》顯示,2019年全國研究與試驗發展經費首次突破2萬億元,達到22143.6億元,同比增長12.5%。

另一方面,數位化正在改變科研模式,過去相對薄弱的數字基礎設施開始面臨升級,亟需符合未來研發需求的新型基礎設施。正如發改委今年首次明確了新基建的範圍,將支撐科學研究等具有公益性質的重大科技、科教基礎設施劃分為創新基礎設施,屬於新基建未來重點投入方向。

「當前科研領域在存儲等基礎設施方面主要有容量、性能和穩定性三個典型挑戰。」華中科技大學計算機學院院長馮丹教授在浪潮雲數智中國行武漢峰會上如是說。

華中科技大學計算機學院院長馮丹教授

與其他行業相比,數據在科研領域的生產要素屬性更加快速顯現。科研數據往往具有數據密集型範式的特點,具有數據量巨大的特徵。以目前世界上靈敏度最高的射電望遠鏡中國天眼項目為例,每天產生約500TB的零級未壓縮數據,預計未來十年數據量將超過100PB,對長期運行產生的海量數據進行存儲與計算分析正在深刻改變其科研模式,如何存儲與保護這些海量數據就成為巨大挑戰。

此外,隨著海量數據的產生,科研機構通常希望能夠讓數據採集、處理和存儲的速度提升,以更好、更快支撐起科學研究。馮丹教授表示:「科研項目對於性能一直很關注。早年前,像新材料研發這些研究可能數據量不會很大,但對於後端存儲性能要求極高。現在,科研的數據量普遍很大,對於存儲性能的要求就更高了。」

例如,華中科大蘇州腦空間信息研究院存儲人腦三維圖譜數據,如果採用之前的成像系統,一臺系統至少需要花費20年時間才能完成數據的採集,這無疑是當前科研機構們所不能接受的,因此需要存儲具有分布式橫向擴展能力,提升其並發性能,讓數據的採集與分析更加快速,確保其研究項目的高效。

第三就是穩定和可靠,科研數據除了數據量之外,高質量與完整性也至關重要,因此對於存儲系統的穩定性和可靠性要求越來越高。存儲越穩定和可靠,意味著對高質量科研數據的存儲與完整就越有保障。

以清華大學RUSH腦成像研究項目為例,其對擁有1億神經元的小鼠大腦進行研究,28臺1200萬像素相機以每秒30幀、連續72小時的方式對小鼠進行拍攝,每天將產生2.7PB左右的數據,最後將這些圖片拼接成三維圖像序列,存儲系統需要滿足最長72小時拍攝過程中PB數據不丟幀。

事實上,在新數據時代加速到來的今天,包括科研領域的各行各業都在加快數位化的步伐,也直接驅動著存儲等基礎設施走向新的變革。

為數位化提速,存儲有哪些重要趨勢

當下,數據正在成為最重要的生產要素,是數位化轉型和智能化升級的基礎。年初的《關於構建更加完善的要素市場化配置體制機制的意見》報告中首次新增「數據」要素,並指出要發揮「數據」這一新型要素對其他要素效率的倍增作用,使數據成為推動經濟高質量發展的新動能。

這恰恰是新數據時代到來的體現。就像科研領域越來越重視數據一樣,各行各業都渴望充分利用數據的價值、為數位化提速,使得與數據密切打交道的存儲呈現出重要的新趨勢。「在數據呈現爆炸性增長的趨勢下,隨著算力的提升和數據的積累,大數據智能成為發展趨勢,也給存儲系統帶來一系列新變化。」馮丹教授直言。

馮丹教授介紹,存儲在PCM、3D NAND、3DXPoint等晶片器件上創新,將進一步帶動存儲設備、系統、架構和軟體的創新,「面向大數據的存儲首先是以數據為中心,圍繞數據做相應處理,其次是近數據處理,在離數據最近的地方做處理,減少數據傳輸帶來的性能損耗;第三則是實現存算一體化或存算融合,直接在存儲中進行處理。另外,智能相關技術也會加速融入到存儲系統之中,提升存儲系統性能、可管理性等。」

浪潮存儲作為近年來存儲市場上快速崛起的代表廠商,則認為未來存儲的發展理念是「雲存智用,運籌新數據」,在趨勢上為:雲、閃、智。

首先是「雲存」,即存儲需要與雲進行全面對接。雲計算已經走向普及,企業上雲的趨勢不可阻擋,混合或者多雲環境將會成為常態。無論是公有雲還是私有雲,存儲層實現對它們的對接,將極大有利於數據的流動。葉毓睿介紹:「存儲與私有雲管理平臺的對接,有利於私有雲管理平臺按需驅動存儲資源的創建、調整、優化甚至回收;而存儲與公有雲對接,則有利於更好地使用公有雲彈性的資源,讓數據流動起來。」

另外,存儲加速實現全閃化也是大勢所趨。藉助於快閃記憶體介質成本的不斷下降、NVMe、RDMA等與快閃記憶體相關的技術逐漸走向成熟,快閃記憶體在存儲系統中的門檻愈發下降。隨著基於快閃記憶體介質的技術堆棧走向完善,全快閃記憶體存儲在性能、功能和容量三者之間有望實現「魚與熊掌可兼得」,有望在更多用戶中得到落地。

第三則是存儲快速邁向智能化。一方面,存儲自身會融入更多人工智慧技術,根據業務負載、運維管理等數據特徵,進行不斷的學習與優化,從而提供更加精準的預警信息和執行動作。馮丹教授也表示:「融入智能化是存儲的大勢所趨。例如,華中大在研究的主動對象存儲技術中,最主要體現的就是智能性,讓存儲系統並不是簡單的啞設備被動響應請求,而是會根據歷史負載預測未來趨勢,讓存儲系統可以感知應用需求,然後採用不同的策略更好地服務不同的應用。」

另一方面,AI技術正在加速落地,但AI準備、訓練、推理和歸檔等各階段的IO特徵不同,對於存儲需求也不同,將會進一步推動AI存儲產品加速到來。「例如,AI在模型訓練階段的IO特徵為高並發、以讀為主的小IO;而推理階段的IO特徵是讀寫混合,要求存儲延時低,能夠快速響應。」葉毓睿補充道。

為「新數據時代」做好準備

IDC《2019年數據及存儲發展研究報告》中指出,新數據時代表現出的新數據特徵:數據增長、企業對實時數據需求增加、多雲部署模式成趨勢、多元和非結構化數據成為常態。從本質上來看,存儲需要為用戶在新數據時代下更好地存好、用好和調度好數據,為其數位化轉型和智能化升級提供支撐。

在眾多廠商中,浪潮存儲近年來已經成為市場中一股不可或缺的力量。根據IDC最新數據顯示,浪潮存儲在今年第二季度出貨量躍居中國第二,增長速度位列中國第一,並且增速遠超其他廠商。這背後是浪潮存儲致力於幫助用戶為「新數據時代」做好準備的戰略布局。

浪潮集團雲數智中國行

浪潮存儲在戰略上提出了「雲存智用,運籌新數據」的理念,打造存儲平臺戰略,重點發展分布式存儲和快閃記憶體存儲等新存儲,並致力於打造存儲七大極致能力,更好地幫助用戶在多元化、應用複雜化的數據全局中將數據存好、用好和調度好,更好地發揮出數據價值。

為更好地支撐起「雲存智用,運籌新數據」理念,浪潮存儲在過去幾年投入了20億元巨資攻關存儲核心技術的突破,比如浪潮存儲幾年前開始布局快閃記憶體盤,其NVMe SSD已經在浪潮伺服器中進行搭載售賣,接下來還會在集中式存儲和分布式存儲中搭載;另外,浪潮存儲在存儲架構上將致力於打造出融合分布式和集中式架構優勢的新存儲架構,以實現「一個數據中心,一套存儲」的願景目標。

浪潮存儲短短幾年的飛速成長,同樣離不開強大人才體系的打造。浪潮存儲從過去幾十人的規模如今成長為上千人的團隊,其研發、市場、銷售人才體系不斷充實與壯大。此外,浪潮存儲還注重與華科大等高校、科研機構緊密合作,共同攻關存儲多項核心技術的突破。

未來,隨著新基建的建設逐漸深入,千行百業必然會在數字基礎設施層迎來更大的變化,存儲作為新基建中的基石,其作用與價值將會得到進一步提升。如何為千行百業提供符合「新數據時代」的產品與解決方案,浪潮存儲「厲兵秣馬」,已經做好準備。

相關焦點

  • 浪潮存儲聯合華中大,探索科研新基建背後的大數據奧秘
    另一方面,數位化正在改變科研模式,過去相對薄弱的數字基礎設施開始面臨升級,亟需符合未來研發需求的新型基礎設施。正如發改委今年首次明確了新基建的範圍,將支撐科學研究等具有公益性質的重大科技、科教基礎設施劃分為創新基礎設施,屬於新基建未來重點投入方向。「當前科研領域在存儲等基礎設施方面主要有容量、性能和穩定性三個典型挑戰。」
  • 新時代需要什麼樣的科學家精神?
    一些文章發表時有數據造假的情況出現,那就是沒有做到科學證據、科學方法。第三,科學的堅持和忍耐。有了科學問題,真正要解決這個問題,不是一天兩天的事,甚至不是一年兩年的事,可能是很長時間的事,這就需要有長期的堅持,耐得住寂寞。
  • 背後的力量 華雲數據助力中科院蘇州納米所搭建新一代IT基礎設施平臺
    也是由於中國科學院蘇州納米所需要展開多學科交叉研究,其對於信息化建設提出了更高的要求。目前,傳統的IT基礎架構已經無法滿足科研的日常需求,科學實驗產生海量的實驗數據無法安全有效的保存,實驗數據無法做到統一匯總分析,現有的計算資源不足以支撐大量的科學仿真與計算需求。
  • 信通院金鍵:構築數字智能時代的基礎設施 區塊鏈會開啟一個全新時代
    金鍵稱,「標識」是工業網際網路與物聯網時代機器和物體的「智能身份證」。促進工業網際網路,幫助企業真正的降本增效,未來會有很大的空間,現在就是信息互聯,供應鏈打通。在金鍵看來,5G、區塊鏈、人工智慧等信息技術正在催生新的連接秩序:萬物互聯,以及更加智能化的連接。這都迫切需要構建基於標識的互操作體系(標識解析體系)。這是巨大的創新空間。
  • 前沿研究丨數據驅動的材料創新基礎設施
    材料基因工程工作模式大致可分為實驗驅動、計算驅動和數據驅動三種。近期,中國工程院院刊《Engineering》刊發的《數據驅動的材料創新基礎設施》一文指出,材料基因工程的數據驅動模式,基於大量數據,使用人工智慧來揭示隱藏在海量數據背後的關聯關係,為現有的常規研究增加了新的維度和視角。
  • 讓基礎設施研究變得更可見--- 清華大學數據科學研究院大數據基礎...
    然而,相對於金融、醫療領域的火爆發展,大數據基礎設施的建設往往會遭到忽視。為提高社會對大數據基礎設施的認知、推動數據基礎設施建設、促進數據開放共享,2017年8月17日,在清華大學FIT樓多功能廳舉辦了大數據基礎設施認知RONG論壇暨大數據基礎設施研究中心(以下簡稱「中心」)成立儀式。
  • 讓智能分析與決策成為數字時代通用基礎設施
    《決定》對新時代全面深化改革勾勒出更加清晰的頂層設計,其中對於完善要素市場化配置、完善科技創新體制機制以及數據生產要素的制度規範等指示,對於同盾科技這樣一家科技創新型民營企業來講,有著極為重要的意義。智能決策將是數字時代通用基礎設施1、智能決策為金融機構構築風險屏障智能決策在金融領域取得較有成效的進展,金融領域是數位化程度最高的行業之一,同時也沉澱了海量的歷史數據,智能分析與決策正成為金融領域重要的基礎設施。以同盾科技為例,同盾科技為各金融機構提供了完善的智能分析與決策服務,其價值主要體現在三個方面。
  • 創新樞紐——新時代城市創新發展的引擎
    縱觀全球城市發展脈絡,城市經濟發展正從「要素驅動時代」進入「創新驅動時代」。城市經濟發展先後歷經從泰勒科學管理的效率驅動時代,轉向以豐田JIT時期的質量驅動時代,到20世紀末由於國際企業市場拓展需要而興起的跨國投資時期的要素驅動轉變,我國改革開放後先期發展起來的一批代表城市或區域,基本都是依靠政府的政策扶持、土地、勞動力和消費市場等要素,承接國際產業轉移、吸引國際投資而發展起來的,包括上海、深圳、蘇州等;而隨著全球經濟的深入發展,在科創大時代,城市經濟的發展逐漸向以科創主導為核心的創新驅動時代邁進
  • 從「中國天眼」到「大腦圖像」,這些科研新基建都有它的身影
    在新數據時代加速到來的今天,數位化正在改變科研模式,與其他行業相比,數據在科研領域的生產要素屬性更加快速顯現。發改委今年首次明確了新基建的範圍,將支撐科學研究等具有公益性質的重大科技、科教基礎設施劃分為創新基礎設施,屬於新基建未來重點投入方向。
  • Marvell 攜手臺積電打造業界最先進的 5 納米技術數據基礎設施產品...
    下一代基礎設施肩負著連接世界、保障商業運轉以及信息流動的重任,對全球經濟的重要性已攀升至前所未有的高度。 通過此次合作,Marvell 和臺積電將能夠促進支持數據基礎設施的關鍵技術的創新,提供未來數字經濟所需的存儲、帶寬、速度和智能,同時為客戶帶來顯著的能效提升。
  • 華為全面啟動數據基礎設施戰略,開源數據虛擬化引擎HetuEngine
    11月19日,華為在深圳舉辦2019全球數據基礎設施論壇,面向鯤鵬計算產業, 宣布全面啟動數據基礎設施戰略,並開源數據虛擬化引擎HetuEngine(河圖引擎),希望讓夥伴像使用「資料庫」一樣使用「大數據」,讓數據治理、使用更簡單。
  • 【科技日報】開放科學數據,助推科技創新
    科學資料庫踐行由硬體建設向環境構建、工程化項目向持續化發展方針,以雲服務模式為基礎,形成支持科研活動與科技創新的數據云,並從基礎設施、數據資源、應用平臺三大類服務的角度整合集成各類資源和服務,形成中國科學院數據云環境。
  • 孫立林:安全多方計算與數據融合基礎設施的設計理念
    在數位化時代裡,區塊鏈作為新型基礎設施,數據安全是重中之重。安全多方計算,一直以來都被視為隱私數據保護較好的解決方案。在第六屆區塊鏈全球峰會上,矩陣元創始人兼執行長孫立林根據矩陣元的實踐經驗,分享了「安全多方計算與數據融合基礎設施的設計理念」。
  • 康曉宇:數據基礎設施支撐金融科技創新
    雖然突如其來的新冠肺炎疫情擾亂了經濟發展節奏,但我國數字經濟也獲得了加速發展機遇,各家金融機構也加快了科技研發的節奏,拓展了金融場景化應用的廣度與深度,金融科技對銀行業生態的塑造正發揮著前所未有的作用。而金融科技創新離不開數據基礎設施的底層支撐。數據基礎設施是傳統IT基礎設施的延伸,它以數據為中心,讓數據存得下、流得動、用得好,使數據要素價值實現最大化。
  • 英國國家科研與創新署發布年度實施計劃
    英國國家科研與創新署的目標是維持英國具有競爭力的國際地位,管理新的知識和創新帶來的經濟和社會變革的步伐。UKRI將投資於能夠加快其研究和創新投入的,並產生社會、文化和經濟影響的項目來實現這一點。UKRI認識到當今經濟和社會的挑戰越來越需要跨學科和跨部門的合作,這點促使了UKRI使用新的工作方式和新的籌資方式。
  • 《中國金融》|數據基礎設施支撐金融科技創新
    雖然突如其來的新冠肺炎疫情擾亂了經濟發展節奏,但我國數字經濟也獲得了加速發展機遇,各家金融機構也加快了科技研發的節奏,拓展了金融場景化應用的廣度與深度,金融科技對銀行業生態的塑造正發揮著前所未有的作用。而金融科技創新離不開數據基礎設施的底層支撐。數據基礎設施是傳統IT基礎設施的延伸,它以數據為中心,讓數據存得下、流得動、用得好,使數據要素價值實現最大化。
  • 科士達2020數據中心基礎設施產品全國巡展,石家莊站、鄭州站圓滿落幕
    首先,京津冀具備數字基礎設施的建設優勢;其次,京津冀擁有數字經濟創新研發的生態體系;第三,京津冀擁有一批數字經濟發展的平臺載體。致辭結束後,科士達河北辦事處主任陳悅先生通過生動的語言帶領大家更深層次的了解科士達。從企業創立之初科士達就堅定地在電力電子領域生根發芽,始終秉持著「客戶為本,匠心為質」的企業精神,持續不斷地為客戶創造更大的價值,聚焦客戶的經濟、產品、服務和社會價值。
  • 平臺中心調研中國科學院物理研究所重大科研基礎設施和大型科研...
    日前,平臺中心赴中國科學院物理研究所懷柔園區調研重大科研基礎設施和大型科研儀器平臺建設和運行開放情況。平臺中心主任蘇靖、副主任王瑞丹、相關處室負責同志,中科院物理所副所長胡江平、所務委員程金光、所務委員馮國星,懷柔研究部副主任郭建東參加了調研座談和實地考察。
  • 關於《國家重大科研基礎設施和大型科研儀器開放共享管理辦法》的...
    2014年12月,國務院發布了《國務院關於國家重大科研基礎設施和大型科研儀器向社會開放的意見》(以下簡稱《意見》),明確要求「制定促進科研設施與儀器開放的管理制度和辦法」。    為明確開放共享工作中管理部門和單位的責任,理順開放運行的管理機制,推動國家重大科研基礎設施和大型科研儀器的開放共享,提高科研基礎設施與儀器的使用效率,充分釋放服務潛能。
  • 梁春曉:網際網路時代的社會創新和公益轉型
    網際網路時代的三大特徵和動力在以網際網路為核心的信息技術的推動下,網際網路時代擁有新基礎設施、新生產要素和新結構等三大特徵和動力。新基礎設施即雲網端,亦即雲計算、網際網路和智能終端。今天人們的工作和生活之所依賴,除了土地、鐵路、公路和機場這些農業時代和工業時代已經存在的基礎設施之外,又加上了雲計算、網際網路和智能終端這樣的網際網路時代的基礎設施。幾乎人手一部的智慧型手機是新基礎設施的重要組成部分。新生產要素即數據。繼人們熟知的土地、勞動力、資本和企業家才能等生產要素之外,數據正在成為越來越重要和關鍵的生產要素。