中科院細胞所存儲進化史:從數據抽屜發展到10PB數據平臺

2020-12-05 美通社

北京2020年10月28日 /美通社/ -- 「這就是課題組的全部研究成果。」科學家打開他的抽屜,裡面塞滿了移動硬碟,這讓徐姚晨很是驚訝。將數據中心藏在抽屜裡,顯然存在安全風險,至少應該進行異地備份,而且如此「分散堆放」的存儲介質,也不利於後續在線的研究分析。

從抽屜裡的數據中心開始

這是15年前的「故事」,徐姚晨現任中科院分子細胞科學卓越創新中心信息建設與運維部主管,他所在的研究所更是大有來頭。中科院生化與細胞所是中國生命科學領域,最具科研實力、最具影響力的國立研究機構之一,曾經成功破解牛胰島素拆分、合成的科學難題,這也可能是新中國成立後,最早接近諾獎的一項研究成果。

回到文章開篇所述,「抽屜裡的數據中心」確實已經稍顯原始。雖然55年前,中國的前輩科學家僅依靠分液漏鬥、三頸反應瓶,就可人工合成牛胰島素,但現在「抽屜裡的數據中心」,顯然在制約後輩科學家的工作效率。

「2006年,上海生命科學研究院(2016年,上海生命科學研究院從中科院生化與細胞所獨立)建立了第一套300GB的存儲系統,這已經是當時生命科學領域,較先進的存儲系統。」徐姚晨回憶當時的起步略有感慨。現在來看,300GB的存儲容量確實小了一些,主流筆記本的硬碟配置也不只如此,甚至1TB移動硬碟的價格,還不到300元,但300GB的存儲就是研究所「平臺思維」的開始。

一花一世界

「目前,研究所數據中心的容量已經達到10PB,而且幾乎全部採用浪潮的設備。」徐姚晨將話跳至10餘年後。而從GB到PB不僅是兩個數量級的差異,這更代表了IT技術與生命科學的深度融合。

其實,2010年是一個重要時間節點,生物科學的試驗手段和試驗設備,在此後均出現大規模更新換代。當然,此時需要採集的研究數據也呈現爆發式增長。而這背後,更隱含著對存儲空間、I/O性能、高並發性能的更高訴求,以及設備管理、子系統管理、數據管理等諸多問題。

這又是一個相對專業的話題。生物科學被譽為「21世紀的科學」,細胞生物學又是生命科學研究的最前沿領域。通過研究細胞的生命活動過程、基因調控,以及細胞與微環境的關係,即可了解細胞的健康活動和發育過程。解答人類壽命到底可以延長多久?是什麼控制著器官再生?為什麼人類基因會如此之多?等一系列問題。

所謂一花一世界,大致就可描述科學家對細胞的研究。因為顯微成像、基因組學、蛋白質組學檢測,均會產生海量數據,而中科院生化與細胞所正是基於對上述課題的研究,決定進行數據存儲設備採購,以數位化技術提升為細胞研究提速。

數據存儲也必須分層

問題也是由此而來。

這裡有必要對中科院生化與細胞所,再進行詳細介紹。研究所下設數十個實驗室,研究方向涵蓋:基因調控、RNA、表觀遺傳學;蛋白質科學;細胞信號轉導;細胞與幹細胞生物學;癌症和其它重大疾病機理等五大前沿領域。

也就是說,研究所的存儲平臺峰值時,需同時支撐超過70個課題組,近1000多名用戶。而且課題組的研究方向不一樣,試驗手段不一樣,產生的數據類型也不一樣,調用和分析數據的方法更不一樣。

「科學家對計算和存儲一直十分挑剔。」徐姚晨開始解釋他的工作。可以想像,科學家經過幾天不眠不休,將小鼠數位化,而一旦數據丟失,所有的研究成果都將付諸東流。「所以,我們的工作就是讓科學家安心於科研。」


浪潮新存儲之道

經過與浪潮解決方案專家的聯合研究,一套涵蓋計算、網絡、存儲、大數據、虛擬化、安全、備份等多種IT設備,可服務數據全生命周期的存儲解決方案,已經部署於中科院細胞所,而且此解決方案已經實現了「分層」,即特定的需求黏性聯接特定的產品,這樣冷、熱數據可以分層存儲使用,系統效率大幅度提升。

具體而言,在核心業務方面,浪潮存儲提供了由多套統一存儲構建的統一數據資源池,用於承載生物細胞分析和研究的核心業務。浪潮存儲基於iTurbo智能引擎技術,可以智能感知前端Lustre高性能計算業務的I/O負載,實現數據智能調度和智能管理,讓百萬級IOPS在存儲系統內自由流動,大幅提升細胞研究的數據處理效率。

面對海量實驗室數據,浪潮存儲提供了分布式存儲平臺。基於分布式全對稱架構,不僅能保證所有節點的數據一致性,而且隨著細胞研究數據量的增加,還可以靈活擴展存儲節點,最大可擴展至EB級,輕鬆容納海量實驗室數據。同時,浪潮分布式存儲還能以一套存儲並發提供文件、塊、對象,以及大數據四種存儲服務,滿足文件共享、雲計算、大數據等不同業務的訪問需求。

浪潮對需求的理解會說話

這裡再插播一個小故事。數年前,浪潮推出分布式存儲系統,徐姚晨看到新聞很是激動,彼時本土科技企業尚無人推出類似產品,但徐姚晨又暫時無法說服他的同事,因為科學研究可以永遠鼓勵創新嘗試,但支撐科學研究又不允許他去嘗試。

現在已經時過境遷。如今的本土存儲系統,更像一個既會賺錢,又愛家庭的男人。因為他們的產品會說話,浪潮已經具有從軟體到硬體的全棧自研能力,也因為他們對用戶需求的理解更會說話,所有特定需求都會得到滿足。


浪潮存儲

其實,浪潮一直與國內多家高校和研究所,保持著緊密的合作。這也使其有機會接觸到更前沿的應用需求,研製出更具創新價值的產品功能。舉例說明,基於與復旦大學在腦科學領域的合作,浪潮形成了「軟拷貝」技術;基於與清華大學在RUSH腦成像領域的合作,浪潮存儲提供了成熟的「回收站」技術。此外,浪潮在存儲領域首創的零拷貝、閃搜索等技術,也都源自於科研院所的合作。

而回到中科院生化與細胞所的應用,IT系統正在成為研究所之「膽」。浪潮存儲為細胞研究配置了,業界首創的文件系統級別的回收站功能,防止多人操作同一源數據時,重要文件誤刪除。同時通過糾刪碼+副本的方式,進一步為數據提供保護。

而在數據保護方面,浪潮存儲為中科院細胞所提供了備份軟體、浪潮磁帶庫相結合的數據備份方案,採用LAN FREE和LAN備份方式實現集中、統一、快速、自動的數據備份,降低數據丟失風險。

也正是基於上述解決方案,正是基於浪潮與研究所的合作,「動物複雜性狀的進化解析與調控」等一批重點科研項目,得以順利進行。「而這些項目,正是科學家原本在計算與存儲方面不敢做,也做不動的課題。」徐姚晨最後說。

相關焦點

  • 中科院細胞所存儲進化史:從數據抽屜發展到10PB數據平臺
    雖然55年前,中國的前輩科學家僅依靠分液漏鬥、三頸反應瓶,就可人工合成牛胰島素,但現在「抽屜裡的數據中心」,顯然在制約後輩科學家的工作效率。 「2006年,上海生命科學研究院(2016年,上海生命科學研究院從中科院生化與細胞所獨立)建立了第一套300GB的存儲系統,這已經是當時生命科學領域,較先進的存儲系統。」徐姚晨回憶當時的起步略有感慨。
  • 背後的力量 華雲數據助力中科院蘇州納米所搭建新一代IT基礎設施平臺
    目前,隨著雲計算、大數據、5G等新一代信息技術的發展,很多機構希望將工作負載遷移到雲端,並搭建一個在現在和未來幾年都更有效的IT框架,提高基礎設施的效率。中國科學院蘇州納米技術與納米仿生研究所(以下簡稱中科院蘇州納米所)就是其中之一。信息化建設難題亟需解決中科院蘇州納米所由中國科學院與江蘇省人民政府、蘇州市人民政府和蘇州工業園區共同出資創建。
  • 分布式存儲的輝煌,Filecoin迎來1EB裡程碑丨星際數據
    Filecoin於今年10月上線主網,其在2017年的ICO中募集了2.5億美元。  根據Benet所說,從那時起,這個去中心化區塊鏈網絡租借的計算機存儲容量已經達到了1eb——大約相當於Dropbox在2018年提交IPO時的規模。  「很多人認為,要達到與傳統雲計算競爭的規模是不可能的。
  • ...出席 2020 中國數據與存儲峰會 詮釋雲原生時代存儲「進化論」
    峰會上,QingStor 存儲產品線研發負責人王煜、QingStor 存儲產品線產品經理馮相東分別帶來了以《雲原生架構下的存儲進化》、《企業核心業務資料庫雲化轉型》為題的主題演講,深度詮釋雲原生時代的存儲進化方向,解析企業核心業務雲化轉型與資料庫變革的重要性,幫助企業客戶解決雲原生架構下海量數據(603138)存儲難題,加快落地雲原生,推進數位化轉型。
  • 中科院軟體所範修斌:對淄博數據安全產業發展抱有期待
    齊魯晚報·齊魯壹點記者 趙原雪12月3日,網絡安全行業發展研討會在淄博舉行,中科院軟體所教授範修斌就當今網絡空間信息安全「卡脖子」問題及解決方案與參加會議的各路專家學者進行了交流。作為構建認證體制CFL體系的創始人之一,範修斌告訴記者,從理論上的完善到實踐的成熟應用,CFL的發展經歷了十餘年的時光,切實解決了區塊鏈存在的用戶非認證制無法對暗網、洗錢等非法行為監管、缺少編制訪問控制機制、不能應對複雜網絡應用的毫秒級、指令級要求等一系列問題,在未來能夠廣泛應用於人工智慧、大數據、5G等產業中。
  • 中科院超算環境廣州分中心:小平臺撬動大科學
    中科院超算環境廣州分中心目前集群擁有:60臺普通刀片計算節點,1000個CPU計算核心,全系統內存容量6TB,存儲總容量達到3PB,整體聚合計算能力理論峰值每秒100萬億次。如果你認為超算中心「超」在「計算」,那你就錯了,「數據分析」才是他們支持實驗的王道。成立時間雖短,超算中心已向全院師生開展常用分析語言和方法的培訓。
  • 從邊緣到數據中心到雲,HCP對象存儲八大利器
    從邊緣到數據中心到雲,HCP對象存儲八大利器 發布時間: 2021-01-05 14:41:26   來源:阿明觀察  作者:   引 言 :20多年前就出現的對象存儲,現在越來越被大家所重視,發展越來越火,這是為什麼?
  • 重新定義海量存儲:人類文明進化史中的信息存儲發展史
    「人類文明的進化史,也是信息存儲技術的發展史。」——華為數據存儲與機器視覺產品線總裁周躍峰人類文明進化史中的信息存儲發展史說起存儲,你心目中最早的存儲器是什麼?因此出於信息存儲和傳播的需求,人們開始創造和發明新的存儲工具。從兩河流域的泥板和石板,到遠古中國的甲骨文、竹片、木片、縑帛,再到古希臘的羊皮紙,人類一直都在努力探索和發明更好用、更便捷的存儲器。西漢時期,中國四大發明之一的造紙術開始萌芽,並由蔡倫在東漢元興元年加以改進,後續又通過文化交流和貿易傳播到世界各地。
  • 天賦異稟,高存儲密度成為海量數據存儲首選
    更神奇的是,作為最古老的存儲技術之一,IBM 磁帶存儲在時光的長河中歷久彌新,保持對社會需求變化的敏感度,擁抱新的時代,持續進化與演變,煥發新的生機,再次迎來屬於自己的高光時刻。 天賦異稟,高存儲密度成為海量數據存儲首選 說到磁帶,有人可能會想起在 VCD 上播放錄像帶看港片的年代,或者用磁帶聽歌時拿鉛筆一圈圈倒帶的場景。
  • 中科院北京國家技術轉移中心科創大數據平臺正式上線
    目前,「中科院北京國家技術轉移中心科創大數據平臺「公測版已面向中科院北京分院各院所、部分地方政府、龍頭企業開展內測。  中科院北京國家技術轉移中科科創大數據平臺  3大特色   賦能科技戰「疫」  中科院北京分院各院所項目全覽  中科院北京國家技術轉移中科科創大數據平臺  圍繞新一代信息技術產業
  • DNA:終極數據存儲方式
    在人類的基因序列中,1克的重量就可以包含幾十億GB的數據,而1毫克分子的信息存儲空間就可以包含美國國會圖書館 全部的書籍,並且還有剩餘。在過去,這些只是理論上的概念。現在,最新的一項研究表明,研究人員可以把一部遺傳學教科書的內容存儲到1微微克 (picogram,相當於萬億分之一克)DNA中,這一技術上的突破很可能會革命性的提升人類存儲信息的能力。
  • 中科院趙方慶團隊在Genome Biology發表環形RNA大數據整合挖掘平臺
    該研究基於現有的海量轉錄組數據,採用多維數據智能整合分析手段,成功解析了跨物種、多組織、大樣本的環形轉錄本表達特徵和進化規律,為探索真核生物複雜多變的環形RNA全貌和產生機制提供了強有力的數據支持。近年來,環形RNA作為一類新型的內源性非編碼RNA在生物系統調控和疾病發展過程中的意義不斷被擴展。
  • 威騰電子「分區存儲「技術席捲2019中國數據與存儲峰會
    未來幾年,我們將邁入一個新的數據時代,其中處理數據是一個非常關鍵的因素,涉及到ZB級數據存儲和處理,會有三個重要的趨勢:一個是在多雲、雲應用之間,保持數據的流動;第二個趨勢是根據數據的熱度,或者說數據生命周期,採用不同的存儲介質進行數據分層和保護;第三就是藉助人工智慧技術,智能化管理數據。總之海量數據存儲和處理已經成為用戶面臨的主要挑戰。
  • 中科院國家天文臺FAST射電望遠鏡數據中心落戶貴州
    新華社貴陽5月25日電(記者王麗、楊洪濤)中科院國家天文臺與貴州貴安新區24日籤訂《貴州射電天文臺及FAST數據處理中心建設協議》,標誌著中科院國家天文臺FAST射電望遠鏡數據中心正式落戶貴州。  記者從24日在貴州舉辦的「2017貴安國際數字經濟論壇」上了解到,FAST射電望遠鏡數據中心規劃佔地面積約60畝,總投資約1.6億元,主要建設貴州射電天文臺、FAST科學數學數據存儲與處理中心、FAST自主創新科技成果轉化綜合實驗平臺。  據中科院國家天文臺副臺長鄭曉年透露,在貴安新區建設FAST數據中心是國家天文臺今年的重要工作之一。
  • 數據分析:創建統一的公有基因組數據平臺
    雲計算服務通過按需付費模式提供海量的存儲和計算資源。使用雲服務要通過網際網路,而且計算資源是共享的,這就引起了很多科研資助機構的疑慮,他們擔心雲計算的使用會洩露樣本提供者的隱私。NIH取消不準上傳到雲端的規定是因為基因組學研究中正面臨著現實問題:如何獲取資料庫中的大量數據。這已經阻礙了科研人員的工作,尤其是當研究工作涉及到現有的數據信息時。
  • 細菌或將開啟數據存儲新未來
    目前,我們以1和0的形式在磁(或光學)系統中存儲數據。但這種形式不可持續,會消耗能源,產生大量的碳足跡。不過我們還有另一種選擇:將數據存儲在DNA等生物分子中。在自然界中,DNA在微小的空間中編碼、存儲並生成可讀的遺傳信息,具有極高的安全性和可重複性。但是,高昂的成本、緩慢的讀寫機制以及較高的誤讀率都是DNA存儲發展的重大障礙。
  • 數據同享到數據感知,軟體界說的存儲是雲數據中心的中心
    多重檢查技術提高了數據安全性,整體可靠性達到6x 9,固態存儲正在被商場接受。孫剛表明,2016年將是wave固態存儲大規模推廣的第一年,未來固態存儲將獲得更多成果。在軟體界說的存儲方面,跟著數據的爆炸式增加,企業對數據效能和數據認識提出了更多要求,支撐業務的IT數據中心將升級到軟體界說的。
  • 中國天眼、華中大、清華為何不約而同選擇浪潮的數據存儲平臺?
    但隨著重大科研項目的推進,海量數據迅速產生,科研機構迫切希望能夠讓數據採集、處理和存儲的速度提升,以更好、更快支撐起科學研究。如華中科大蘇州腦空間信息研究院所遇到的情況,就是科研機構在新數據時代下的一個縮影,當單純的腦成像已不成問題時,成像後巨大的數據量如何存儲和分析,成為當下腦科學等多個科研領域最為棘手的挑戰。
  • 非結構化數據:企業存儲「隱秘的角落」
    IDC預測,到2025年全球數據總量將達到175ZB。在企業組織的存儲系統中,非結構化數據也佔據了數據總量的80%至90%。 非結構化數據這一「龐然大物」,卻也是企業存儲中「隱秘的角落」。儘管企業花費了大量成本長期存放這些數據,也未必能夠帶來滿意的附加價值,而管理不當,則會令企業蒙受相當大的損失。
  • 國內首個工程生物產業數據分析平臺亮相!首發全球合成生物學企業...
    Engineering Biology Insights(EB Insights)首次亮相,該平臺由中國科學院深圳先進技術研究院合成所戰略發展辦公室、CB Insights China 、以及生命科學產業領先媒體 「生輝」 共同打造,旨在深度分析工程生物產業的發展方向和未來價值。