生命科學領域的「超存」挑戰:數據如何存儲100年

2020-11-29 砍柴網

大咖介紹:(從左往右)

宋家雨,Dostor存儲在線總編輯

謝長生,華中科技大學武漢光電國家研究中心教授

曾文君,深圳國家基因庫生物信息資料庫主任

孫 斌,浪潮存儲產品線副總經理

近日,在DOIT存儲峰會上,浪潮存儲產品線副總經理孫斌、華中科技大學武漢光電國家研究中心教授謝長生、深圳國家基因庫生物信息資料庫主任曾文君,共同就基因研究帶來的數據存儲挑戰接受了媒體採訪。

基因庫建設對於社會發展具有重要意義,而基因庫的背後承載的是海量的數據存儲。2019年是國家基因庫建成的第3周年,現已具備88PB數據存儲能力、691萬億次/秒計算能力。截至目前,國家基因庫支持著國內外600多個項目,那麼在技術上如何同時滿足這些業務的需要?基因庫數據有哪些不同的特徵?基因數據在數據存儲、數據保護和數據遷移上面臨著哪些技術挑戰?讓我們聽聽大咖的解答。

宋家雨:基因是一個特別熱的話題,它使人類在消病延年的路上不斷向前推進,在生命科學基因研究領域,有什麼樣的應用?對存儲提出怎樣的需求和挑戰?

深圳國際基因庫生物信息資料庫主任 曾文君

曾文君:BT(生物技術)的發展拉著IT在走,在生命科學領域,有個詞叫「超存」,因為對存儲的要求非常巨大,遠超對算力的要求。

一個人的基因組,它的原始大小大概是3個GB左右,包含了30億個鹼基,由A、T、C、G四個鹼基對組成的。在全基因測序過程中,為了保證基因數據的完整性,需要平行測序30次,當最終測序完成後,全基因組數據將達到大概100GB左右,只僅僅是一個單體,可想而知在廣泛的人口中,這是一個非常龐大的數據量。

整個基因分析研究,分為基因測序、基因數據分析和基因數據歸檔三個階段。其一,基因測序的整個過程是不允許被中斷的,這就要求支撐測序應用的存儲系統,具備極致的穩定性和可靠性;另外,基因測序25微秒採集一幅高清晰圖像,對性能要求也超過了現有快閃記憶體固態盤的最高帶寬,必須採用更快的傲騰固態盤;其二,基因數據分析工作中,對存儲系統的性能、小文件處理能力提出很高要求;其三,在數據歸檔階段,需要將海量基因數據長期、完整、安全的保存起來,存儲系統的採購成本、能耗,是一個很大的挑戰。

總的來說,BT(生物技術)的發展拉著IT在走,數據怎麼存、怎麼算、怎麼長期保存,對IT來說,尤其存儲來說,是個非常巨大的挑戰。我們知道「超算」,它是對算力的要求,但是在生命科學領域,有個詞叫「超存」,因為對存儲的要求非常巨大,遠超對算力的要求。

宋家雨:生命科學基因研究背後,面臨著海量數據存儲和應用的挑戰,學術界有哪些新的存儲技術趨勢?

華中科技大學武漢光電國家研究中心教授 謝長生

謝長生:「數據如何存儲100年,是個具有挑戰性的問題,特別是基因分析研究這種需要長期存儲的應用。全息存儲、玻璃存儲、突破光學的超衍……這些技術,非常值得我們加快速度去研究。」

計算機和數據專家提出如何避免數字黑暗時代的命題,是指隨著IT硬體的失效和軟體的過時,很多數字信息在未來可能因為機器和軟體程序無法讀取而丟失。「數據如何存儲100年」,是個具有挑戰性的問題。正如現在的基因數據,理論上說應該是永遠保存下去的。

針對這一命題,有三種主流的未來技術。

首先,最接近產品化的是全息存儲技術。用這種技術可以保存50年。全息存儲解決了光碟介質容量小、密度低的問題,目前全息存儲技術已經可以做到單張光碟存儲1.5TB容量,再往後發展,目標是8TB,這樣就解決了存儲容量的問題。

其次,玻璃盤技術。5微米可以記一層,2毫米可以記幾百層,所以理論上它的容量可以做到很大,一張盤可以存300TB,而且玻璃是很穩定的介質,可以永久保存。

再次,突破光學衍射極限的超分辨光存儲技術。該技術用雙光束的方法突破了光學衍射物理極限,將光點縮小到現在的1%。這個技術上已經實現了,比現在光碟面密度提高了100倍,它還可以多層,實現幾個數量級的提高。

這些技術,非常值得我們加快速度去研究,因為存儲的需求在那裡,特別是基因分析研究這種需要長期存儲的應用,在測序時要求存儲高性能、高可靠,長期保存時,要求存儲大容量、高性價比,所以面對這些挑戰,我們有技術正在應對,但是這需要時間的等待。

宋家雨:面對生命科學領域的海量數據存儲和應用需求,浪潮擁有完善的存儲產品線,既有分布式存儲也有集中式存儲,客戶到底該如何選擇?

浪潮存儲產品線副總經理 孫斌

孫斌:到底是使用分布式架構還是集中式架構,往往是由客戶的應用類型、應用環境和所需要的存儲性能、容量、成本、功耗等等這些因素決定的,我們會根據種種需求給出最適合業務應用的解決方案。

我們稱2019年是新數據時代元年,在新數據時代,需要有與之對應的新存儲之道,浪潮會針對不同行業、不同領域和不同客戶應用梳理我們的存儲解決方案。而生命科學領域,是浪潮非常看重的領域,目前我們的客戶包括生命科學研究系統、晶片研究企業、高校等等。

我們發現生命科學領域所使用的存儲的架構,多數是分布式存儲,但還有一部分是集中式存儲架構。到底是使用分布式架構還是集中式架構,往往是由客戶的應用類型、應用環境和所需要的存儲性能、容量、成本、功耗等等這些因素決定的,我們會根據種種需求給出最適合業務應用的解決方案。

Dostor存儲在線總編輯 宋家雨

在新數據時代下,商業、技術、應用、需求等等都在發展和演變,是Scale-up還是Scale-out,沒有一個標準答案存在,關鍵是在於我們要時刻地關注最新的存儲技術發展,然後結合最新應用需要,把存儲能力運用到最好,這就是新存儲之道。

相關焦點

  • 生命科學領域的「超存」挑戰:數據如何存儲100年?
    宋家雨:基因是一個特別熱的話題,它使人類在消病延年的路上不斷向前推進,在生命科學基因研究領域,有什麼樣的應用?對存儲提出怎樣的需求和挑戰?總的來說,BT(生物技術)的發展拉著IT在走,數據怎麼存、怎麼算、怎麼長期保存,對IT來說,尤其存儲來說,是個非常巨大的挑戰。我們知道「超算」,它是對算力的要求,但是在生命科學領域,有個詞叫「超存」,因為對存儲的要求非常巨大,遠超對算力的要求。宋家雨:生命科學基因研究背後,面臨著海量數據存儲和應用的挑戰,學術界有哪些新的存儲技術趨勢?
  • 對話大咖,行業探討,30億對鹼基基因研究背後的數據「超存」挑戰
    宋家雨:基因是一個特別熱的話題,它使人類在消病延年的路上不斷向前推進,在生命科學基因研究領域,有什麼樣的應用?對存儲提出怎樣的需求和挑戰?曾文君:BT(生物技術)的發展拉著IT在走,在生命科學領域,有個詞叫「超存」,因為對存儲的要求非常巨大,遠超對算力的要求。
  • 100%數位化,中南醫院聯合浪潮存儲應對影像大數據挑戰
    北京2020年11月26日 /美通社/ -- 倫琴一定不會想到,125年後,自己會與這家「給疫情踩了一腳剎車」的醫院產生關聯。 1895年,德國物理學家倫琴發現了X射線,醫學成像技術由此孕育而生。
  • 科學家用DNA來存儲數字數據
    我們處於一個數據大爆炸時代,我們這個時代的數據的激增和豐富,迫切新計算機制出現,因為我們現在的計算機可能無法有效地處理由於數位技術的日益使用而湧入的數據。在這種情況下,科學家們正在提出創造性和尖端的解決方案,以利用這些大量的數據,以推動創新。然而,為了做到這一點,我們必須要麼有新的更有效的計算機,要麼有更好的工作和存儲數據的方法。
  • 象限晉級,「挑戰者」浪潮存儲的新挑戰
    三年之後,浪潮存儲完成了從「利基者」向「挑戰者」的挑戰。  其中,浪潮存儲實現跨象限晉升,從利基者象限晉級到挑戰者象限,成為本年度唯一實現象限跨越的存儲廠商。   跨越了象限 ,「挑戰者」浪潮存儲如何應對未來道路上更大的挑戰?未來,浪潮存儲應該如何再次實現象限的跨越,成為全球存儲市場的「領導者」?新風向:如何看待魔力象限背後的主存儲市場?
  • 中國天眼、華中大、清華為何不約而同選擇浪潮的數據存儲平臺?
    在國家大力支持與科技賦能下,科研成果遍地開花,如在腦科學領域,華中科技大學蘇州腦空間信息研究院,繪製出了具有裡程碑意義的靈長類全腦的三維圖譜;在天文研究領域,今年投入使用的「中國天眼」FAST已達到領先世界二十年以上的水平。但隨著重大科研項目的推進,海量數據迅速產生,科研機構迫切希望能夠讓數據採集、處理和存儲的速度提升,以更好、更快支撐起科學研究。
  • 生命科學+醫療健康領域上演的資本熱情,將成就下一個十年增長點?
    2020 開年的新冠疫情帶來了許多變數,在變數之外,醫療健康、生命科學再一次成為人們關注的焦點。這並不只是因為這個領域關乎人類的生命健康,更是因為壁壘高築的醫療健康領域在今年上演了一波接一波的資本熱情。 從資本到政策,從市場到技術,醫療健康領域走到了一個拐點,技術創新依舊在推進,但是從技術到商業化的路徑究竟誰在驅動?
  • 看生命科學領域最傑出女性如何平衡工作家庭
    都說女性能頂半邊天,但當女性在職場叱吒風雲的時候,仍會遭遇某種程度的阻礙,且經常被問及如何面對性別歧視、如何應對家庭職責、如何爭取晉升……生命科學領域也不例外。近日,Fierce Pharma發布了「生命科學領域的20位最傑出女性」名單,從中或許可以找到一些答案和思考。
  • 《科學》:人類世界最具挑戰的125個科學謎題
    《科學》雜誌於2005年7月提出125個重要的科學問題,其中包含25個最突出的重點問題(highlighted questions)以及其他100個生命科學、物理學、數學等領域的難題。在未來的25年內(已經過去14年)科學家很有希望找到這些重要基礎性問題的答案,但也因此面臨更多挑戰。
  • 威騰電子「分區存儲「技術席捲2019中國數據與存儲峰會
    未來幾年,我們將邁入一個新的數據時代,其中處理數據是一個非常關鍵的因素,涉及到ZB級數據存儲和處理,會有三個重要的趨勢:一個是在多雲、雲應用之間,保持數據的流動;第二個趨勢是根據數據的熱度,或者說數據生命周期,採用不同的存儲介質進行數據分層和保護;第三就是藉助人工智慧技術,智能化管理數據。總之海量數據存儲和處理已經成為用戶面臨的主要挑戰。
  • 2020中國數據與存儲峰會在京召開
    在這個充滿挑戰的社會,什麼樣的存儲是您最合適的需要?是存儲陣列,還是分布式存儲?是高端存儲,還是全快閃記憶體陣列?如何使用以Optane為代表SCM技術?區塊鏈和存儲碰撞出怎樣的火花?數據基礎設施如何滿足雲原生化應用的業務需求?2020年11月18日,在北京召開的」2020中國數據與存儲峰會」,吸引了線上線下數千名行業內人士的共同關注。
  • 華為發布2021年奧林帕斯懸紅 聚焦數據存儲業界難題
    【環球網科技綜合報導】12月30日消息,華為近日針對數據存儲業界難題發布了2021年奧林帕斯懸紅,以獎勵全球在數據存儲領域取得突破性貢獻的科研工作者。華為方面表示,在數字經濟時代,數據成為關鍵生產要素。
  • 數據存儲的業界難題怎麼破?
    在12月29日舉辦的2020全球數據存儲教授論壇上,華為針對數據存儲兩大業界難題,發布2021年奧林帕斯懸紅,獎勵全球在數據存儲領域取得突破性貢獻的科研工作者。來自中國工程院、國內外頂尖高校、科研機構以及華為的上百位數據存儲領域專家出席本次論壇。
  • 浪潮存儲聯合華中大,探索科研新基建背後的大數據奧秘
    現如今,單純的腦成像已經不成問題,但成像之後巨大的數據量如何存儲和分析成為當下腦科學等多個科研領域最為棘手的挑戰。是什麼阻礙了「腦洞大開」華中科大蘇州腦空間信息研究院所遇到的情況是科研機構在新數據時代下的一個縮影。
  • 中科院細胞所存儲進化史:從數據抽屜發展到10PB數據平臺
    從抽屜裡的數據中心開始 這是15年前的「故事」,徐姚晨現任中科院分子細胞科學卓越創新中心信息建設與運維部主管,他所在的研究所更是大有來頭。中科院生化與細胞所是中國生命科學領域,最具科研實力、最具影響力的國立研究機構之一,曾經成功破解牛胰島素拆分、合成的科學難題,這也可能是新中國成立後,最早接近諾獎的一項研究成果。
  • 中科院細胞所存儲進化史:從數據抽屜發展到10PB數據平臺
    中科院生化與細胞所是中國生命科學領域,最具科研實力、最具影響力的國立研究機構之一,曾經成功破解牛胰島素拆分、合成的科學難題,這也可能是新中國成立後,最早接近諾獎的一項研究成果。 回到文章開篇所述,「抽屜裡的數據中心」確實已經稍顯原始。
  • 奧林帕斯懸紅:攻克數據存儲世界級難題的詩與遠方
    在攻克數據存儲世界級難題上,華為是極為認真和有卓越追求的。 去年底,華為發布了針對數據存儲世界級難題的奧林帕斯懸紅,聚焦實現『自動駕駛的數據全生命周期治理』和構建『每比特極致性價比的數據存儲』,鼓勵全球科研工作者攻克數據基礎設施難題。
  • Nature:用2斤DNA就能存儲世界上所有的數據
    對尼克•高德曼(Nick Goldman)而言,用DNA來編碼數據始於一個玩笑。那是2011年的2月16日,星期三。高德曼正在德國漢堡的一個酒店裡,與幾個生物信息學家討論如何解決鋪天蓋地而來的海量基因組序列以及其他數據的存儲難題。
  • 單細胞數據科學的十一個重大挑戰
    在同時代背景下,人類社會的數據精度也在擴展,隨之而生的是大數據以及數據科學的概念,於是,我們不難聯想到:單細胞數據科學(single-cell data science ,SCDS)。最簡單的方法是兩個數據的時候大小比較就可以了,兩組數據假設檢驗,基於假設檢驗可以做三組的(方差分析)。當然,基於當代數據科學的發展找出數據之間的差異的方法是很多了,在Rna數據中最經典的差異基因計算方法要數 edger了。但是,單細胞的差異如何刻畫?樣本不同,組織不同,細胞類型不同,這些只看表達量可以衡量與否以及如何衡量。其實找差異,換句話說是如何穩健地描述細胞間的異質性?
  • 我國科學家開發生命科學領域專業資料庫
    新華社北京11月5日電(記者 董瑞豐)中國科學院北京基因組研究所生命與健康大數據中心近日針對生命科學一些重要研究領域,開發了系列特色專業資料庫,將為科研人員進一步破解生命奧秘提供重要數據支持。