對話大咖,行業探討,30億對鹼基基因研究背後的數據「超存」挑戰

2020-12-05 浪潮企業級解決方案

大咖介紹:(從左往右)

宋家雨,Dostor存儲在線總編輯

謝長生,華中科技大學武漢光電國家研究中心教授

曾文君,深圳國家基因庫生物信息資料庫主任

孫斌,浪潮存儲產品線副總經理

近日,在DOIT存儲峰會上,浪潮存儲產品線副總經理孫斌、華中科技大學武漢光電國家研究中心教授謝長生、深圳國家基因庫生物信息資料庫主任曾文君,共同就基因研究帶來的數據存儲挑戰接受了媒體採訪。

基因庫建設對於社會發展具有重要意義,而基因庫的背後承載的是海量的數據存儲。2019年是國家基因庫建成的第3周年,現已具備88PB數據存儲能力、691萬億次/秒計算能力。截至目前,國家基因庫支持著國內外600多個項目,那麼在技術上如何同時滿足這些業務的需要?基因庫數據有哪些不同的特徵?基因數據在數據存儲、數據保護和數據遷移上面臨著哪些技術挑戰?讓我們聽聽大咖的解答。

宋家雨:基因是一個特別熱的話題,它使人類在消病延年的路上不斷向前推進,在生命科學基因研究領域,有什麼樣的應用?對存儲提出怎樣的需求和挑戰?

曾文君:BT(生物技術)的發展拉著IT在走,在生命科學領域,有個詞叫「超存」,因為對存儲的要求非常巨大,遠超對算力的要求。

一個人的基因組,它的原始大小大概是3個GB左右,包含了30億個鹼基,由A、T、C、G四個鹼基對組成的。在全基因測序過程中,為了保證基因數據的完整性,需要平行測序30次,當最終測序完成後,全基因組數據將達到大概100GB左右,只僅僅是一個單體,可想而知在廣泛的人口中,這是一個非常龐大的數據量。

整個基因分析研究,分為基因測序、基因數據分析和基因數據歸檔三個階段。其一,基因測序的整個過程是不允許被中斷的,這就要求支撐測序應用的存儲系統,具備極致的穩定性和可靠性;另外,基因測序25微秒採集一幅高清晰圖像,對性能要求也超過了現有快閃記憶體固態盤的最高帶寬,必須採用更快的傲騰固態盤;其二,基因數據分析工作中,對存儲系統的性能、小文件處理能力提出很高要求;其三,在數據歸檔階段,需要將海量基因數據長期、完整、安全的保存起來,存儲系統的採購成本、能耗,是一個很大的挑戰。

總的來說,BT(生物技術)的發展拉著IT在走,數據怎麼存、怎麼算、怎麼長期保存,對IT來說,尤其存儲來說,是個非常巨大的挑戰。我們知道「超算」,它是對算力的要求,但是在生命科學領域,有個詞叫「超存」,因為對存儲的要求非常巨大,遠超對算力的要求。

宋家雨:生命科學基因研究背後,面臨著海量數據存儲和應用的挑戰,學術界有哪些新的存儲技術趨勢?

謝長生:「數據如何存儲100年,是個具有挑戰性的問題,特別是基因分析研究這種需要長期存儲的應用。全息存儲、玻璃存儲、突破光學的超衍……這些技術,非常值得我們加快速度去研究。」

計算機和數據專家提出如何避免數字黑暗時代的命題,是指隨著IT硬體的失效和軟體的過時,很多數字信息在未來可能因為機器和軟體程序無法讀取而丟失。「數據如何存儲100年」,是個具有挑戰性的問題。正如現在的基因數據,理論上說應該是永遠保存下去的。

針對這一命題,有三種主流的未來技術。

首先,最接近產品化的是全息存儲技術。用這種技術可以保存50年。全息存儲解決了光碟介質容量小、密度低的問題,目前全息存儲技術已經可以做到單張光碟存儲1.5TB容量,再往後發展,目標是8TB,這樣就解決了存儲容量的問題。

其次,玻璃盤技術。5微米可以記一層,2毫米可以記幾百層,所以理論上它的容量可以做到很大,一張盤可以存300TB,而且玻璃是很穩定的介質,可以永久保存。

再次,突破光學衍射極限的超分辨光存儲技術。該技術用雙光束的方法突破了光學衍射物理極限,將光點縮小到現在的1%。這個技術上已經實現了,比現在光碟面密度提高了100倍,它還可以多層,實現幾個數量級的提高。

這些技術,非常值得我們加快速度去研究,因為存儲的需求在那裡,特別是基因分析研究這種需要長期存儲的應用,在測序時要求存儲高性能、高可靠,長期保存時,要求存儲大容量、高性價比,所以面對這些挑戰,我們有技術正在應對,但是這需要時間的等待。

宋家雨:面對生命科學領域的海量數據存儲和應用需求,浪潮擁有完善的存儲產品線,既有分布式存儲也有集中式存儲,客戶到底該如何選擇?

孫斌:到底是使用分布式架構還是集中式架構,往往是由客戶的應用類型、應用環境和所需要的存儲性能、容量、成本、功耗等等這些因素決定的,我們會根據種種需求給出最適合業務應用的解決方案。

我們稱2019年是新數據時代元年,在新數據時代,需要有與之對應的新存儲之道,浪潮會針對不同行業、不同領域和不同客戶應用梳理我們的存儲解決方案。而生命科學領域,是浪潮非常看重的領域,目前我們的客戶包括生命科學研究系統、晶片研究企業、高校等等。

我們發現生命科學領域所使用的存儲的架構,多數是分布式存儲,但還有一部分是集中式存儲架構。到底是使用分布式架構還是集中式架構,往往是由客戶的應用類型、應用環境和所需要的存儲性能、容量、成本、功耗等等這些因素決定的,我們會根據種種需求給出最適合業務應用的解決方案。

在新數據時代下,商業、技術、應用、需求等等都在發展和演變,是Scale-up還是Scale-out,沒有一個標準答案存在,關鍵是在於我們要時刻地關注最新的存儲技術發展,然後結合最新應用需要,把存儲能力運用到最好,這就是新存儲之道。

相關焦點

  • 生命科學領域的「超存」挑戰:數據如何存儲100年
    基因庫建設對於社會發展具有重要意義,而基因庫的背後承載的是海量的數據存儲。2019年是國家基因庫建成的第3周年,現已具備88PB數據存儲能力、691萬億次/秒計算能力。截至目前,國家基因庫支持著國內外600多個項目,那麼在技術上如何同時滿足這些業務的需要?基因庫數據有哪些不同的特徵?基因數據在數據存儲、數據保護和數據遷移上面臨著哪些技術挑戰?
  • 生命科學領域的「超存」挑戰:數據如何存儲100年?
    、深圳國家基因庫生物信息資料庫主任曾文君,共同就基因研究帶來的數據存儲挑戰接受了媒體採訪。基因庫建設對於社會發展具有重要意義,而基因庫的背後承載的是海量的數據存儲。 2019 年是國家基因庫建成的第 3 周年,現已具備88PB數據存儲能力、 691 萬億次/秒計算能力。截至目前,國家基因庫支持著國內外 600 多個項目,那麼在技術上如何同時滿足這些業務的需要?基因庫數據有哪些不同的特徵?基因數據在數據存儲、數據保護和數據遷移上面臨著哪些技術挑戰?讓我們聽聽大咖的解答。
  • 未來教育:在不確定中成長 愛文世界學校將與各行業大咖共同探討...
    在疫情和社會「停擺」中,從國家到行業,都經受著突如其來的巨大挑戰,「變則立,不變則廢」,在這次疫情中體現得淋漓盡致。而當「不確定性」成為常態,「未知」成為時代的底色,我們的孩子是否具備足夠的韌性和適應能力來應對未來的各種挑戰?
  • DNA是一部由30億個鹼基對排列組合而成的「天書」
    原標題:載有人類龐大遺傳信息的基因組,是一部由30億個鹼基對排列組合而成的「天書」。據介紹,不只是洋蔥,衣笠草(又名重樓百合)有1490億個鹼基對,非洲肺魚有1320億個,寬足蠑螈有655億個,而人類的基因組只有約30億個鹼基對。為什麼洋蔥、衣笠草等這些基因組大的生物進化程度並不是更高?原來,構成生物基因組的每個鹼基對,並不是發揮著同樣的作用,而生物進化程度更多地取決於起主要作用的部分。
  • 火爆的背後,高通量測序面臨5大挑戰|深度
    雷鋒網按:基因測序作為醫療健康行業的火爆技術,近年來越來越得到臨床的認可,並逐步被應用到各大領域中。尤其是精準醫療概念提出以後,基因測序更是備受青睞,它為精準醫療解答了很多未知的問題。如今,基因測序已經形成了一定的產業規模,大量的企業以不同形式躋身進來。但是,在表面飛速發展的背後,技術上仍有大量的挑戰。
  • 「對話·真假巖板」——2020行業大咖共話優質巖板標準高峰論壇...
    就此,粵強聯合製造聯盟、廣東省陶瓷協會及騰訊家居,於10月19日舉辦了「對話·真假巖板」——2020行業大咖共話優質巖板標準高峰論壇。」等一系列問題而與到場的一眾行業大咖展開了對話交流。廣東省陶瓷協會秘書長王衛國在論壇上稱新的應用領域對巖板有著不同於傳統陶瓷產品的性能要求,要通過制定標準,規範要求,探討解決巖板生產、加工的現實問題,使得這個當前熱門的新品類能夠更加健康地發展,這也是行業轉型升級和高質量發展的要求。
  • 現場|廣州三年展聚焦數據代碼、基因編輯,探討科技與新挑戰
    ……數據、代碼、基因編輯、人工智慧等話題成為展品所聚焦的熱門。雖然探討的話題是嚴肅而沉重的,不少展品以視頻、互動裝置的形式營造出浸入式觀展體驗,給人帶來了妙趣橫生的觀展樂趣。《丟失的你》(Missingyou)多裡安·高迪( Dorian Gaudin)(USA&FR)廣州三年展分為主題展和文獻展兩個部分。
  • 大咖說|「30·60」目標下,光伏行業將面臨哪些新挑戰,企業可以做些...
    大咖說|「30·60」目標下,光伏行業將面臨哪些新挑戰,企業可以做些什麼?北極星太陽能光伏網訊:2020年12月10日,由中國光伏行業協會組織召開的「2020中國光伏行業年度大會」成功舉行,來自行業主管部門、行業組件、行業專家、光伏企業領袖及代表等近千人參與此次大會。
  • 從基因組大數據到精準醫學
    本文轉自【人民日報】;若論近30年人類生物醫學基礎研究,遺傳密碼的測量必定是最耀眼的成果之一。人類代代繁衍,靠什麼實現遺傳?遺傳信息儲存在哪裡?它們是什麼樣子? 我們知道,遺傳信息儲存在DNA(脫氧核糖核酸)裡,長長的DNA序列由四種鹼基A、G、C、T排列組成,不同的序列段記載不同的信息。
  • 科學大咖講述腦科學與人工智慧—新聞—科學網
    布朗稱,以往研究注意力的方式是對研究對象進行fMRI(功能性磁共振成像)掃描,進而對數據進行分析。新興的fMRI技術測量的是神經元活動所引發的血液動力的改變,對人體不造成任何損傷,但需要專業人員耗費數月乃至一年來分析數據。而通過實時fMRI,數據分析可以在短短數秒之內完成。
  • 從基因組大數據到精準醫學
    約30億個字符。如果一頁打上3000個遺傳密碼,用A4紙列印出來裝訂成書,厚度能達到約100米,有30多層樓那麼高。20世紀90年代初,「人類基因組計劃」正式啟動,開啟人類在分子水平上認識自身遺傳密碼的新航程。2001年,人類基因組精細圖譜及其初步分析結果發布,使我們看到由四種符號組成的一維人類遺傳密碼的真實面貌。
  • 30+KOL/14場精彩演講,近300人齊聚基因行業年度盛會
    2018年8月30日,「2018粵港澳大灣區生命健康創新論壇暨基因行業年中大會」在深圳前海圓滿落幕。本次行業盛會由基因慧主辦,中科普瑞承辦,來自政策、科研、臨床、產業和資本等30+位業內資深專家帶來了14場乾貨分享和4場專題討論。近300位觀眾參與了此次行業盛會,見證了《2018-2019年中基因行業報告》的首發儀式,並第一時間領取了紙質版報告。
  • 趙春江院士:植物表型組學大數據及其研究進展
    近日,北京農業信息技術研究中心趙春江院士在《農業大數據學報》發表了《植物表型組學大數據及其研究進展》,該文章概括了植物表型組學大數據的發展背景、含義、產生過程和特點,系統綜述了植物表型組學大數據研究進展,植物表型資訊介紹如下:
  • 基因測序行業專題報告——NGS引領測序行業黃金十年,納米孔突破...
    根據 BCC Research 的數據,2018 年全球基因測序市場規模為 117 億美元,預計從 2010 年到 2018 年,全球市場的複合年增長率將保持在 10-30% 之間,預計 2020 年全球市場規模可達 138 億美元。
  • 從gnomAD 人群變異數據中研究基因功能
    本文使用來自gnomAD資料庫125,748個全外顯子數據和15,708個全基因組數據,檢測其中的pLoF變異,並開發了一個連續變量來體現基因對於pLoF變異的不耐受程度。gnomAD 數據集來自於常見的成人期發病疾病的case-control 研究,這些疾病包括心血管疾病、2型糖尿病、精神疾病等。
  • 開創國內鹼基編輯新賽道,正序生物探索基因編輯治療新路徑
    然而,DSB引發的DNA修復很難實現高效穩定的單鹼基突變,且DNA雙鏈斷裂會引發細胞凋亡和染色體大片段丟失等不可避免的副作用,在臨床治療領域的安全性受到越來越多的關注。這一切得以落地實現,得益於正序生物背後的創始人團隊—陳佳、楊力、殷昊、楊貝四位教授的實驗室。
  • 開創國內鹼基編輯新賽道 正序生物探索基因編輯治療新路徑
    然而,DSB引發的DNA修復很難實現高效穩定的單鹼基突變,且DNA雙鏈斷裂會引發細胞凋亡和染色體大片段丟失等不可避免的副作用,在臨床治療領域的安全性受到越來越多的關注。  目前,超過75000種基因突變與人類疾病相關,其中約一半是單鹼基突變,該類遺傳病無法用常規方法進行根治,患者往往需要終生服藥,並承受藥物帶來的副作用和心理壓力。
  • 「雙劍合璧」——李大力組開發新型雙鹼基基因編輯器
    圖3:A&C-BEmax在HUDEP-2細胞中高效激活HBG表達最後,與楊力課題組合作,通過大數據挖掘,在ClinVar【6】和dbSNP【7】(SNPs)臨床資料庫中發現了臨床中A&C-BEmax可同時靶向AC糾正203個臨床報導的致病突變;進一步拓展PAM為NG時,
  • 從基因組大數據到精準醫學(開卷知新)
    製圖:蔡華偉若論近30年人類生物醫學基礎研究,遺傳密碼的測量必定是最耀眼的成果之一。人類代代繁衍,靠什麼實現遺傳?遺傳信息儲存在哪裡?它們是什麼樣子?我們知道,遺傳信息儲存在DNA(脫氧核糖核酸)裡,長長的DNA序列由四種鹼基A、G、C、T排列組成,不同的序列段記載不同的信息。
  • 「區塊鏈技術助力共建中國人群基因變異解讀標準資料庫」發布
    央廣網貴陽5月27日消息(記者王珩 貴陽臺杜琨) 5月27日,2019數博會「生命大數據高峰論壇」暨「第四屆基因組雲計算技術開發者(GCTA 4)大會」在貴陽舉行,論壇邀請 IT 與 BT 領域的前沿研究者、重磅大咖、創新精英,以「生命就是大數據」為主題,聚焦「閱讀、管理、理解、