存儲專家謝長生:數據長期存儲面臨的四大挑戰與兩大有效對策

2020-12-16 存儲在線

按:12月3日,由百易傳媒(DOIT)主辦的2019中國數據與存儲峰會(DATA & STORAGE SUMMIT)在北京盛大開幕,與眾專家對新一代關鍵存儲技術趨勢及數據創新應用進行了熱議,大家一致認為數據智能將成為數字產業發展的關鍵推動力,驅動中國和企業數位化轉型。

在會上,華中科技大學武漢光電研究中心謝長生教授發表了題為「海量大數據長期存儲的挑戰與變革性技術」主題演講。標題為編者所加。

以下內容根據速記整理,未經本審定。

華中科技大學武漢光電研究中心信息存儲系統教育部重點實驗室謝長生教授

謝長生:大家下午好!我今天演講的題目叫「海量大數據長期存儲的挑戰與變革性技術」。

長期存儲提出的挑戰

說起來,很多人對數據存儲的時間考慮的比較短,能有五年就不錯了。我今天要講的是一個長期存儲的問題。長期存儲提出了什麼樣的挑戰?這裡有兩個詞,一個叫「Big  Data」,是熱詞,還有一個「Long Data」是一個冷詞。目前主流存儲介質在保存時間方面是短板,硬碟平均壽命是5年,固態盤也只有5年,磁帶長一點,大概10年,而人的平均壽命75歲,與人相關的信息至少要保持75年,包括銀行存款、保險、住房等個人資料,以及手機拍攝的照片,最好一輩子保存下來;也包括政府、企事業單位、軍隊的數據都需要長期保存;重要檔案還需要永久保存。

除了國家級的單位,需要長期保存的傳統電影資料也是很困難的,膠片保存幾十年,都已經很失真了。我去過中央電視臺資料館,他們是用的磁帶庫有八萬多磁帶,長期保存下去也存在很大的問題,還有國家圖書館,國家投了大量資金。省級的保護工作就差多了,某文化大省古書有五十萬冊,現在有半數都損壞了,對我們文化遺產是非常大的損失。

一次全國性研討會的信息與感受

上個月,我參加了「全國數字資源長期保存」相關的全國學術研討會,那些真正用到長期保存的國家圖書館、中科院檔案館、國家科技文獻中心等機構集中在一起,進行討論。

參加這個會議,我有幾點感受。

一是數字資源的長期保存,對我們國家而言是極為重要的。比如說中國科學院有那麼多所,所有科研項目都要永久存檔保存;二是他們因此成立了國家數字資源長期工作保存體系工作組(NDPP),從法律法規到管理制度到技術體系,全方位都考慮到了,工作做的非常細緻,三是正在規劃建設國家文獻戰略儲備庫,投入巨大,一個建築群都設計好了;四是技術層面還面臨非常大的挑戰,採用現有的技術,維持費用是與日俱增的,希望有更好的技術。在發言中,他們提到了我們十年前提出的概念——池光電融合的技術。經過十年努力,我們已經推出了相應的產品來。

對於國家級長期存儲甚至是永久存儲的需求,我們從事存儲的研究機構和企業能不能滿足需要?

很多行業信息非常重要,是丟不得的,一丟就會產生很大的損失。所以很多國家出臺了強制性的法律。最有名的就是安然事件以後美國出臺的塞班斯法案,強制企業要永久保留數據,用於打官司什麼的,必須拿出不可篡改原始數據。美國各個行業有長期保存的法案,歐盟也規定了數據保留法案,規定每個行業數據要保存多少年,我們國家也陸續出臺了各種各樣的法案,去年規定要求電子病例最少要保存三十年,人的壽命75年,最少保存三十年。

網際網路企業的冷數據存儲負擔將越來越不堪承受

除了很重要的信息以外,我們還有很多冷數據也是要長期保存的。

比如大家都在用的微信朋友圈。前一段時間參加了騰訊開發者大會討論了這個問題,說每天光朋友圈上傳的照片就是十億張,第一天發布的時候很多人點讚,非常熱,第二天數據急劇的變冷,第三天就沒有人訪問了。但朋友圈的照片又不能扔掉,騰訊從微信開始那天到現在的數據都在保留,保留在硬碟當中(三個副本),而且會一直保留下去,一天十億張照片,應該說有上百萬臺硬碟在不停的運轉,這就是越來越大的能源負擔。雖然有一種技術使它休眠,但控制起來其實也有一定的問題。除了消耗硬碟運轉的能源以外,還有冷卻,這麼多硬碟在一起發熱很嚴重,硬碟一旦沒有空調是很容易損壞的,這樣這個成本是與日俱增。

網際網路之父的擔憂

還有一個更深刻的問題,網際網路之父Vint Cerf先生2015年在一個大型科技會議上擔心今天保留在計算機和網際網路上的圖片文件都將丟失,人類將進入一個數字黑暗時代,未來的人可能都不知道今天人的歷史記錄。他現在在谷歌的工作,就是研究如何長期保存網際網路上的信息,也開展了範圍極為廣泛的調查,就是保存信息一百年的需求,結果調查回來的結論是信息的長期保存和在線是一個相當普遍的任務,這也引發了國際上研究的課題How preserve information for 100years?就是如何保存信息一百年。除了谷歌,還有學術界的CMU等也都做這方面的研究工作。

大數據長期存儲面臨四大挑戰

我認為,數據的長期存儲有四大挑戰。

一是壽命,現在存儲介質的壽命與實際的需求有數量級的差別。我們的關注和研究才幾年,卻要它能使用幾十年百年甚至更長的時間,有數量級的差距。

二是成本。信息越來越多,而且信息增長的速度是指數級的增長,都要保存下去,面臨巨大的成本。

除了設備成本,還有數據遷移成本。

看看這張圖。這個是國際上的一個資料上。數據遷移是目前的長期存儲主要手段。75年各種數據遷移成本的比較。如果用硬碟五年就要換一次,把5個PB的數據需要1000個硬碟,五年換1000個,這樣下來上百萬個硬碟才能保存75年,設備成本很大。再一個,數據遷移的時候,還要花很多人力物力,能耗成本也是非常大的。總之,這個成本是相當大的挑戰。

三是更新的挑戰,以前用的軟盤,技術的更新以及設備的更新,存儲產品也在不斷升級。

四是協議的更新。

來看看什麼叫協議的一致性。

埃及象形文字保存的真好,每一個字都清清楚楚,但是誰也不知道是什麼意思,信息其實是丟失了。這個問題怎麼解決的?在18世紀法國一個探險隊到埃及一個港灣城市羅塞塔(Rosetta)發現一塊石碑(在英法兩國戰爭之中輾轉到了英國大英博物館),上面有三個部分,分別是古埃及的象形文字,古希臘文和當時的通俗體文字,刻的是同樣的內容,考古學家根據這個碑把協議找出來了,破解了失傳千餘年的埃及象形文之意義與結構,在博物館裡就知道寫的什麼意思了。為了表示感謝,埃及贈送了一個方尖碑給法國,安置在法國廣場。有個翻譯軟體叫羅塞塔,就是根據這個故事來的。這就是協議的長期一致性,光物理保存下來還不行,軟體這個協議還要一致。

如何應對挑戰

我認為,對策有兩個,一是開發更長壽命更廉價的大容量存儲設備,二是解決協議的一致性問題。

主流非易失性存儲介質的壽命分析

目前主流存儲介質,硬碟五年、磁帶十年,固態盤靠電荷保存信息,更不可靠,隨著密度提高,電荷越來越少,壽命越來越短,我們用很多技術保證它保存五年。

光碟壽命會長一些。CD剛出來的時候我就買了,到現在快40年了,還能放出歌曲來,後來又一個出了染料DVD,壽命短的,三年就會壞。藍光可以保存50年,現在有一種M—Disc(千年光碟),一種熔融石英玻璃光碟,幾乎可以永久保存。

對比認為,光存儲是壽命潛力最大的存儲介質。

光存儲為什麼壽命比較長呢?給大家一個啟示。我們古老的東西保存都很長,中東古巴比倫謨拉比法典距今3800年,埃及莎草紙死亡之書,都是光存儲。傳統存儲,如石刻、竹簡、紙張上書寫本質上都是對光的反射差別形成的信息記錄,只要是光反射的介質壽命足夠長,信息就可以長期保存。

光存儲在大數據存儲領域的優勢

光存儲的優勢一是長壽命,二是節能,介質與驅動器分離的,不存儲的時候可以存放起來,抗電磁幹擾、防水,颶風來的時候磁帶、硬碟都會損壞,只有光碟還有。日本人把藍光光碟放在海裡泡兩個月數據還能讀出來。光存儲還有一個優勢是成本低廉,就在塑料片鍍一層模板,對環境要求也不高。

光存儲也有劣勢,一個是容量小,第一代藍光光碟只有25G,後來50G,現在最高300G,硬碟固態盤起碼高一個數量級;二是速度慢,光碟機速度10M/s,比硬碟慢,比固態盤更慢,接近兩個數量級的差別。

十年前,光碟當時音視頻分發的功能和軟體分發的功能即將被取代的前夜,光存儲界探討能否開發新的產品,發揮光存儲的優勢來克服光存儲劣勢,國內外工作者工作用了將近十年時間交出了答案——超大容量的光碟庫。

國際上有三種光碟或者類型,紫晶、日立、Facebook與互盟。

沒有一種各方面都理想的存儲介質

談到用途,應該說是這樣,熱數據用快閃記憶體介質,溫數據用磁記錄介質。冷數據和歸檔數據用光介質的時機已經到了,當前用磁碟更多,磁帶庫也不少,但Facebook已經用光存儲存冷數據。

在自主創新方面,我們和紫晶一起做出來世界上最大的光碟庫,在密度、帶寬、響應時間方面,關鍵指標上都是優於國際同類產品,形成了自主核心技術,已經開始應用於實際了。

光存儲未來有三種變革性的技術

光存儲技術,在藍光光碟容量到了1TB以後就到了極限,幾乎就沒有突破的可能了。如果再往後就靠波層,這個路走不很遠了。

藍光之後下一代變革性光存儲技術。

第一種是同軸多維全息光存儲技術,剛剛列入國家重點研發計劃,我們和福建師大,中科院光電所和紫晶一起參與了這個項目。第二種是2014年得了諾貝爾獎的突破光的衍射極限項目,澳大利亞科學家就是把這個技術用到光上,把光斑從300納米理論上可以減少到九個納米,這是非常大的容量上巨大的提高,至少可達15TB每盤,理想上可實現PB級。第一發明人是大陸過去的甘棕松博士,現在回到國內武漢廣電中心,實驗室最新的進展是380納米這麼一個點,現在差不多在一個位上100個點上去了,實現了百倍的提高。

最近有個新聞,說是微軟公司將今年好萊塢影片「超人」刻在玻璃上可以永久保存。這個技術來源於英國南開普敦大學開發的納米晶玻璃5維光碟,存儲壽命可超過300億年,1000度高溫下不丟失信息。

這個技術被微軟看重了,微軟投了很大人力物力,成立幾十人團隊,進展很快,從英國引進的5D納米晶悠久存儲的領先研究者張靜宇博士,他回來以後在武漢啟動了多維永久存儲的研發。

5維是哪5維?是三維加上光強、偏振,而我們實驗室除了剛才光強和偏振以外還有姿態,不同的姿態形成七維,一個點可以有很多信息,他在英國把聖經寫進去了,國內把習主席的社會主義核心價值觀刻進去了。這是我們目前做的工作。

光存儲前景與我們的目標

近年來,光學衍射極限的突破和多維技術的進展,使光存儲技術具有吉大的容量提升空間,超過了目前所有的存儲技術。加上光存儲壽命上的突破,未來光存儲技術呈現出光明的前景。

武漢光電研究中心 將光學衍射極限的突破與多為技術結合,再加上已經成功的光碟庫技術,將形成巨大容量、超長壽命的全新產品,迎接未來大數據存儲的挑戰,有望形成新的產業。

國家級的研究中心在光存儲的現有技術和未來技術上都形成了很好的技術積累和人才積累,花了8年時間研製成功超大容量光碟庫,大力引進掌握世界最先進技術的人才。

武漢光電研究中心的目標就是用這個技術做到300TB,可能目標到不了那麼高,但一個盤50 TB,我們已經有12000光碟庫,現有技術加未來技術,一個標準位可以存600 PB,而且是永久存儲。

關於解決協議一致性的問題,協議丟失以後還是認不出來,或者程序運行不了,現在武漢光電中心有研究的課題,國外也在研究,把那些數據按照規範按照一定的格式存下去,在很久以後還能夠恢復這些數據,這也有很多工作,因為時間所限就不講了。

結語

大數據長期保存,在當前和未來都是十分重要的技術。隨著時間的演進,人們將越來越認識到它的重要性。光存儲在數字資源長期保存具有獨特的優勢,目前已經有合適的產品,超大容量光碟庫已經商品化、實現了實用,市場可以越來越多採用這種技術。

三種變革性的技術正在取得突破,使未來光存儲在長期冷數據存儲方面,應該具有絕對的優勢。一個物理長效和協議的長效,一個硬的問題一個軟的問題都是值得關注的問題。

光存儲在長期保存上面可以形成新的產業,而且可以完全自主可控的,謝謝大家。

編後:本次2019中國數據與存儲峰會(DATA & STORAGE SUMMIT)為期兩天,包含主論壇、CIO高峰對話,以及大數據、快閃記憶體系統、分布式存儲、第二存儲與容災備份、超融合與雲存儲、人工智慧、數據創新與安全可控、容器創新與應用、SCM第五代存儲與快閃記憶體控制器等十大主題論壇,超過100場的專業知識分享。初步統計,本屆峰會吸引了來自政、企、產、學、研、媒體等各方參會者約2000人,在線直播觀看觀眾再創新高,超過10萬餘人次。

相關焦點

  • 紫晶存儲發布光存儲數據報告:一圖看懂光存儲介質的技術光環
    在資訊時代,數據呈現出爆炸增長的態勢,但海量數據的丟失也對存儲介質提出了更大的挑戰。近日,紫晶存儲發布了題為《解決大數據存儲,光存儲駕到》的光存儲數據報告,認為光存儲是大數據存儲的最優解,可以有效解決目前存儲行業中面臨的多種難題。但光存儲作為四大存儲介質之一,真的有如此巨大的優勢而成為未來存儲的趨勢嗎?
  • 對話大咖,行業探討,30億對鹼基基因研究背後的數據「超存」挑戰
    >近日,在DOIT存儲峰會上,浪潮存儲產品線副總經理孫斌、華中科技大學武漢光電國家研究中心教授謝長生、深圳國家基因庫生物信息資料庫主任曾文君,共同就基因研究帶來的數據存儲挑戰接受了媒體採訪。基因庫建設對於社會發展具有重要意義,而基因庫的背後承載的是海量的數據存儲。2019年是國家基因庫建成的第3周年,現已具備88PB數據存儲能力、691萬億次/秒計算能力。截至目前,國家基因庫支持著國內外600多個項目,那麼在技術上如何同時滿足這些業務的需要?基因庫數據有哪些不同的特徵?基因數據在數據存儲、數據保護和數據遷移上面臨著哪些技術挑戰?
  • 基於新型存儲的大數據存儲管理
    現有的主流的NoSQL資料庫系統,例如文檔資料庫系統MongoDB、列存儲資料庫系統HBase[13,14]、內存資料庫系統Redis等,均採用了分布式集群架構實現大數據的存儲。也有一些分布式資料庫系統在存儲架構設計上考慮了異構存儲的特性,例如RAMCloud[15]和RethinkDB,從而有效提升了系統的存取性能。  但是,現有的大數據存儲技術還存在著以下的局限性[16]。
  • 如何解決大規模非結構化數據的存儲挑戰
    【IT168 評論】存儲非結構化數據是存儲系統的主要挑戰之一,大數據、人工智慧、5G等技術的進步正在產生大量的必須進行管理、存儲和分析的數據,這為存儲系統帶來了許多挑戰。  當然,處理非結構化數據並非是一個「世紀難題」,越來越多的提供商正在興起,幫助企業滿足處理大量數據的需求。
  • 謝長生:探索中國獨立自主發展的冷存儲道路
    我們看兩個詞,一個叫Big Data,這個是熱詞,還有一個詞叫Lang Data這是一個冷詞,冷數據提出一個什麼挑戰呢?一個是大的挑戰,一個是長的挑戰,長的挑戰就是要保存幾十年、幾百年,有的還要永久保存。
  • 大數據時代的存儲介質:鋇鐵氧體數據流磁帶
    另外,除了單盤存儲容量大,磁帶介質還具有諸多不同於主流在線存儲介質的特性:┃存儲密度:Q: 磁帶如何做到這樣高的單位存儲密度?A:首先,現在最新的數據流磁帶產品上塗布的是納米級磁性顆粒。第七代LTO鋇鐵氧體顆粒比第五代LTO金屬顆粒的體積減小了近一半,僅為20納米,因此,在維持磁帶長度不變的情況下,可以塗布更多用來記錄二進位數據的顆粒,單位體積的存儲容量可增大近一倍。而硬碟的單位介質容量增長技術則面臨瓶頸。
  • 存儲中國2008峰會圓滿落幕:引領存儲變革
    存儲行業迎來變革浪潮在中國存儲市場一片欣欣向榮之際,業內廠商、分析機構的分析師以及來自國家企業信息化領域的政府官員也同時看到了中國存儲市場所面臨的變革和挑戰,在進行主題演講的時候,惠普公司亞太區及日本區副總裁兼存儲事業部總經理Jim Wagstaff認為:「我們正在經歷金融危機,這樣的情況下我們覺得存儲是非常重要的。」
  • 天賦異稟,高存儲密度成為海量數據存儲首選
    對磁帶存儲技術的不懈追求,確立了 IBM 在磁帶技術領域的領先地位。其他存儲技術無法比擬的成本優勢,以及不斷提升的存儲密度和容量,使得磁帶自然而然地成為滿足低成本、大容量數據存儲要求的最佳選擇。 軟硬兼濟,雲時代迎來新生 隨著大數據、雲計算和 AI技術的快速發展和應用,企業數據量與日俱增。
  • 金海:數據處理的時效性是大數據時代面臨的最大挑戰
    華中科技大學計算機學院教授金海教授作大數據處理的技術挑戰及應用的主旨報告  大會現場,華中科技大學計算機學院教授金海教授為大會作大數據處理的技術挑戰及應用的主旨報告。  以下為現場實錄全文:  非常高興有機會到中國軟體行業協會的年會來跟大家分享一下目前在大數據處理方面的一些挑戰。我這個報告稍微偏技術一點,但是我覺得對我們整個軟體行業的發展可能起到一個提醒作用,因為大數據處理面臨一個非常關鍵的時刻。我先從例子講起,這是2017年的雙11,舉了兩組數據,大家都知道人造狂歡節。但是這個人造的狂歡節是我們大數據處理面臨的最大一次挑戰。
  • 大數據存儲平臺之異構存儲實踐深度解讀
    經常做數據處理的夥伴們肯定會有這樣一種體會:最近一周內的數據會被經常使用到,而比如最近幾周的數據使用率會有下降,每周僅僅被訪問幾次;在比如3月以前的數據使用率會大幅下滑,存儲的數據可能一個月才被訪問幾次。
  • 以光為劍守護數據主權,第四屆信息安全產業論壇在鄭州舉行
    廣東紫晶信息存儲技術股份有限公司與中國企業聯合會、中國企業家協會、工業和信息化科技成果轉化聯盟、中關村中企慧聯先進位造業技術聯盟一起主辦此次論壇,為關注數據安全的領導專家、信息存儲相關領域的同仁、以及對數據存儲和安全有需求的行業夥伴提供了一個交流合作,共享觀點的平臺。
  • 計算存儲分離之「數據存儲高可用性設計」
    同樣在阿里,我們今年對資料庫進行計算存儲分離,面臨的難度也非常大。因此,我們也對各種分布式存儲進行了許多研究,開源的如Ceph,還有阿里雲的盤古等。 2.1 解除機型配比  一般性的,我們將伺服器分為兩部分,計算資源和存儲資源。計算資源如CPU和內存,計算資源的特點就是無狀態,資源分配比較靈活。存儲資源有狀態,需要保證數據的一致性和持久性,資源分配比較固定,會涉及到數據的遷移。如果數據量太大,就會遇到遷移性能的問題。
  • 構建數位化基石 紫晶存儲參展2018中國存儲與數據峰會
    2018中國存儲與數據峰會(簡稱DSS大會)將於2018年12月11至12日在北京國際飯店會議中心舉辦。本次DSS峰會由百易傳媒(DOIT)主辦,中國計算機學會、武漢國家光電研究中心、SNIA等組織協辦,匯集14類不同行業的大咖、5類不同行業的領軍人物、十大主題論壇、近百場專業知識分享以及數十家知名IT廠商出席本次峰會,其中包括中國存儲業的龍頭企廣東紫晶信息存儲技術股份有限公司(以下簡稱:紫晶存儲)。
  • 數據存儲的趣事
    數據存儲介質的時光漫步一個字節中的比特數隨過去存儲介質的設計而變化,通過各種存儲介質進行時間旅行,可以了解數據在歷史中是如何存儲的。假設我們有一個字節的數據要存儲: 字母 j,或者編碼的字節6a,或者二進位01101010。穿越時光,讓這個數據字節貫穿於各種存儲技術之中。
  • 大數據基礎設施論壇(下):存儲、計算、架構在大數據中的應用
    【CSDN現場報導】2014年12月12-14日,由中國計算機學會(CCF)主辦,CCF大數據專家委員會承辦,中科院計算所與CSDN共同協辦,以推進大數據科研、應用與產業發展為主旨的 2014中國大數據技術大會 (Big Data Technology Conference 2014,BDTC 2014)暨第二屆CCF大數據學術會議在北京新雲南皇冠假日酒店盛大開幕
  • 區塊鏈與分布式存儲構建數據要素市場基礎設施
    (2)BitTorrent, ipfs借鑑的首先是消極上傳者的懲罰措施,在 BitTorrent 的客戶端上傳數據會獎勵積分,而長期不上傳的消極節點會被扣分,如果分數低於一定限度,那麼網絡會拒絕再為他們提供服務;其次是文件可用性檢查,BitTorrent優先把稀缺的文件分享出去,各個客戶端之間相互補充,這樣種子不容易失效,傳輸效率也提高了。
  • 數據管理的「面授機宜」 為您找回IT存儲人的迷失
    幾年前企業基礎架構的投資還是以硬體為主,企業IT管理者只需添加一臺設備,就能解決IT面臨的絕大多數問題;到了今天,技術在驅動行業不斷變革,企業IT管理者面臨著巨大的挑戰,容量管理、數據安全、運營成本,已是企業IT管理者面前的三大難題。  存儲江湖風雲萬變,僅僅20載光陰就已經完全變了模樣,但是無論技術的更迭、時代的演進,數據,要一直可用、永久安全。
  • 數據架起通天橋 分布存儲繪遠圖——專訪瀋陽遠圖數據科技有限公司...
    隨著相關政策、配套服務以及相關標準和技術體系的完善,整個大數據產業的布局也更加完整,市場規模不斷上升。賽迪研究院的專家指出,中國大數據產業在技術進步、數字應用普及等多個積極影響因素作用下,預計到2020年規模將突破6605億人民幣。本次筆者有幸走進瀋陽遠圖數據科技有限公司,了解了許多有關大數據的相關知識。
  • 騰訊存儲往事 - 騰訊,存儲 - IT之家
    當時,農場的訪問量巨大,在每秒數萬的並發訪問下,騰訊的底層存儲系統的延時和請求吞吐壓力非常大,伺服器數度崩潰。當時的騰訊,基本上把公司所有閒置伺服器都用在 QQ 農場上,但仍遠遠不夠,需要大量採購伺服器。存儲技術團隊一方面瘋狂擴容設備,另一方面基於數據規模不太大但是訪問量極高的業務特點,快速研發了全內存的分布式存儲系統。
  • 電子數據司法鑑定面臨的風險和挑戰
    因為電子數據具有隱藏性、多樣性、脆弱性的特點。所以,在各類案件訴訟過程中,電子數據信息的證據鑑定中各種風險問題也隨之暴露。電子數據的獲取、傳送、分析等各個環節都有可能被篡改,且不易留下痕跡,又難以識別。正是因為電子數據具有以上的特殊屬性,所以一份電子數據是否能作為一樁審判案件的有效證據也往往存在很多質疑的風險。