2019年7月14日,由中國新一代IT產業推進聯盟指導,CIO時代學院、中國電子科技集團公司第十五研究所計算機質檢中心主辦,全國高校大數據教育聯盟、章魚大數據、萬山數據協辦的"第八屆中國大數據應用論壇暨中國電科15所大數據應用論壇"在京隆重開幕。來自大數據應用技術研究的一流高校、研究院所知名學者和專家,以及大數據應用方面的領軍企業、知名企業負責人以及關注大數據技術發展和應用的重要行業客戶等200多人,就主題"場景驅動的場景變革",展開了熱烈交流與探討。
華中科技大學光電國家研究中心研究員吳非在"第八屆中國大數據應用論壇暨中國電科15所大數據應用論壇"上發表了題為《數據應用對存儲提出的挑戰和發展趨勢》的主題演講,以下為演講實錄:
吳非
華中科技大學光電國家研究中心研究員
首先介紹一下,我來自華中科技大學武漢光電國家研究中心,我們研究中心共支撐了光學工程、生物工程、計算機科學與技術以及微電子四個一級學科,在2017年11月份更名為武漢光電國家研究中心。今天我分享的內容,主要圍繞大數據時代對存儲提出什麼新的挑戰以及近年來的研究進展。
圍繞著大數據,據IDC預測,預計到2025年全球數據存儲容量大概將達到175ZB。這麼大的數據量,到底有多少數據是有用的,多少數據是需要長久把它保存下來的呢?
總所周知,大數據具有四個應用特徵"4V"。那麼"4V"代表了什麼含義呢?第一是存儲容量非常的巨大。那麼這個"巨大"對於我們做存儲的人來講,第一個方向是要考慮如何給用戶提供一個如此大的存儲空間。第二個問題是,如何怎麼保證數據存儲的可靠性的問題和長效性問題。剛剛有嘉賓分享到無人駕駛,在無人駕駛過程當中,它其實只是微秒級的快速響應判斷過程。如果這個判斷過程中,如心臟供血不足,響應延遲過大,那麼一定會發生車禍,所以說數據處理的實時性對我們來講是一個挑戰。
第三和第四個問題,我們看看這兩個"V"是什麼含義。第一,數據處理的類型變的非常繁雜,有結構化數據、半結構化數據以及非結構化數據。這些數據和我們傳統數據在存儲和處理上的不同之處在於說,傳統的方式你可以用數據的局部性特徵,也就是說我們可以有一個很好的金字塔形狀存儲層次結構來進行數據存儲。另外一個問題在於,我們的數據儘管非常大,但是它的價值密度太低了。比如說我們存了幾個小時的視頻,我們在做人工智慧數據檢索過程中,真正有用的數據可能只有幾秒的數據是有用的。我們在做數據處理時依然通過I/O從遠端把所有數據進行傳輸,存儲牆和能耗牆問題凸顯。
所以在今天大數據應用時代背景下,對存儲提出了幾個問題:巨量信息如何保存?如何滿足秒級的處理能力?如何解決存儲牆和能耗牆的問題?
我們來看挑戰一,怎麼樣提供一個巨大的存儲空間?我們知道在數據存儲發展的時代長河上,最早古代時把所有的信息都刻在石、竹、皮或者紙上,而現代是磁、光、電。那麼未來將是量子存儲、DNA存儲。我們看磁、光、電這塊怎麼來滿足大容量存儲?比如說手機上都是用快閃記憶體存儲介質,幾年前你的手機是8G、16G,現在都是512,未來相信一定是1T。那麼快閃記憶體怎麼提高存儲容量呢?有三個方式:第一是在一個房間裡裝更多的人,是採用多位存儲;第二是每個人佔的空間更小;第三是找空間要位置,也就是樓越蓋越高,我們稱之為多層存儲。通過這樣三個技術讓它的容量越來越大。實際上這對我們提出更多的挑戰在於它容量變大的時候,可靠性變的非常弱。所以今天你的手機很有可能用不到兩年,它就會壞。而電的存儲,最大壞處是,壞了以後數據無法恢復。在磁存儲上,這兩年硬碟容量提升是比較慢的,它有三個方式可以提高,比如說瓦記錄、熱輔助磁記錄、位元圖案介質。瓦記錄是什麼意思呢?就像農村蓋房子一樣,瓦和瓦疊著放,這樣看上去每一塊瓦佔的空間面積就變少了,實際是兩個疊起來。那麼當把這三種結合在一起,硬碟未來也可以做到100TB。那麼我們要想有這麼大存量,最有可能又回到光存儲。日本做成了多層藍光。大家都用過光碟,現在我們用光碟容量大概是8.5G。而日本多層藍光碟也是採用堆疊技術,也可以做到很大。還有一個是全息存儲,存儲密度很大,是立體存儲,現在單盤最大可以達到8TB/盤。美國和日本有原形樣機出現。中國今年也立了重大專項,專門研究全息存儲。還有兩類可以更多解決未來大數據存儲的需求,一個是雙光束超分辨存儲,單盤容量是1PB/盤。還有5D玻璃存儲,單盤容量是300TB/盤。玻璃存儲的最大好處是存儲壽命比較長。每一類存儲方式因為特點上的不一樣,所以我們未來是要滿足大數據存儲需求,那麼它一定是磁光電混合的存儲體系結構。我們做了一個數據分析看到的是數據冷的速度非常快。也就是說熱數據持續時間也就是一天,最長一個月馬上就變為冷數據。所以我們儘管需要很大的存儲空間,但是大部分數據都屬於冷數據範疇。
第二個要解決的問題是高帶寬、低延遲的存儲。所有的存儲都需要有一個實時性的方式,但是從80年代開始,我們知道80年的時候我們的存儲和計算兩個之間性能是完全匹配的。那麼隨著20年的發展,我們看到CPU和存儲之間帶寬的差距變的越來越大,而導致另外一個問題就是在響應過程中延遲是很大的。現在的存儲層次體系結構裡面,計算機裡面有內存,內存的問題在於數據掉電可能丟失。所以能否找到新的存儲介質,讓它來彌補處理和存儲之間帶寬不平衡的問題,去解決高帶寬低延時。非易失的存儲器件和體系結構的變化會是解決這個問題的一些途徑。而這些非易失存儲器件所構成的存儲級內存在2011年的時候被評為十大類的戰略技術。現在可備選的非易失存儲器非常多,這一類面臨的共性問題是壽命受限,每次數據在讀的過程中是破壞性讀,每次數據要重新寫、重新擦,所以我們想把這些很好的用到現在高性能的處理系統裡面去就需要有很多新的算法,這些對我們來講也是挑戰。
總結一下會看到非易失存儲器,我們希望某一天發現了一個新的這樣的存儲器,它的性能可以等價於SRAM,能耗低,而且又是永久性的。從前目前分析上來看,相對來講磁性存儲器已經基本上介乎於SRAM和DRAM之間。我們知道MRAM已經用到了美國的太空上面。各種非易失存儲器,如相變、憶阻等,它們的好處在於說它的訪問特性是內存的訪問特性。它訪問粒度是字節型的,這點和快閃記憶體是不一樣的。快閃記憶體訪問力度是塊級,導致我們更多會把快閃記憶體作為外存儲器,而不能作為內存儲器而存在。
在這樣一個存儲層次體系結構上,我們知道今天大家用的存儲體系結構其實就是這樣一個金字塔,也就是說離CPU越近的存儲器的速度越快,離CPU越遠的存儲器的容量越大。因為DRAM和硬碟或者快閃記憶體盤在進行數據交互過程中,他們帶寬差距依然在兩個數量級以上,我們的DRAM和CPU帶寬不平衡問題也在兩個數量級以上,所以我們是希望能夠構成SRAM的存儲即內存。這樣就能把內外存統一起來,我們CPU在處理數據時只需要跟內存打交道,而這一層讀寫延時也是微秒級,這樣可以滿足實時性需求。當然這當中還有很多問題需要解決,比如數據保存的持久性問題、數據一致性問題等等。這些技術必須攻破了以後才有可能真正用到新的體系架構上面。
第三個問題就是存儲智能化。今天大家都在說人工智慧,因為現在計算發展是非常快的,CPU+GPU、CPU+各種專用處理器,有很多人工智慧處理器,都有。但是你再怎麼樣處理,你要有源泉。而我們發現在我們整個的體系架構裡面依然走的是馮諾一曼體系架構,它是總線架構,就是內存和外存之間有大量的數據移動過程。我們看到內存以及CPU之間也有大量的數據的移動過程。而在這樣的移動過程中,我們發現大量的數據移動和傳輸,就導致存儲成為整個系統的瓶頸。Google有一個統計數據,移動系統中,62.7%的能耗被消耗在數據移動上。所以說要想解決存儲牆和能耗牆,我們一定要想著怎麼樣搬我要的數據,不要的數據我就不搬了的問題。
我們可以看到計算機裡面現在提出的所有新的概念過去都有,只不過在不斷突破,包括今天很火的人工智慧,它也是有很多浪潮的。存內計算的概念,90年代的時候就有。最早的時候IBM實際上推出過一些相關的產品。但是那個時候都基於是DRAM在做,但是DRAM最大的問題在於它是很容易丟失的,而且性能足夠支撐的。所以在研究了十幾年之後,這個是停了的。但是這兩年又變的很火。我們唯一的主思想就是儘可能減少數據前移。第二,計算的這個動作或者計算的這個處理離我的存儲位置越近越好,越近的話搬遷的距離就越短。所以我們看到一個典型的處理計算的融合的體系結構旁邊都有對應的處理器,那麼在存儲的旁邊就能夠完成對應的處理,這樣的話我的數據前移動作就會變的更小。當然,數據前移減少的極致是什麼呢?是處理和存儲在同一個單元裡面,基本上沒有數據前移的動作了。所以現在我們看到在存儲智能化發展上其實就是兩條路線,一條路線就是計算和存儲的器件本身還是分離的,只是我們的存儲單元的旁邊它有一個新的處理單元。還有一個就是主體和計算是一體化的,我們稱之為CIM,就是在器件上採用堆疊結構,在下層是計算單元,還有上層是memory,把它封裝在一起。
在計算和存儲部件分離的時候也有兩個,一個是在memory上面進行處理,一個是在style上做處理。計算和存儲完全一體化的方案,這個肯定是大家的終極目標。也就是說數據前移基本上降為零。2018年的時候中國一個大學和美國一家公司分別做了兩個方案。一個是在MRAM內部,把MRAM做到神經網絡加速器的內部去,這兩個封裝在一起,MRAM裡面用來存儲一些網絡的參數,然後在他的內部SRAM裡面主要存放一些待處理的數據,來使整個功耗可以降低到最低。右邊這個是一個憶阻器,在我們看來它可能是一個更好的將來做存算融合的器件,因為憶阻器本身的特性它就是靠電阻值的變化,它是有記憶功能在裡面的,所以它很適合做一些矩陣的運算。我們看到這個DEMO裡面,實際上做了圖處理的加速。那麼憶阻器主要是用來做稀疏矩陣,並且採用了高並行的方式來進行運算。所以整體來看,從未來的體系結構,如果我們要想滿足大數據環境和OI、5G、IoT等等環境裡面對存儲所提出的這些挑戰,存儲智能化發展是必行之路。
總結一下,要想滿足存儲容量大的時候,只能採用光電混合的存儲架構,而要想滿足實時性只能用各種非存儲器來構建新型的存儲體系結構。要想數據存儲處理更加智能化,那我們就只能從器件、設備到系統,多層次來構建這樣的一些智能存儲系統,來減少數據的前移。謝謝各位!
第三十屆CIO班招生 法國布雷斯特商學院碩士班招生 北達軟EXIN網絡空間與IT安全基礎認證培訓 北達軟EXIN DevOps Professional認證培訓責編:baiyl