突破「馮諾依曼瓶頸」,一段存儲與人工智慧凝成的自由故事

2020-12-05 EDA365網

計算,最好在內存中完成

當今社會處於一個信息爆炸的大數據時代,對超高速、高帶寬、大容量、高密度、低功耗和低成本的超高性能計算需求呈爆發式增長,而人工智慧的出現更加速了這種趨勢,因為它需要大量的數據進行訓練。

以智能攝像頭為例,隨著攝像頭的解析度從1080P轉向4K,其一天所採集到的數據量將達到200GB。面臨同樣問題的還包括智能醫院、自動駕駛和智能工廠,它們一天所產生的數據將分別超過3TB、4TB和1PB。2020年,一位普通的網際網路用戶平均每天產生的數據量大概是1.5GB,這樣的數據產生速度遠遠超出了我們的想像。

美光科技(Micron)執行長Sanjay Mehrotra曾指出,人工智慧伺服器所需的固態存儲器和DRAM的數量是標準伺服器的兩倍。由於我們仍處於AI發展的早期階段,還面臨著眾多挑戰,但從長遠來看,AI對NAND和DRAM的需求應該會急速飆升。

面對滾滾而來的數據洪流,要使通過AIoT設備傳輸的大量數據變得有用,無論是採用本地處理、實時處理還是雲端處理,高效靈活的計算平臺、高性能存儲和複雜但易於使用的機器學習堆棧,都是大數據/人工智慧取得突破性成果的關鍵,三個元素缺一不可。正如Sanjay Mehrotra所說,「昨天的計算體系結構不適用於明天。從長遠來看,我們認為計算最好在內存中完成。」

圖1:計算最好在內存中完成

討厭的「存儲牆」

但在傳統計算設備廣泛採用的馮·諾依曼架構中,計算和存儲功能不但是分離的,而且更側重於計算。數據在處理器和存儲器之間不停的來回傳輸,消耗了約80%的時間和功耗。學術界為此想出了很多方法試圖改變這種狀況,例如通過光互連、2.5D/3D堆疊實現高帶寬數據通信,或者通過增加緩存級數、高密度片上存儲這樣的近數據存儲,來緩解訪存延遲和高功耗。但試想一下,人類大腦有計算和存儲的區別嗎?我們是用左半球來計算,右半球做存儲的嗎?顯然不是,人腦本身的計算和存儲都發生在同一個地方,不需要數據遷移。

圖2:傳統的馮·諾依曼計算架構

除了體系架構自身的限制外,處理器和存儲器二者之間長期以來所採用的不同工藝路線,也是造成計算和存儲分離,繼而產生「存儲牆」和「功耗牆」問題的重要原因之一。用戶對處理器的高性能需求是無止境的,這使得半導體廠商不斷通過提高電晶體內部的開關速度、使用更多的金屬布線層和先進封裝技術等手段來提升性能;但對於存儲器來說,消費者和廠商更在意的是如何在更小的存儲單元面積上獲得更多的電晶體數量,用以增加存儲密度,擴大存儲容量。從圖3可以看出,1980-2000年,處理器和存儲器兩者的速度失配以每年50%的速率在增加。

圖3:1980-2000年,處理器和存儲器兩者的速度失配以每年50%的速率增加

與此同時,數據遷移需要的功耗在整個計算中的佔比也在「水漲船高」。有研究顯示,7nm工藝時代,訪存功耗達到25pJ/bit(45.5%),通信功耗達到10pJ/bit(18.2%),數據傳輸和訪問功耗佔比達到了63.7%。

因此,學術界和產業界都希望儘快找到一種與人腦結構類似的創新架構的想法就不足為奇了,比如通過對DRAM的邏輯層和存儲層進行堆疊,實現近數據存儲計算(Near Memory Compute),或者是最好能夠將存儲和計算有機地結合在一起(存儲器顆粒本身的算法嵌入),直接利用存儲單元進行計算,最大程度的消除數據遷移所帶來的功耗開銷。

人工智慧,「存內計算」的助推劑

在這一背景下,更聚焦存儲的新型「存內計算」架構誕生了。從目前趨勢來看,真正對「存內計算」架構起到決定性推動作用的,將是人工智慧/物聯網相關應用的加速落地。

之所以做出這樣的判斷,原因有二。其一,物聯網中包含大量智能終端,其計算過程往往涉及淺層人工智慧算法數據的預處理。存內計算由於硬體復用問題,在深層算法的加速方面應該不佔優勢,但在淺層算法的實現過程中,簡化的存算結構更易於硬體實現。其二,存內計算方案由於無需頻繁搬用數據,能耗將顯著降低,更符合物聯網對硬體低功耗的要求。

眾所周知,算法(Algorithm)、數據(Big data)和計算能力(Computing)並稱為新AI時代三大驅動力,如何在追求更好性能的同時實現低功耗、低延遲和低成本,逐漸成為擺在所有AI從業者面前的艱巨挑戰之一

在實際應用中,我們發現儘管很多AI硬體平臺都展示了自身所具備的強大算力,然而當用戶在真正運行一個應用時,卻常常發現由於存儲帶寬和存儲架構的限制,很難將所有的AI運算單元填滿,從而導致硬體的計算效率低下。以谷歌第一代TPU為例,其平均硬體乘法陣列使用率只有28%,這意味著72%的硬體在大部分時間內是沒有任何事情可做的。

而在設計AI平臺的時候,大量運算引擎所帶來的能量消耗也是不可忽視的。圖4表明,如果將完成16位整數加法能量消耗定義為1,那麼將32比特的數據從DDR內存傳輸到晶片中,就將花費1萬倍的能量消耗。因此,過大的訪問帶寬將會直接導致AI晶片功耗高居不下。

圖4:AI硬體的計算效率與功耗由訪存帶寬所主導(圖片來源:深鑑科技)

另一方面,5G、物聯網與工業4.0的發展讓信息量呈現爆炸式增長,但把所有數據都放到雲端去進行處理和傳輸、存儲和分析是不適合的。比如在工業自動化領域,數據存儲距離一定要近才有效率;5G行動裝置製造商如果不強化終端側人工智慧並進行計算-存儲架構更改,將會遭遇嚴重的電池壽命問題。

摩爾定律目前面臨的挑戰是擴張速度的急速放緩,無法再提供功率、性能和面積成本(PPAC)的同步提升。因此,相關測算表明,如果能夠在內存中實現存內計算,終端設備的功耗將可以降低約20倍,速度提高約50倍,從而大幅提高計算的功耗和性能,特別適用於智能語音識別、降噪、聲紋、人臉、手勢、文字識別等應用。

「萬丈高樓平地起」

這是一句中國的老話。意思是再激動人心的遠方,也要依賴于堅實的基礎和天才的創新。對於存內計算來說,拋開基礎存儲器件去談無異於「紙上談兵」,對於這一點,存儲巨頭們有著清醒的認識。

根據存儲器件的存儲易失性分類,當前存內計算的實現主要聚焦在兩類存儲器上:1.基於易失性的SRAM或DRAM構建;2.基於非易失性的相變存儲器PCRAM、阻變存儲器/憶阻器ReRAM、磁性隨機存取存儲器MRAM和浮柵器件/Flash構建。

圖5:各類不同存儲器件的性能對比(圖片來源:美光科技)

基於易失性存儲器

基於SRAM的存內計算晶片目前可支持無進位乘法運算的計算型cache,相關廠商在2018年還發布了面向深度學習算法的神經Cache,並在邏輯操作基礎上實現了加法、乘法和減法操作;2017年,業界基於成熟DRAM存儲器件實現了卷積神經網絡的計算功能,實驗數據表明,針對整數運算,與GPU相比,新架構可以獲得7.7倍的性能提升和15倍的能效提升。

基於非易失性存儲器

非易失性存儲器在最近十幾年得到了飛速的發展,以美光為例,其代表性產品包括在2010年發布的45nm 1Gb PCM、2015年推出的27nm 16Gb conductive bridge(CBRAM,一種特殊的ReRAM)和128Gb 3D XPoint技術。基於該技術的最新產品則是美光推出的首款面向數據中心的存儲和內存密集型應用的解決方案X100 SSD,它實現了每秒讀寫操作次數(IOP)250萬次,在讀、寫和讀寫混合模式下帶寬超過9GB/s的性能。

根據Objective Analysis和Coughlin Associates發表的最新年度報告《Emerging Memories Ramp Up》顯示,預計到2029年,新興內存市場可望創造200億美元的合併收入。其中,PCRAM由於價格低於DRAM,可望在2029年前成長至160億美元的市場規模。同時,獨立型MRAM和STT-MRAM(自旋矩磁存儲器)的收入將接近40億美元,或超過2018年MRAM收入的170倍。

基於浮柵器件/Flash

基於NOR Flash構建存內計算晶片也是當前比較主流的做法之一。通過把乘數直接存入存儲單元內,再把數值輸入到快閃記憶體陣列之中,並對每個單元都進行乘法,最後通過一條路徑求和,就可以達到存內計算的效果。從相關廠商公布的數據來看,基於NOR Flash構建的存內計算晶片最高峰值運算效率能夠達到40TOPS/W,平均值為10TOPS/W。

總體來說,基於SRAM架構是能夠實現存內計算設計的,但其模擬特性、集成能力可能不太符合物聯網終端的需求趨勢。而非易失性存儲器件,如NOR Flash、ReRAM、PCRAM等既能夠提供更多工具來增強近存儲器計算,也是被存儲業界普遍看好的下一階段存內計算的建構模組,具有較強商業化潛力,是存內計算方案核心競爭力的體現。

從「新型介質」到「神經形態計算」

然而比起新型存儲介質對存內計算未來的影響,存儲本身與計算之間的融合,是更值得關注的趨勢。

美光新興存儲副總裁Bob Brennan針對內存與計算架構的發展,曾提出過「三個階段」的看法:第一個階段是讓內存非常靠近邏輯計算,用大量的高帶寬數據總線把內存和計算處理器更緊密連在一起;第二個階段是在內存中進行計算處理。這個概念始於1994年,儘管實現量產在技術上存在不小的難度,軟體和邏輯也是分開的兩部分,但這樣沒有傳輸、延遲等問題,並且大幅提升效能;第三個階段則是神經形態(neuromorphic)計算,使用內存架構本身做計算。

Brennan的發言引發了行業的共鳴和廣泛的討論。畢竟作為全球主流的三家DRAM提供商之一,美光在2019財年交付了600萬片晶圓(包括DRAM/3D XPoint/NAND/NOR),提供了30億個解決方案,涵蓋了從晶片(Silicon)到解決方案(Solution),再到「系統與軟體(Systems & Software)」的完整體系,一言一行都備受關注。

但坦率的說,無論基於哪種存儲技術,在面對存內計算時,其實都存在一定的挑戰。如果基於易失性存儲,由於目前處理器與存儲器的製造工藝不同,若要在處理器上實現存儲器的功能,可能會降低存儲器的存儲密度。反之,要在存儲器上實現處理器的功能,可能會影響處理器的運行速度,很難在性能和容量上實現平衡。如果基於非易失性存儲,由於目前廠商和工藝均未成熟,客觀上除了需要追加更多投資之外,現有的DRAM或Flash工藝也很難平移到新技術上。

不過,在存儲器件中進行神經網絡訓練和終端推理,也就是Brennan提出的「神經形態計算」,逐漸成為近年來人們最感興趣的應用。圖6是IBM蘇黎世研究中心科學家在2018年基於相變存儲器進行存內計算的神經網絡訓練算法(上),以及訓練多層感知機識別手寫數字的仿真結果(下)。由於存內計算可以通過消除在內存和處理器之間來回移動權重數據的需要,大大加速了訓練速度,而且得到的精度比用傳統計算機得到的精度只低了不到百分之一。最重要的是,由於相變存儲器件的非易失性,訓練後的權值可以在計算存儲器中保留數月甚至數年而不需要任何電源。以這種方式訓練的晶片可以用於傳感器設備內的推理任務,其功率不到傳統計算機的1%。

圖6:在存內計算中進行神經網絡訓練

存內計算對加速終端推理也大有裨益。如前文所述,終端推理過程計算複雜度低,涉及的任務較為固定,對硬體加速功能的通用性要求不高,無需頻繁變動架構,更適合存內計算的實現。2017年之前,人工智慧無論是訓練還是推理基本都在雲端完成,但到了2023年,在邊緣側設備/晶片上進行AI推理將佔據該市場一半以上的份額,總額高達200-300億美元,這對IC廠商來說是一個非常龐大的市場。

美光在該領域一個很大的進展是2019年對初創公司FWDNXT的收購,一舉將計算、內存、工具和軟體集成到了AI綜合性開發平臺中。在FWDNXT人工智慧推理引擎的支持下,美光深度學習加速器(DLA)技術具備面向矩陣向量乘法的大量乘法/累加單元,並且具有執行某些關鍵非線性傳遞函數的能力。易於使用的編程軟體平臺和接口,支持廣泛的機器學習框架和神經網絡,能夠使內存和計算能夠更緊密地融合,有助於實現更高的性能和更低的功耗。

反過來,FWDNXT的第五代機器學習推理引擎和神經網絡算法,通過與美光專業的內存知識相結合,將使美光能夠具備探索數據分析所需的深度學習AI解決方案的能力,並藉此製造出基於AI的存儲晶片,或者包括AI的存儲晶片,尤其是在物聯網和邊緣計算領域。

如果我們還能想到美光在2015年收購了FPGA初創公司Pico Computing,並一直在努力尋找可重編程設備合適的應用,以及將哪些數據放到內存中能夠獲得更高的性能的話,那麼,很明顯,美光正在學習在內存和存儲中需要做些什麼,以使其適合未來的神經網絡中的各種難題,尤其是在邊緣側,而不是僅僅製造一堆晶片並希望它們起作用。

相關焦點

  • 張亞勤:深度學習更近一步,如何突破香農、馮諾依曼和摩爾瓶頸?
    隨著數據的海量爆發,如何突破目前的算力,成為了一代又一代科學家攻克的關鍵,香農定律、馮諾依曼架構和摩爾定律奠定了傳統計算與通訊範式,如何突破已經接近極限的三種理論?張亞勤表示,需要通過對信息的重新定義,制定新的計算範式、計算體系和通訊架構,而他們又給產業帶來了新的機會。為此,中國需要抓住機會,引領數位化的 3.0 時代和第四次工業革命浪潮。
  • 號稱捨棄馮諾依曼架構,突破內存牆瓶頸的AI晶片,面世了
    與數據和存儲相關的帶寬瓶頸、功耗瓶頸問題,被稱為存儲牆問題。深度學習算法的「三高」特點內存牆問題的4種常見解決方法上面提到的晶片都基於傳統馮·諾伊曼體系結構,這個體系結構是數據從處理單元外的存儲器提取,處理完之後在寫回存儲器。
  • 第二篇:簡述計算機的發展史以及馮諾依曼體系結構
    人工智慧是計算機科學的一個分支,人工智慧技術的應用必須依賴於計算機,可以說計算機就是人工智慧的載體。本教材以故事的形式,結合生活中的實例循序漸進地介紹人工智慧與機器人、力和運動、計算機應用、數學和編程思維、電子控制等內容。
  • 金屬晶片存儲效率提高百倍,碳基晶片同樣高效突破製備瓶頸!
    突破摩爾定律矽基晶片極限,新材料晶片誰與爭鋒,美國的鎢化合物金屬晶片,還是我國碳基晶片。美國科學家研究的金屬晶片厚度僅三個原子,新金屬晶片能提高存儲速度百倍。我們的數據存儲方式,早已從磁帶、軟盤和CD等介質,進化到了能夠在無數微型電晶體中保存數據的精密半導體晶片,而且其容量可以呈指數級增長。這是一個壯舉。
  • ...計算成果再登Nature:張悠慧施路平團隊出品,有望打破馮諾依曼瓶頸
    新研究的關鍵詞是:類腦計算、新計算機系統框架、通用人工智慧(AGI)。它的重要性,在於有希望打破如今馮·諾依曼型計算機,對人工智慧的普遍限制,完全發揮類腦算法的潛力,使AGI更具可行性。研究了些什麼?這並不是清華大學類腦計算中心的相關研究成果,第一次登上Nature。
  • 打破馮諾依曼架構限制 國內研發存算一體AI晶片
    大家都知道我們現在的電腦——不論是PC還是超算,都是處理器、存儲晶片分離的,這就是馮諾依曼50多年前確立的計算架構。隨著技術的發展,存儲計算分離的架構瓶頸越來越多,日前國內研發出了存算一體的AI晶片,號稱自主智慧財產權,國內首創、國際領先。
  • 圖靈獎得主姚期智:人工智慧算法還需突破兩個瓶頸
    人工智慧在最近幾年得到了迅猛的發展,最重要的幾個領域是:人臉識別、自動駕駛、語音識別,以及語義理解。在應用方面,安防、交通、醫療、教育、智能製造等都有了實際的應用落地。人工智慧從提出到現在發展了大半個世紀,看起來,現在已經欣欣向榮,但是,作為一項可能與人類大腦PK的技術,還遠遠談不上成熟,甚至還存在一些仍需努力突破的地方。
  • 馮諾依曼與計算機
    計算機之所以有如此快速的發展,與馮諾依曼關於計算機發展的設計思想分不開的。馮諾依曼關於計算機的設計思想有三個主要方面:分為別是二進位;存儲程序和程序控制;計算機硬體的五大組成部分。1、二進位。原件上的選擇決定了運算數制的選擇——二進位,01代碼與開關狀態發生聯繫,從而誕生了計算機只認識「01」代碼的說法,計算機中數據信息的存儲單位字節(8個二進位位),由此可見二進位不管在硬體上和軟體上都其身影的存在。2、存儲程序和程序控制。
  • 張亞勤:新範式、新架構和新模態突破傳統算力,推動物理世界走向...
    隨著數據的海量爆發,如何突破目前的算力,成為了一代又一代科學家攻克的關鍵,香農定律、馮諾依曼架構和摩爾定律奠定了傳統計算與通訊範式,如何突破已經接近極限的三種理論?張亞勤表示,需要通過對信息的重新定義,制定新的計算範式、計算體系和通訊架構,而他們又給產業帶來了新的機會。為此,中國需要抓住機會,引領數位化的3.0時代和第四次工業革命浪潮。
  • 圖靈獎得主姚期智:人工智慧算法還需突破哪些瓶頸
    人臉識別、自動駕駛、語音識別、語義理解,人工智慧已經在醫療、教育、交通等領域有了很好的應用落地。看上去,如今的人工智慧已經取得了巨大突破。但回到技術本身,在姚期智看來,人工智慧仍有自己的發展限制和需要突破的地方。在上海舉辦的第三屆世界頂尖科學家「科學前沿與顛覆性技術」論壇上,圖靈獎得主、中國科學院院士姚期智就講到上述話題。人工智慧需要突破的第一個瓶頸是如何保證算法的穩健性。
  • 之江實驗室啟動新型架構晶片項目,欲突破馮諾依曼內存牆難題
    集微網消息(文/小北)10月8日,之江實驗室正式啟動「新型架構晶片」項目,該項目旨在利用體系架構和關鍵器件的突破,解決經典馮諾依曼體系架構的「內存牆」等問題,實現人工智慧算力和能效的提升。目前,27位來自中國科學院和浙江大學的科學家匯聚之江實驗室,計劃通過兩年左右的時間,突破存算一體化晶片和類腦計算晶片的核心技術。下一步,研究團隊還將對類腦計算系統的體系架構、核心軟體等進行研究和開發。2017年9月6日,之江實驗室在中國(杭州)人工智慧小鎮正式成立,該實驗室由浙江省政府、浙江大學、阿里巴巴集團共同出資打造,以網絡信息、人工智慧為研究方向。
  • 圖靈獎得主姚期智院士:人工智慧存在三大技術瓶頸
    今天下午舉行的2020浦江創新論壇全體大會上,圖靈獎獲得者、中國科學院院士姚期智做了題為《人工智慧面對的一些挑戰》的演講。在他看來,人工智慧有三大技術瓶頸亟待突破,需要科學家「從0到1」的原創研究。 作為現代密碼學的奠基人,姚期智創立的上海期智研究院今年初在滬成立。目前,這家新型研發機構已匯聚4位兩院院士、20多位科學家和多所高校的青年人才。
  • 未來的人工智慧不是圖靈機
    真正的人工智慧需要具備自主進化能力,才能做到普適性。自主進化需要有突發或者偶發,可以形成新信息概念。而突發或者偶發需要耗能,所以信息存儲部分需要實現均勻耗能,也就是分布式。我們的大腦就是如此。當前馮諾依曼結構計算機是無法實現這一點的。
  • 體積小、耗能低,新型磁存儲器件有望解決AI「內存瓶頸」
    體積小、耗能低,新型磁存儲器件有望解決AI「內存瓶頸」 劉海英/科技日報 2020-02-12 08:30
  • 圖靈獎得主、中國科學院院士姚期智:人工智慧存在三大技術瓶頸
    昨天舉行的2020浦江創新論壇全體大會上,圖靈獎獲得者、中國科學院院士姚期智做了《人工智慧面對的一些挑戰》主題演講。在他看來,人工智慧有三大技術瓶頸亟待突破,需要科學家「從0到1」的原創研究。研究院瞄準人工智慧、現代密碼學、高性能計算系統、量子計算及量子人工智慧、物理器件與計算、生物智能6個方向開展前沿研究。在姚期智看來,脆弱性是人工智慧面臨的第一大技術瓶頸。人眼識別十分穩定,一個圖像如有微小改變,人仍能一眼看出它是什麼,而人工智慧在圖像識別上卻是能力不足,比如將一隻小豬的照片加入一些圖像「雜音」,機器視覺系統可能會把它識別為飛機。
  • 馮諾依曼架構,現代電腦的開端,團隊的愛恨情仇
    馮諾依曼很清楚機電式計算機的局限,一直在注意是否有新的技術突破。因此 1940 年 9 月斯蒂比茲在達特茅斯學院展示複數計算機的功能時,他也在現場;1944 年初 IBM 打造的哈佛一號啟用後,他又立即奔赴哈佛大學試用。ENIAC 果然快!但設定程序要半天以上是怎麼一回事?
  • 為什麼AI晶片需要突破馮諾依曼架構?
    數據是有價值的,因為人工智慧(ai)可以挖掘它的商業價值。 為了實現人工智慧,我們必須啟用新的計算模型。關鍵信息有兩個關鍵信息。首先,人工智慧工作量(即機器學習、深度學習)需要一種處理數據的新方法——我們稱之為新計算架構(即計算模型)。「計算架構」的含義以及人工智慧工作負載需要哪些類型的更改將在稍後詳細說明。
  • 人工智慧的瓶頸需要數學解決 - 現代快報多媒體數字報刊平臺
    7月5日,出席中國江蘇·大院大所合作對接會時,國際知名數學家、美國科學院院士、哈佛大學終身教授丘成桐一天奉上兩場演講,談到了人工智慧和3D掃描等熱門話題。  「人工智慧的發展如火如荼,深刻地影響了社會生活的各個層面,其實是現代工業和數學裡面一個很重要的成就。」丘成桐回顧了人工智慧61年的發展史。