為什麼AI晶片需要突破馮諾依曼架構?

2020-12-05 網際網路大視覺

背景

新類型的設備將導致數據爆炸,其中大部分還不存在。 數據是有價值的,因為人工智慧(ai)可以挖掘它的商業價值。 為了實現人工智慧,我們必須啟用新的計算模型。

關鍵信息

有兩個關鍵信息。首先,人工智慧工作量(即機器學習、深度學習)需要一種處理數據的新方法——我們稱之為新計算架構(即計算模型)。「計算架構」的含義以及人工智慧工作負載需要哪些類型的更改將在稍後詳細說明。其次,人工智慧計算架構需要材料工程的突破..我將討論一些我們遇到的突破類型的例子。在應用材料領域,我們很興奮地期待人工智慧將為材料工程帶來巨大的增長機會。

在這篇文章中,我的目標是總結計算架構需求AI工作量是這個行業的都已經熟悉了幾十年的傳統計算架構(如x86或ARM)的不同。我們將討論為什麼傳統的馮·諾伊曼計算架構人工智慧是不夠的。而從實證分析中,我們做了說明一種新的計算架構,如果我們不能夠人工智慧將無法實現。

人工智慧的工作量有什麼獨特之處?

有三個主要的區別,它們是相互關聯的。

首先,AI需要大量的內存,因為最流行的AI工作量操作了大量的數據,但內存也需要不同的組織。在流行的CPU中使用的傳統的多層緩存架構對於AI來說是不必要的,需要更直接和更快的內存訪問。對於通過將數據存儲在緩存中而重用數據的關注較少。

在人工智慧系統中輸入大量的數據是非常重要的。到谷歌翻譯翻譯服務,例如:2010年,谷歌聘請語言學家和專家實行從英語翻譯到中國的算法,最後的70%,其翻譯的準確率。這是好事,但不是很好。近日,谷歌已經採取了不同的方法:他們聘請了大量的數據科學家,數據科學家將在英國和中國的網站翻譯輸入每個可用以相對簡單的深度學習算法。這讓他們更好的結果,準確率高達98%!正如你所看到的,這裡的重點是使用一個簡單的算法使用更多的數據,這是由大量的驅動AI參數數據的支持。

其次,人工智慧涉及大量的並行計算。並行計算意味著您可以並行地處理工作負載的不同部分,而不必擔心相互依賴性。以圖像處理為例,對圖像的不同部分進行並行處理,最後對圖像進行拼接。因此,對於人工智慧來說,在所有傳統CPU中提供的複雜管道是不必要的。

第三,人工智慧需要很多低精度的計算,無論是浮點數還是整數。 這就是神經網絡的力量,它是機器學習或深度學習的核心。 傳統的 cpu 有64位的精度,在某些情況下可以達到512位。 大多數情況下,艾爾不需要這些。

因此,在這裡,我們有三個基本和重要的計算體系結構變化,AI工作負載需要。這就把我們帶到了同構和異構計算體系結構的話題..

同構計算與異構計算

在PC和移動時代,大多數應用程式(或工作負載)看在處理要求方面非常相似(即計算架構)。最初,所有的工作負載是由CPU處理,當我們開始用更多的圖片,視頻和遊戲,我們開始使用GPU。

在未來,我們的工作負載看起來會越來越不同,每個都有自己的計算需求。我們需要的是不同的體系結構,每個體系結構都針對特定類型的工作負載進行了優化。這就是我們所說的「硬體復興」,因為它推動了各種新工作負載的架構創新。

行業從同構計算轉向異構計算計算還有另外一個原因。 這與功率密度有關,它限制了傳統 cpu 的性能。 我們正處於使用現代多核 cpu 架構來提高性能的困難時期。 人工智慧工作負載最基本的要求是更高的功率效率(即每次操作消耗的功率)。 隨著 dennard 擴展的結束,實現這一點的唯一方法是構建一個特定於域或特定於工作負載的體系結構,從根本上提高計算效率。

實證分析:與數據生成相關的DRAM和NAND發貨..

為了理解數據的生成和計算需求之間的關係,我們將全年DRAM和NAND的出貨量和比較產生的年度數據。經驗表明,關係,DRAM和NAND出貨成長率比生成的數據的增長速度。在我們的分析中引入了數學關係是代表底層計算架構。

考慮到1%智能車使用率下數據生成量增加的影響,我們利用經驗關係做了一個思維實驗。假設每輛智能車每天產生約4tb的數據,我們發現到2020年,與之前的智能車水平相比,智能車產生的數據總量增加了5倍。

根據這一分析,使用傳統的計算模式,我們需要處理利用智能汽車的1%的25倍(2020年)的DRAM和NAND容量八倍容量。應用材料行業,我們絕對要做到這一點,但我們不認為這會發生。相比之下,該行業將需要根據新的材料和新的3D設計技術,以及新的計算架構的內存。

總之,傳統的vonneumann計算體系結構在處理人工智慧所需的大量數據時是不經濟的,甚至是不可行的。我們需要一個新的計算架構。

相關焦點

  • 號稱捨棄馮諾依曼架構,突破內存牆瓶頸的AI晶片,面世了
    顯然,目前常見的解決AI晶片內存牆的方法都還未成功解決這一問題,其中很重要的原因在於,絕大部分的AI晶片,可以認為其為基於類CPU架構,專注於計算整合,通過提升並行度的方法進行龐大計算力的結構調整,對存儲資源的使用和調度,依然依賴於編譯器或傳統的緩存管理算法,無法解決內存牆問題。SFA架構如何突破內存牆瓶頸?
  • 馮諾依曼架構和哈佛架構
    1、馮諾依曼架構,也叫普林斯頓架構,其特點是程序空間和數據空間是一體的,數據和程序採用同一數據總線和地址總線。指令和數據地址指向同一個存儲器的不同物理位置,指令和數據的寬度相同。由於馮諾依曼架構的指令和數據儲存在同一存儲器,而且由同一總線進行讀寫,因而指令和數不能同時進行操作,只能順序執行。也是這個原因限制了計算機的性能和數據處理速度。馮諾依曼架構採用馮諾依曼架構的優點是硬體簡單,最典型的應用便是intel的x86微處理器。
  • 打破馮諾依曼架構限制 國內研發存算一體AI晶片
    大家都知道我們現在的電腦——不論是PC還是超算,都是處理器、存儲晶片分離的,這就是馮諾依曼50多年前確立的計算架構。隨著技術的發展,存儲計算分離的架構瓶頸越來越多,日前國內研發出了存算一體的AI晶片,號稱自主智慧財產權,國內首創、國際領先。
  • 之江實驗室啟動新型架構晶片項目,欲突破馮諾依曼內存牆難題
    集微網消息(文/小北)10月8日,之江實驗室正式啟動「新型架構晶片」項目,該項目旨在利用體系架構和關鍵器件的突破,解決經典馮諾依曼體系架構的「內存牆」等問題,實現人工智慧算力和能效的提升。目前,27位來自中國科學院和浙江大學的科學家匯聚之江實驗室,計劃通過兩年左右的時間,突破存算一體化晶片和類腦計算晶片的核心技術。下一步,研究團隊還將對類腦計算系統的體系架構、核心軟體等進行研究和開發。2017年9月6日,之江實驗室在中國(杭州)人工智慧小鎮正式成立,該實驗室由浙江省政府、浙江大學、阿里巴巴集團共同出資打造,以網絡信息、人工智慧為研究方向。
  • 張亞勤:深度學習更近一步,如何突破香農、馮諾依曼和摩爾瓶頸?
    隨著數據的海量爆發,如何突破目前的算力,成為了一代又一代科學家攻克的關鍵,香農定律、馮諾依曼架構和摩爾定律奠定了傳統計算與通訊範式,如何突破已經接近極限的三種理論?張亞勤表示,需要通過對信息的重新定義,制定新的計算範式、計算體系和通訊架構,而他們又給產業帶來了新的機會。為此,中國需要抓住機會,引領數位化的 3.0 時代和第四次工業革命浪潮。
  • 馮諾依曼架構,現代電腦的開端,團隊的愛恨情仇
    模擬爆炸的數學模型涵蓋許多複雜的方程序,比計算彈道還耗費時間,更需要藉助於計算機。馮諾依曼很清楚機電式計算機的局限,一直在注意是否有新的技術突破。因此 1940 年 9 月斯蒂比茲在達特茅斯學院展示複數計算機的功能時,他也在現場;1944 年初 IBM 打造的哈佛一號啟用後,他又立即奔赴哈佛大學試用。ENIAC 果然快!但設定程序要半天以上是怎麼一回事?
  • 「芯觀點」後摩爾時代的AI革命:算力需求激增,催生晶片創新
    後摩爾時代的AI革命顯然需要新的顛覆——從計算架構開始,做算法、硬體和軟體的共同優化變得尤為關鍵。對算力需求的激增,也進一步催生AI專用晶片和專用設備的蓬勃發展,並促使晶片層面的多種創新。張童皓也觀察到了晶片技術和機器學習之前的相互影響。
  • 張亞勤:新範式、新架構和新模態突破傳統算力,推動物理世界走向...
    隨著數據的海量爆發,如何突破目前的算力,成為了一代又一代科學家攻克的關鍵,香農定律、馮諾依曼架構和摩爾定律奠定了傳統計算與通訊範式,如何突破已經接近極限的三種理論?張亞勤表示,需要通過對信息的重新定義,制定新的計算範式、計算體系和通訊架構,而他們又給產業帶來了新的機會。為此,中國需要抓住機會,引領數位化的3.0時代和第四次工業革命浪潮。
  • 淺析後摩爾時代的AI革命
    後摩爾時代的AI革命顯然需要新的顛覆——從計算架構開始,做算法、硬體和軟體的共同優化變得尤為關鍵。 對算力需求的激增,也進一步催生AI專用晶片和專用設備的蓬勃發展,並促使晶片層面的多種創新。 張童皓也觀察到了晶片技術和機器學習之前的相互影響。
  • 深度解讀達文西架構:華為AI晶片的「秘密武器」
    2019年6月,華為發布全新8系列手機SoC晶片麒麟810,首次採用華為自研達文西架構NPU,實現業界領先端側AI算力,在業界公認的蘇黎世聯邦理工學院推出的AI Benchmark榜單中,搭載麒麟810的手機霸榜TOP3,堪稱華為AI晶片的「秘密武器」,這其中華為自研的達文西架構舉足輕重。
  • 清華大學研發類腦計算機 首提新概念突破圖靈與馮諾依曼體系
    近年來,類腦計算研究受到了越來越多的關注.類腦計算,是借鑑生物神經系統信息處理模式和結構的計算理論、體系結構、晶片設計以及應用模型與算法的總稱.類腦計算處於起步階段,國際上尚未形成公認的技術標準與方案.
  • 首提新概念,突破圖靈與馮諾依曼體系!清華研發類腦計算機
    類腦計算,是借鑑生物神經系統信息處理模式和結構的計算理論、體系結構、晶片設計以及應用模型與算法的總稱。類腦計算處於起步階段,國際上尚未形成公認的技術標準與方案。與通用計算機的「圖靈完備性」概念與「馮諾依曼」體系結構相對應,本次研究首次提出「類腦計算完備性」以及軟硬體去耦合的類腦計算系統層次結構,通過理論論證與原型實驗證明該類系統的硬體完備性與編譯可行性,並擴展了類腦計算系統應用範圍使之能支持通用計算。
  • 清華高濱:基於憶阻器的存算一體單晶片算力可能高達1POPs | CCF-G...
    晶片算力的提升與需求增長之間有一個很尖銳的矛盾。」這個尖銳的矛盾主要有兩個原因:摩爾定律放緩以及馮諾依曼架構帶來的存算分離局限。這讓晶片面臨著算力和能效兩大挑戰。要解決矛盾和挑戰,需要三大基石都革新的存算一體計算機。高濱表示:「器件層面,憶阻器可以把馮諾伊曼架構裡的處理、內存、外存都融合在一起,構建存算一體陣列,這也是存算一體最基本的要素。
  • 從帝國理工走出的中國AI晶片新秀,造出全球首款量產數據流AI芯
    同時,基於CAISA晶片的星空X3加速卡已在智慧城市、智慧製造、安監生產、軌道交通、智能遙感等領域均有落地。那麼鯤雲科技是如何突破傳統晶片架構對晶片利用率的約束呢?又如何做到幫用戶省錢呢?這源自鯤雲選擇了一條截然不同的路線。
  • 中科院計算所陳雲霽:深度學習晶片剩下的只是工程問題,我們要起航...
    此外談到類腦是否是馮諾依曼架構這個問題時,陳雲霽表示,我們應當去閱讀馮諾依曼在1945年寫的那個報告原文,在原文中馮諾依曼曾花費十幾章來論證一個問題,即整個馮諾依曼機可以用神經元來搭建。因此未來的類腦晶片是否是馮諾依曼架構,需要就事而論。
  • 清華用憶阻器制人工神經網絡晶片,能效比GPU高兩個數量級
    這種來回「搬運」數據的活動耗費能源和時間,被認為是馮諾依曼計算架構的核心瓶頸。而人類的大腦卻並非如此,而是直接在記憶體裡計算。被認為具有「存算一體」潛力的憶阻器,因而成為類腦計算領域的熱門器件。近日,清華大學微電子所、未來晶片技術高精尖創新中心錢鶴、吳華強團隊與合作者在頂尖學術期刊、英國《自然》雜誌(Nature)在線發表論文,報導了基於憶阻器陣列晶片卷積網絡的完整硬體實現。
  • 晶片革命:二維材料顛覆傳統計算架構
    目前的計算架構是將計算單元和存儲單元物理分離的馮諾依曼型架構,用戶只能將這種單一的計算架構同時用於解決感知型計算和推理型計算中。然而,感知型計算和推理型計算的對計算架構的不同要求給馮諾依曼構型提出了嚴峻的挑戰。一方面,計算單元和存儲單元之間的數據傳輸速率受到架構的限制,使得在處理感知型任務時數據遷移的能量和時間消耗甚至比計算本身的還要大。
  • 普渡大學打造計算與存儲一體化晶片,或推動類腦計算的發展
    近日,普渡大學的研究團隊從材料的角度出發,實現了晶片在計算的同時也能夠存儲。研究人員稱,該晶片如若能在未來進一步改進,或將有利於類腦計算的發展。當前,馮諾依曼架構是計算機以及處理器晶片的主流架構,在這一架構中,計算/處理和內存是兩個完全區分的單元,計算/處理單元根據指令從內存中讀取數據,在計算
  • 衝破摩爾定律,類腦晶片怎樣使機器超越人腦
    計算機每次進行運算時需要在CPU和內存這兩個區域往復調用,因而在雙方之間產生數據流量。而隨著深度學習算法的出現,對晶片計算力的要求不斷提高,馮·諾伊曼瓶頸遇見明顯:當CPU需要在巨大的資料上執行一些簡單指令時,資料流量將嚴重降低整體效率,CPU將會在資料輸入或輸出時閒置。不僅如此,傳統晶片還存在一個大問題就是效率低。
  • 年中盤點|2020最炙手可熱的10家AI晶片初創公司
    4、GroqCEO:Jonathan RossGroq表示,它的Tensor Streaming Processor(TSP)處理器可提供「無與倫比的敏捷性」,避免了傳統GPU需要在最高響應速度和最高性能之間折衷的問題。