圍觀!號稱捨棄馮諾依曼架構,突破內存牆瓶頸的AI晶片,面世了

2021-01-11 雷鋒網

近幾年再次興起的AI熱潮,不僅引發了晶片巨頭們的AI晶片戰,更讓科技巨頭們紛紛開始了AI晶片的研發。在AI晶片的爭奪中,算力首先成為了焦點。不過,算力提升之後,算力與內存的不匹配又成為了阻礙AI向前發展的關鍵。此時,一家成立於2017年的初創公司提出的存儲優先架構(SFA)表示很好地解決了內存牆的問題,事實是否如此?

【 圖片來源:supernovainvest 】

AI晶片的真正問題是內存牆

算力、算法、數據被認為是AI向前發展的三個關鍵因素,更高的算力自然必不可少,這也直接驅動了AI晶片公司們推出更高算力的AI晶片。不過,目前對於AI晶片的定義並沒有一個嚴格和公認的標準,一個非常寬泛的看法是,面向人工智慧應用的晶片都可以稱為AI晶片。

需要指出,這一輪的AI熱潮很大程度是機器學習尤其是深度學習受到了追捧。由於目前常見的晶片類型CPU、GPU、FPGA、ASIC都可以運行深度學習算法,因此這些晶片都可以稱為AI晶片。

CPU、GPU、FPGA、ASIC的特點【 圖片來源:hackernoon 】

這就意味著,如今AI晶片重要的意義在於滿足機器學習的算法的需求。但即便是經驗豐富的Arm,認識到AI晶片關鍵的問題也走了一些彎路。Arm機器學習部門商業與市場副總裁Dennis Laudick此前接受雷鋒網採訪時就表示:「我們第一次看到機器學習時,首先想到的是從已有的處理器類型中的一種開始,因此我們開始用了GPU的方法,但最終發現機器學習處理器面臨的不是處理問題而是數據問題,最終取消了GPU的方法,創建了一個全新的處理器專注於數據以及機器學習中的數據類型,可以執行並行指令。」

說的更直白一些,深度學習算法具有高並發、高耦合的特點,不僅有大量的數據參與到整個算法運行的過程中,這些數據之間的耦合性也非常緊密,因此對存儲帶寬提出了非常高的要求,大規模的數據交換,尤其是晶片與外部DDR(Double Data Rate SDRAM,雙倍速率同步動態隨機存儲器,常簡稱為DDR)存儲之間的數據交換,這將大幅增加了功耗。

越來越多的AI晶片的IP提供方和AI晶片的設計公司都意識到,AI晶片的本質不是要解決計算問題,而是要解決數據問題。與數據和存儲相關的帶寬瓶頸、功耗瓶頸問題,被稱為存儲牆問題。

深度學習算法的「三高」特點

內存牆問題的4種常見解決方法

上面提到的晶片都基於傳統馮·諾伊曼體系結構,這個體系結構是數據從處理單元外的存儲器提取,處理完之後在寫回存儲器。因此,用馮諾依曼體系結構的處理器處理深度學習算法時,提供算力相對簡單易行,但當運算部件達到一定的能力,存儲器無法跟上運算部件消耗的數據,再增加運算部件也沒有用,這無疑阻礙了AI晶片的向前發展。

【 圖片來源:nextplatform 】

為了解決內存牆問題,業界目前有4種常見的解決方法。第一種是加大存儲帶寬,採用高帶寬的外部存儲,如HBM2,降低對DDR的訪問。這種方法雖然看似最簡單直接,但問題在於緩存的調度對深度學習的有效性就是一個難點。

第二種方法是直接在晶片裡放入大量存儲,採用分布式片上存儲,拋棄DDR,比如集成幾十兆字節到上百兆的SRAM。這種方法看上去也比較簡單直接,但成本高昂也是顯著的劣勢。

第三種方法則是從算法入手,通過設計一些低比特權重的神經網絡,比如二值網絡,簡化數據和需求和管理。顯然,這種方法是以算法精度、應用範疇為代價,難以被大範圍應用。

第四種方法是在存儲單元內部設計計算單元的新型存儲器,進行存算一體化(In Memory Computing),這也是目前業內一個比較受關注的方向,具備低成本和低功耗的特點。不過這種方法的可行性以及是否能最終被業界廣泛應用仍是未知,因此對於這種方法我們將繼續保持關注。

顯然,目前常見的解決AI晶片內存牆的方法都還未成功解決這一問題,其中很重要的原因在於,絕大部分的AI晶片,可以認為其為基於類CPU架構,專注於計算整合,通過提升並行度的方法進行龐大計算力的結構調整,對存儲資源的使用和調度,依然依賴於編譯器或傳統的緩存管理算法,無法解決內存牆問題。

SFA架構如何突破內存牆瓶頸?

想要真正解決內存牆問題,捨棄馮諾依曼架構無疑是更好的方式,但難度也可想而知。不過,成立於2017年的北京探境科技在成立之初就重新思考了存儲和計算的關係,以存儲驅動計算,設計了與類CPU架構完全不同的計算架構——存儲構SFA(Storage First Architecture)。

探境科技CEO魯勇

2017年業界對AI晶片的關注點更多是算力的提升,意識到要解決內存牆問題的公司還不多,為什麼探境科技能更早看到內存對AI晶片的重要性並研發出存儲優先架構?探境科技CEO魯勇接受雷鋒網專訪時表示:「主要有兩方面的原因,一方面是我們的晶片設計團隊成員平均擁有15年以上晶片行業設計經驗,有足夠的晶片設計能力,同時,團隊成員還有深挖問題核心本質的思路和能力。所以從能力上和做事的方法上都有這樣的條件,我們就堅定的去解決難題。」

探境科技SFA架構

不同於常見的解決內存瓶頸的方法,SFA是以存儲調度為核心的計算架構,數據在存儲之間的搬移過程之中就完成了計算,計算對於數據來說只是一種演變。

「更具體的說,SFA架構,存儲是我們優先的出發點,去考慮數據在搬移過程中做計算,也就是由數據帶動計算而非由算子帶動數據。與通常計算的先有計算指令然後提供數據相反,SFA架構是先有數據,然後再把算子交給它。」魯勇進一步解釋。

當然,完全捨棄馮諾依曼架構,實現全新的架構方式SFA架構面臨不少挑戰。魯勇表示這其中涉及很多硬體的核心點、數據管理、算子節點如何靈活的連接起來都是非常難的問題。不過,他也透露稱,SFA架構以圖計算為基礎,設計了非常精巧且有針對性的架構解決這些難題。這一點與AI大神Lecun所宣稱的所有的神經網絡都是圖計算問題不謀而合。

難題突破之後,SFA架構具備了哪些優勢?魯勇介紹,首先就是晶片的PPA取得了巨大的突破,實驗數據表明,比較類CPU架構採用的基於總線和指令集的映射方法,在同等條件下,數據訪問可降低10~100倍。28nm工藝條件下,系統能效比達到4T OPS/W,計算資源利用率超過80%,DDR帶寬佔用率降低5倍。

其次,SFA架構可以支持任意神經網絡。也就是說,SFA架構可以支持不同大小的網絡模型、不同的數據類型,包括定點型和浮點型,甚至一個神經網絡裡不同層使用不同的精度也可以支持。我們的AI晶片可以稱得上通用型AI晶片,只要在神經網絡深度學習框架下,GPU能支持的我們都能支持。

還有,SFA架構非常靈活,基於它既可以推出本地或雲端的推理晶片,也可以用於雲端訓練的晶片,終端的推理加訓練晶片也能用,完全取決於最終產品的定位。

除了內存方面的突破,在算力提升方面SFA架構也有相應的優化。SFA架構的AI晶片不僅可以滿足多精度計算,還能做到自適應的稀疏化處理,不需要在離線階段做剪枝或者壓縮處理。

據悉,探境的計算架構也採用了比較獨特的無MAC設計方式。

落地優勢如何?

既然SFA架構具有多個優勢,那麼在探境科技看好的安防監控、工業製造、自動駕駛和語音人機互動市場,落地優勢依舊明顯嗎?魯勇指出,這幾個領域看上去好像差別挺大,但對我們而言背後有一個貫穿一致的邏輯。也就是核心都是SFA架構,根據不同的市場應用,套上不同的框架,最終變成不同的產品形態。

他強調,不同市場的差別並沒有想像那麼大。算法層面,現在的語音和圖像算法已經開始融合,都是基於深度學習的卷積神經網絡(CNN),並不是原來想的那麼涇渭分明。晶片角度,核心都是SFA架構,根據產品的定義不同,外面的接口也相對不同,這並不困難。

去年5月探境宣布完成數千萬美元融資時,就已經制訂了三年的產品規劃,會以行業劃分的形式,有節奏的推出產品及整體解決方案。雷鋒網(公眾號:雷鋒網)了解到,目前探境已經推出了包括語音喚醒、命令詞識別、語音理解、通用型降噪的AI語音晶片。值得一提的是,這幾款晶片都可以在不聯網的情況下實現功能,這是算力和功耗優勢的一個體現。

至於為何率先推出AI語音晶片,魯勇認為物聯網時代,語音成為了一種新的交互方式,也是一個入門的交互方式,這個入口非常重要。

看好AI語音市場的不止探境科技,傳統的晶片公司杭州國芯、瑞芯微等,以及擅長語音算法的思必馳、出門問問等都推出了AI語音晶片。那麼,探境在市場上的競爭力如何?

魯勇表示,算法公司對晶片的理解程度非常有限,我認為AI時代的競爭力已經單純看PPA轉移到了軟硬結合的能力,只有非常深度的軟硬結合才能具備非常核心的競爭力。在實際的落地過程中,SFA架構對客戶非常友好。因為SFA架構不僅不需我們在工具鏈上不用投入過多的精力,在客戶實際使用的時,我們會提供一個非常好用的工具鏈,通過工具鏈的轉換,可以讓客戶的算法甚至不用重新訓練就可以部署。

而最讓魯勇感到驕傲的是探境AI語音晶片最終體現出的競爭力。他表示,AI晶片的競爭力的直接體現就是成本,探境的AI語音晶片的成本優勢還是基於SFA架構,在同樣的晶片面積下能提供更高的算力,也就是PPA顯著提升。在與客戶接觸之後,我們的晶片獲得了客戶的追捧。

雷鋒網小結

探境科技作為一家成立於2017年的初創公司,能夠在成立之初就看到AI晶片本質的問題是數據難題就領先了不少的AI晶片公司。並且,從探境公布的數據以及給出的信息來看SFA架構確實是突破內存牆的好方法,實現了許多AI晶片公司希望達成的AI通用晶片的願望,兼具低功耗、低成本的特點。

只是,魯勇並未透露探境量產的AI晶片具體的合作夥伴。另外,探境AI晶片的商用也處於相對早期的階段,能否最終大獲成功攪動AI晶片市場我們需要保持關注。相信具有真正獨特技術和有實際產品的公司會大概率取得成功。

不可否認的是,魯勇此前在晶片巨頭Marvell十年的工作經歷對於其能夠把握AI的發展趨勢以及聚集人才研發出獨特的AI晶片有不小的幫助。還需強調的是,在AI時代,只有軟硬更好的結合,才能最終體現出更大的競爭力。

相關焦點

  • 之江實驗室啟動新型架構晶片項目,欲突破馮諾依曼內存牆難題
    集微網消息(文/小北)10月8日,之江實驗室正式啟動「新型架構晶片」項目,該項目旨在利用體系架構和關鍵器件的突破,解決經典馮諾依曼體系架構的「內存牆」等問題,實現人工智慧算力和能效的提升。目前,27位來自中國科學院和浙江大學的科學家匯聚之江實驗室,計劃通過兩年左右的時間,突破存算一體化晶片和類腦計算晶片的核心技術。下一步,研究團隊還將對類腦計算系統的體系架構、核心軟體等進行研究和開發。2017年9月6日,之江實驗室在中國(杭州)人工智慧小鎮正式成立,該實驗室由浙江省政府、浙江大學、阿里巴巴集團共同出資打造,以網絡信息、人工智慧為研究方向。
  • 打破馮諾依曼架構限制 國內研發存算一體AI晶片
    大家都知道我們現在的電腦——不論是PC還是超算,都是處理器、存儲晶片分離的,這就是馮諾依曼50多年前確立的計算架構。隨著技術的發展,存儲計算分離的架構瓶頸越來越多,日前國內研發出了存算一體的AI晶片,號稱自主智慧財產權,國內首創、國際領先。
  • 為什麼AI晶片需要突破馮諾依曼架構?
    數據是有價值的,因為人工智慧(ai)可以挖掘它的商業價值。 為了實現人工智慧,我們必須啟用新的計算模型。關鍵信息有兩個關鍵信息。首先,人工智慧工作量(即機器學習、深度學習)需要一種處理數據的新方法——我們稱之為新計算架構(即計算模型)。「計算架構」的含義以及人工智慧工作負載需要哪些類型的更改將在稍後詳細說明。
  • 張亞勤:深度學習更近一步,如何突破香農、馮諾依曼和摩爾瓶頸?
    隨著數據的海量爆發,如何突破目前的算力,成為了一代又一代科學家攻克的關鍵,香農定律、馮諾依曼架構和摩爾定律奠定了傳統計算與通訊範式,如何突破已經接近極限的三種理論?張亞勤表示,需要通過對信息的重新定義,制定新的計算範式、計算體系和通訊架構,而他們又給產業帶來了新的機會。為此,中國需要抓住機會,引領數位化的 3.0 時代和第四次工業革命浪潮。
  • 馮諾依曼架構和哈佛架構
    1、馮諾依曼架構,也叫普林斯頓架構,其特點是程序空間和數據空間是一體的,數據和程序採用同一數據總線和地址總線。指令和數據地址指向同一個存儲器的不同物理位置,指令和數據的寬度相同。由於馮諾依曼架構的指令和數據儲存在同一存儲器,而且由同一總線進行讀寫,因而指令和數不能同時進行操作,只能順序執行。也是這個原因限制了計算機的性能和數據處理速度。馮諾依曼架構採用馮諾依曼架構的優點是硬體簡單,最典型的應用便是intel的x86微處理器。
  • 馮諾依曼架構,現代電腦的開端,團隊的愛恨情仇
    馮諾依曼很清楚機電式計算機的局限,一直在注意是否有新的技術突破。因此 1940 年 9 月斯蒂比茲在達特茅斯學院展示複數計算機的功能時,他也在現場;1944 年初 IBM 打造的哈佛一號啟用後,他又立即奔赴哈佛大學試用。ENIAC 果然快!但設定程序要半天以上是怎麼一回事?
  • 突破「馮諾依曼瓶頸」,一段存儲與人工智慧凝成的自由故事
    從長遠來看,我們認為計算最好在內存中完成。」圖1:計算最好在內存中完成討厭的「存儲牆」但在傳統計算設備廣泛採用的馮·諾依曼架構中,計算和存儲功能不但是分離的,而且更側重於計算。圖2:傳統的馮·諾依曼計算架構除了體系架構自身的限制外,處理器和存儲器二者之間長期以來所採用的不同工藝路線,也是造成計算和存儲分離,繼而產生「存儲牆」和「功耗牆」問題的重要原因之一。
  • 「芯觀點」後摩爾時代的AI革命:算力需求激增,催生晶片創新
    突破摩爾定律的嘗試摩爾定律和馮諾依曼架構的瓶頸在算力需求激增之下日益凸顯。尋找新的替代方案突破蠻力計算變得尤為重要。與此同時,馮諾依曼計算架構不斷抵近極限,即內存的讀取速度和晶片的處理速度漸漸難以實現同步。量子計算是一種解決方式——利用量子力學的反直覺特性來大幅加速某些類型的計算。比如,微軟研究院量子架構與計算小組負責人提出一種稱為葛洛沃算法(Grover's algorithm)的量子計算技術,該技術有望大大提高計算速度。
  • 衝破摩爾定律,類腦晶片怎樣使機器超越人腦
    從計算機誕生起,人們就不斷要求它的計算能力提升,隨著晶片集成性越來越高,CPU與內存之間的性能差距越來越大。基於馮諾依曼結構的計算機結構呈現的缺點也愈加明顯,也有人稱這為內存牆,意思是說CPU再快,也要等內存。相比之下,人腦卻沒有此類問題出現,據研究表明,人類大腦平均每秒可執行 1 億億次操作,所需能量只有 10~25 瓦特。
  • 淺析後摩爾時代的AI革命
    突破摩爾定律的嘗試 摩爾定律和馮諾依曼架構的瓶頸在算力需求激增之下日益凸顯。尋找新的替代方案突破蠻力計算變得尤為重要。 復旦大學信息學院研究員、新氦類腦智能首席科學家鄒卓教授指出,摩爾定律的挑戰在於——無法承受的能耗密度,原子尺度的尺寸、製程、器件的不穩定性和偏差,以及比例縮小並沒有帶來實質性的性能提升,高昂的研發和製造成本。
  • ...計算成果再登Nature:張悠慧施路平團隊出品,有望打破馮諾依曼瓶頸
    去年8月,清華類腦計算中心施路平團隊自行研發的類腦晶片「天機」,登上了Nature封面。以這片類腦晶片為基礎,研究團隊實現了高度靈敏,並且能聽懂自然語言指令的自行車。而最新發表的研究,則是為了解決類腦計算系統的「基礎設施架構」問題。
  • 模擬內存計算如何解決邊緣AI推理的功耗挑戰
    這在傳統的數字神經網絡實現中是很難做到的,在這種情況下,內存成為了耗電的瓶頸。這個問題可以通過多層內存和使用模擬內存計算方法來解決,這些計算方法可讓處理引擎能夠滿足在網絡邊緣執行人工智慧推斷所需的更低的毫瓦到微瓦的功率要求。
  • 張亞勤:新範式、新架構和新模態突破傳統算力,推動物理世界走向...
    隨著數據的海量爆發,如何突破目前的算力,成為了一代又一代科學家攻克的關鍵,香農定律、馮諾依曼架構和摩爾定律奠定了傳統計算與通訊範式,如何突破已經接近極限的三種理論?張亞勤表示,需要通過對信息的重新定義,制定新的計算範式、計算體系和通訊架構,而他們又給產業帶來了新的機會。為此,中國需要抓住機會,引領數位化的3.0時代和第四次工業革命浪潮。
  • 清華用憶阻器制人工神經網絡晶片,能效比GPU高兩個數量級
    傳統的計算機將數據儲存在內存中,然後傳送到處理器運算。這種來回「搬運」數據的活動耗費能源和時間,被認為是馮諾依曼計算架構的核心瓶頸。而人類的大腦卻並非如此,而是直接在記憶體裡計算。近日,清華大學微電子所、未來晶片技術高精尖創新中心錢鶴、吳華強團隊與合作者在頂尖學術期刊、英國《自然》雜誌(Nature)在線發表論文,報導了基於憶阻器陣列晶片卷積網絡的完整硬體實現。
  • 如何在集群中高效地部署和使用 AI 晶片? | 分享總結
    視頻回放:http://www.mooc.ai/open/course/479周鵬程,Thinker (AI 晶片) 團隊深度學習平臺負責人,曾就職於阿里巴巴技術保障事業部,擔任算法工程師;清華大學微電子碩士,主要研究方向:面向可重構晶片的編譯器後端優化,指令級並行,高並發編程模型以及分布式計算。
  • 消除馮·諾伊曼瓶頸 Imec和GF合作展示新型人工智慧晶片
    專注於納米電子和數位技術的比利時微電子研究中心(Imec)聯合全球領先的特種晶圓代工企業格芯(Global Foundries),今天對一款新型人工智慧晶片進行了硬體展示。這款人工智慧晶片基於 Imec 的 Analog in Memory Computing (AiMC)架構,利用了格芯的 22FDX 解決方案,通過層層優化能在模擬領域的內存計算硬體上執行深度神經網絡計算。這款晶片的能效達到了創紀錄的 2900 TOPS/W,是低功耗設備邊緣推理的重要推動者。
  • 清華制人工神經網絡晶片,能效比GPU高兩個數量級
    澎湃新聞記者 虞涵棋傳統的計算機將數據儲存在內存中,然後傳送到處理器運算。這種來回「搬運」數據的活動耗費能源和時間,被認為是馮·諾依曼計算架構的核心瓶頸。而人類的大腦卻並非如此,而是直接在記憶體裡計算。被認為具有「存算一體」潛力的憶阻器,因而成為類腦計算領域的熱門器件。
  • 清華高濱:基於憶阻器的存算一體單晶片算力可能高達1POPs | CCF-G...
    晶片算力的提升與需求增長之間有一個很尖銳的矛盾。」這個尖銳的矛盾主要有兩個原因:摩爾定律放緩以及馮諾依曼架構帶來的存算分離局限。這讓晶片面臨著算力和能效兩大挑戰。要解決矛盾和挑戰,需要三大基石都革新的存算一體計算機。高濱表示:「器件層面,憶阻器可以把馮諾伊曼架構裡的處理、內存、外存都融合在一起,構建存算一體陣列,這也是存算一體最基本的要素。
  • 普渡大學打造計算與存儲一體化晶片,或推動類腦計算的發展
    近日,普渡大學的研究團隊從材料的角度出發,實現了晶片在計算的同時也能夠存儲。研究人員稱,該晶片如若能在未來進一步改進,或將有利於類腦計算的發展。當前,馮諾依曼架構是計算機以及處理器晶片的主流架構,在這一架構中,計算/處理和內存是兩個完全區分的單元,計算/處理單元根據指令從內存中讀取數據,在計算