深度解讀達文西架構:華為AI晶片的「秘密武器」

2020-12-05 億歐網

2019年6月,華為發布全新8系列手機SoC晶片麒麟810,首次採用華為自研達文西架構NPU,實現業界領先端側AI算力,在業界公認的蘇黎世聯邦理工學院推出的AI Benchmark榜單中,搭載麒麟810的手機霸榜TOP3,堪稱華為AI晶片的「秘密武器」,這其中華為自研的達文西架構舉足輕重。

那麼,達文西架構AI實力究竟怎麼樣?一起來深入了解下。

源起:為什麼要做達文西架構?

華為預測,到2025年全球的智能終端數量將會達到400億臺,智能助理的普及率將達到90%,企業數據的使用率將達到86%。可以預見,在不久的將來,AI將作為一項通用技術極大地提高生產力,改變每個組織和每個行業。

基於這樣的願景,華為在2018全聯接大會上提出全棧全場景AI戰略。作為重要的技術基礎,AI晶片在其中發揮著重要作用,而華為也基於AI晶片提供了完整的解決方案,加速使能AI產業化。

為了實現AI在多平臺多場景之間的協同,華為創新設計達文西計算架構,在不同體積和功耗條件下提供強勁的AI算力。

初見:達文西架構的核心優勢

達文西架構,是華為自研的面向AI計算特徵的全新計算架構,具備高算力、高能效、靈活可裁剪的特性,是實現萬物智能的重要基礎。

具體來說,達文西架構採用3D Cube針對矩陣運算做加速,大幅提升單位功耗下的AI算力,每個AI Core可以在一個時鐘周期內實現4096個MAC操作,相比傳統的CPU和GPU實現數量級的提升。

同時,為了提升AI計算的完備性和不同場景的計算效率,達文西架構還集成了向量、標量、硬體加速器等多種計算單元。同時支持多種精度計算,支撐訓練和推理兩種場景的數據精度要求,實現AI的全場景需求覆蓋。

深耕:達文西架構的AI硬實力

科普1:常見的AI運算類型有哪些?在了解達文西架構的技術之前,我們先來弄清楚一下幾種AI運算數據對象:

標量(Scalar):由單獨一個數組成向量(Vector):由一組一維有序數組成,每個數由一個索引(index)標識矩陣(Matrix):由一組二維有序數組成,每個數由兩個索引(index)標識張量(Tensor):由一組n維有序數組成,每個數由n個索引(index)標識。其中,AI計算的核心是矩陣乘法運算,計算時由左矩陣的一行和右矩陣的一列相乘,每個元素相乘之後的和輸出到結果矩陣。

在此計算過程中,標量(Scalar)、向量(Vector)、矩陣(Matrix)算力密度依次增加,對硬體的AI運算能力不斷提出更高要求。 典型的神經網絡模型計算量都非常大,這其中99%的計算都需要用到矩陣乘,也就是說,如果提高矩陣乘的運算效率,就能最大程度上提升AI算力——這也是達文西架構設計的核心:以最小的計算代價增加矩陣乘的算力,實現更高的AI能效。

科普2:各單元角色分工揭秘,Da Vinci Core是如何實現高效AI計算的?

在2018年全聯接大會上,華為推出AI晶片Ascend 310(昇騰310),這是達文西架構的首次亮相。

其中,Da Vinci Core只是NPU的一個部分,Da Vinci Core內部還細分成很多單元,包括核心的3D Cube、Vector向量計算單元、Scalar標量計算單元等,它們各自負責不同的運算任務實現並行化計算模型,共同保障AI計算的高效處理。

3D Cube矩陣乘法單元:算力擔當

剛才已經提到,矩陣乘是AI計算的核心,這部分運算由3D Cube完成,Buffer L0A、L0B、L0C則用於存儲輸入矩陣和輸出矩陣數據,負責向Cube計算單元輸送數據和存放計算結果。

Vector向量計算單元:靈活的多面手

雖然Cube的算力很強大,但只能完成矩陣乘運算,還有很多計算類型要依靠Vector向量計算單元來完成。Vector的指令相對來說非常豐富,可以覆蓋各種基本的計算類型和許多定製的計算類型。

Scalar標量計算單元:流程控制的管家

Scalar標量運算單元主要負責AI Core的標量運算,功能上可以看作一個小CPU,完成整個程序的循環控制,分支判斷,Cube、Vector等指令的地址和參數計算以及基本的算術運算等。

科普3:3D Cube計算方式的獨特優勢是什麼?

不同於以往的標量、矢量運算模式,華為達文西架構以高性能3D Cube計算引擎為基礎,針對矩陣運算進行加速,大幅提高單位面積下的AI算力,充分激發端側AI的運算潛能。

以兩個N*N的矩陣A*B乘法為例:如果是N個1D 的MAC,需要N^2(即N的2次方)的cycle數;如果是1個N^2的2D MAC陣列,需要N個Cycle;如果是1個N維3D的Cube,只需要1個Cycle。

華為創新設計的達文西架構將大幅提升算力,16*16*16的3D Cube能夠顯著提升數據利用率,縮短運算周期,實現更快更強的AI運算。

這是什麼意思呢?舉例來說,同樣是完成4096次運算,2D結構需要64行*64列才能計算,3D Cube只需要16*16*16的結構就能算出。其中,64*64結構帶來的問題是:運算周期長、時延高、利用率低。

達文西架構的這一特性也完美體現在麒麟810上。作為首款採用達文西架構NPU的手機SoC晶片,麒麟810實現強勁的AI算力,在單位面積上實現最佳能效,FP16精度和INT8量化精度業界領先,搭載這款SoC晶片的華為Nova 5、Nova 5i Pro及榮耀9X手機已上市,為廣大消費者提供多種精彩的AI應用體驗。

同時,麒麟810再度賦能HiAI生態,支持自研中間算子格式IR開放,算子數量多達240+,處於業內領先水平。更多算子、開源框架的支持以及提供更加完備的工具鏈將助力開發者快速轉換集成基於不同AI框架開發出的模型,極大地增強了華為HiAI移動計算平臺的兼容性、易用性,提高開發者的效率,節約時間成本,加速更多AI應用的落地。

預見:達文西架構解鎖AI無限可能

基於靈活可擴展的特性,達文西架構能夠滿足端側、邊緣側及雲端的應用場景,可用於小到幾十毫瓦,大到幾百瓦的訓練場景,橫跨全場景提供最優算力。

以Ascend晶片為例,Ascend-Nano可以用於耳機電話等IoT設備的使用場景;Ascend-Tiny和Ascend-Lite用於智慧型手機的AI運算處理;在筆記本電腦等算力需求更高的便攜設備上,由Ascend-Mini提供算力支持;而邊緣側伺服器上則需要由Multi-Ascend 310完成AI計算;至於超複雜的雲端數據運算處理,則交由算力最高可達256 TFLOPS@FP16的Ascend-Max來完成。

正是由於達文西架構靈活可裁剪、高能效的特性,才能實現對上述多種複雜場景的AI運算處理。

同時,選擇開發統一架構也是一個非常關鍵的決策。統一架構優勢很明顯,那就是對廣大開發者非常利好。基於達文西架構的統一性,開發者在面對雲端、邊緣側、端側等全場景應用開發時,只需要進行一次算子開發和調試,就可以應用於不同平臺,大幅降低了遷移成本。

不僅開發平臺語言統一,訓練和推理框架也是統一的,開發者可以將大量訓練模型放在本地和雲端伺服器,再將輕量級的推理工作放在移動端設備上,獲得一致的開發體驗。

在算力和技術得到突破性提升後,AI將廣泛應用於智慧城市、自動駕駛、智慧新零售、機器人、工業製造、雲計算AI服務等場景。華為輪值董事長徐直軍在2018華為全聯接大會上表示,「全場景意味著可以實現智能無所不及,全棧意味著華為有能力為AI應用開發者提供強大的算力和應用開發平臺;有能力提供大家用得起、用得好、用得放心的AI,實現普惠AI」。

未來,AI將應用更加廣泛的領域,並逐漸覆蓋至生活的方方面面。達文西架構作為AI運算的重要技術基礎,將持續賦能AI應用探索,為各行各業的AI應用場景提供澎湃算力。

相關焦點

  • 華為AI晶片 昇騰910目前全球AI單晶片計算密度最大
    華為正在與微軟洽談合作,華為自研雲端AI晶片「達文西計劃」,可能用於微軟雲在中國的數據中心。據The Information報導,華為近來與微軟全球執行副總裁、AI和研究部門負責人沈向洋聯繫密切,向後者積極推銷華為自研AI雲端晶片。與其他雲服務提供商一樣,微軟也在使用英偉達的晶片開發人工智慧,比如Cortana和Bing中的語音和面部識別功能。在目前這個由深度學習為核心驅動的AI應用大發展浪潮中,英偉達及其產品,無疑是業內龍頭老大。
  • 達文西架構和arm架構有什麼區別?
    關於華為的主流技術術語,筆者在專欄《華為方舟編譯器原始碼分析》的第5章《鴻蒙能解決谷歌斷供嗎?昇騰、鯤鵬、麒麟、方舟之間是什麼關係》有詳細闡述,有興趣可以關注筆者,訂閱該專欄。現在回到正題:一直說華為獲得了ARMv8的永久授權,那麼為什麼又搞出了「達文西架構」?
  • 華為AI戰略:「全棧、全布局」
    另外,值得關注的是,在華為之前的智慧型手機的兩款智能晶片:麒麟970和麒麟980中,採用的是寒武紀的架構,此次華為公布的Lite系列晶片主打智慧型手機市場,採用的是華為自己的達文西計算架構。圖表8:華為AI全場景布局
  • 華為發布全球首款5nm手機晶片
    10月29日,華為面向全球正式發布新一代旗艦手機晶片麒麟9000,這是業界最高集成度5nm 5G SoC。 這個視頻展示麒麟晶片十年奮鬥史 華為Fellow艾偉在媒體溝通會上全面解讀了麒麟9000。
  • Hotchips 31國際會議:AMD深度揭秘7nm Zen2及Navi架構
    2019年的Hotchips國際大會將於8月18日在美國史丹福大學舉行,這是每年國際半導體晶片四大國際會議之一,主要聚焦於晶片架構除了CEO主題演講之外,AMD的技術高管這次在Hotchips上還會深度揭秘旗下最新一代的7nm Zen2 CPU及
  • 力壓A13,華為麒麟1000強勢來襲,5nm工藝或搭載A77架構
    該晶片組採用7nm FinFET Plus EUV工藝,併集成了達文西神經處理單元(NPU)和5G數據機。 在麒麟990處理器的加持下,得以讓華為mate 30系列和蘋果、三星智慧型手機廠商的旗艦手機展開競爭。
  • 為什麼AI晶片需要突破馮諾依曼架構?
    數據是有價值的,因為人工智慧(ai)可以挖掘它的商業價值。 為了實現人工智慧,我們必須啟用新的計算模型。關鍵信息有兩個關鍵信息。首先,人工智慧工作量(即機器學習、深度學習)需要一種處理數據的新方法——我們稱之為新計算架構(即計算模型)。「計算架構」的含義以及人工智慧工作負載需要哪些類型的更改將在稍後詳細說明。
  • 晶片行業深度報告:為什麼說ARM可能是國產計算架構的最優選擇
    第二類,是以飛騰和華為海思為代表的基於 ARM 指令集授權的國產晶片。ARM 主要有三種授權等級:使用層級授權、 內核層級授權和架構/指令集層級授權,其中指令集層級授權等級最高,企 業可以對 ARM 指令集進行改造以實現自行設計處理器,如蘋果在 ARM v7-A架構基礎上開發出蘋果 Swift 架構,其他如高通 Krait、Marvell 等都是 基於 ARM 指令集或微架構進行的改造所得。
  • 蘋果晶片為何能領先競爭對手?深度揭秘A13仿生晶片
    iPhone 11 Pro及其兄弟產品的發布,再次證實了蘋果相對於競爭對手的真正優勢,即其擁有整個垂直堆棧,包括軟體、系統硬體和晶片設計。你可以在iPhone的功能集中看到這些好處,從增強現實功能到深度融合和夜間模式等計算攝影模式。席勒說:「今年晶片性能提升帶來的最大好處之一就是文本轉語音功能。
  • 衝擊世界第一,華為將發第二顆7納米系列晶片,逼近製造物理極限
    18日晚,華為終端手機產品線總裁何剛表示,華為即將成為全球首個同時擁有兩顆7nm SoC晶片的手機品牌。資料顯示,其所指的是華為將於6月21日發布的新機——華為nova 5系列。三款型號分別搭載麒麟980、麒麟810和麒麟710。
  • 16位AI晶片玩家瘋狂湧入!安博會成AI晶片閱兵場
    據智東西了解,這四款晶片上都集成了專用的AI處理單元「AI Engine」,是海思自研的AI模塊,跟此前寒武紀的NPU與華為昇騰AI晶片IP都有所不同。不過海思的工作人員也向智東西表示,未來海思的AI晶片架構將會最終統一。
  • 展現架構優勢 解讀華為AR3200系列路由器
    而為了滿足這些企業信息化發展的新需求,華為AR G3路由器應運而生。    AR G3系列是華為在2011年推出的第三代企業路由器,它基於最新的多核、無阻塞交換、多業務並發處理的第三代企業路由器架構,提供移動和固定兩類網絡接入方式,支持「All In One」多業務合一處理,並於2012年緊跟移動辦公
  • 華為汽車產業深度剖析
    在雲端 AI 晶片領域,英偉達屬於絕對龍頭,佔據 AI 晶片 90%市場份額,主要系英偉達打造了一 系列基於其 GPU 的深度學習 SDK,包括 Cuda、cuDNN、TensorRT 等,降低了開發者利 用 GPU 進行深度學習訓練和推理的門檻,加快了計算速度,短期內其他廠商難以突破 其應用生態。
  • 同是ARM架構晶片,蘋果M1與華為鯤鵬920,誰更強?
    據悉,最近蘋果的那款M1晶片真的讓業界感到驚訝。因為使用M1晶片的Mac電腦真的幹翻了使用英特爾晶片的Mac,贏得了徹底勝利。在某種程度上,所謂的簡單指令集不能與複雜指令集的「謠言」相提並論,被蘋果公司打破了。
  • 聯想諾曼第計劃對上華為達文西項目:誰更能掀起波浪?
    那麼在這個時候,聯想與華為正面對抗就不可避免了。聯想這個時候給出了一個諾曼第計劃,講究的是背水一戰,突擊戰場。相對的,華為則是給出了一個較為系統的達文西項目,主打AI人工智慧與IOT物聯網布局。那麼這兩家廠商都有著自己的宏偉計劃,誰更能帶動起更大的波浪呢?我們來看看聯想究竟想做什麼。
  • 如何從一顆沙子變成晶片:談 談華為功臣麒麟晶片發展史
    說到華為的自研晶片,大家首先從腦海裡想到的肯定是海思麒麟系列。沒錯,正是因為有了自主研發的手機晶片——海思麒麟,華為才能快速佔據市場制高點,並且成為了中國手機行業的NO1。 海思麒麟晶片,是華為與蘋果,三星平起平坐的底氣所在。那麼海思麒麟從何時開始發展,又有著怎樣的經歷?
  • 深度剖析人工智慧晶片的發展現狀及趨勢
    5、類腦晶片   類腦晶片不採用經典的馮·諾依曼架構, 而是基於神經形態架構設計,以 IBM Truenorth為代表。 IBM 研究人員將存儲單元作為突觸、計算單元作為神經元、傳輸單元作為軸突搭建了神經晶片的原型。
  • 從製程、架構、應用入手,深入分析這十款AI處理器
    (NPU),其高性能硬體架構及軟體支持Caffe、Tensorflow、MXnet等主流AI開發平臺。 華為麒麟970:號稱全球首款AI處理器 華為聲稱麒麟970是全球第一款人工智慧系統級晶片,Kirin 970選擇了異構計算架構來大幅提升AI的運算能力,內置獨立的神經網絡處理單元。據說這種專用硬體處理單元源自寒武紀NPU IP授權,專門用於機器學習和一般的AI應用程式。
  • 智能汽車時代的核心,電子架構系統深度解讀
    本文原載於微信公眾號:概念愛好者 前言:昨天和大家分享了「智能汽車時代」的第一篇內容,華為汽車產業鏈,之所以從華為的產業鏈入手,目的就是希望大家可以通過具體的示例來對「智能汽車」有更加感性的認識。
  • 號稱捨棄馮諾依曼架構,突破內存牆瓶頸的AI晶片,面世了
    需要指出,這一輪的AI熱潮很大程度是機器學習尤其是深度學習受到了追捧。由於目前常見的晶片類型CPU、GPU、FPGA、ASIC都可以運行深度學習算法,因此這些晶片都可以稱為AI晶片。CPU、GPU、FPGA、ASIC的特點【 圖片來源:hackernoon 】這就意味著,如今AI晶片重要的意義在於滿足機器學習的算法的需求。