深度解讀達文西架構:華為AI晶片的「秘密武器」

2020-12-12 億歐網

2019年6月,華為發布全新8系列手機SoC晶片麒麟810,首次採用華為自研達文西架構NPU,實現業界領先端側AI算力,在業界公認的蘇黎世聯邦理工學院推出的AI Benchmark榜單中,搭載麒麟810的手機霸榜TOP3,堪稱華為AI晶片的「秘密武器」,這其中華為自研的達文西架構舉足輕重。

那麼,達文西架構AI實力究竟怎麼樣?一起來深入了解下。

源起:為什麼要做達文西架構?

華為預測,到2025年全球的智能終端數量將會達到400億臺,智能助理的普及率將達到90%,企業數據的使用率將達到86%。可以預見,在不久的將來,AI將作為一項通用技術極大地提高生產力,改變每個組織和每個行業。

基於這樣的願景,華為在2018全聯接大會上提出全棧全場景AI戰略。作為重要的技術基礎,AI晶片在其中發揮著重要作用,而華為也基於AI晶片提供了完整的解決方案,加速使能AI產業化。

為了實現AI在多平臺多場景之間的協同,華為創新設計達文西計算架構,在不同體積和功耗條件下提供強勁的AI算力。

初見:達文西架構的核心優勢

達文西架構,是華為自研的面向AI計算特徵的全新計算架構,具備高算力、高能效、靈活可裁剪的特性,是實現萬物智能的重要基礎。

具體來說,達文西架構採用3D Cube針對矩陣運算做加速,大幅提升單位功耗下的AI算力,每個AI Core可以在一個時鐘周期內實現4096個MAC操作,相比傳統的CPU和GPU實現數量級的提升。

同時,為了提升AI計算的完備性和不同場景的計算效率,達文西架構還集成了向量、標量、硬體加速器等多種計算單元。同時支持多種精度計算,支撐訓練和推理兩種場景的數據精度要求,實現AI的全場景需求覆蓋。

深耕:達文西架構的AI硬實力

科普1:常見的AI運算類型有哪些?在了解達文西架構的技術之前,我們先來弄清楚一下幾種AI運算數據對象:

標量(Scalar):由單獨一個數組成向量(Vector):由一組一維有序數組成,每個數由一個索引(index)標識矩陣(Matrix):由一組二維有序數組成,每個數由兩個索引(index)標識張量(Tensor):由一組n維有序數組成,每個數由n個索引(index)標識。其中,AI計算的核心是矩陣乘法運算,計算時由左矩陣的一行和右矩陣的一列相乘,每個元素相乘之後的和輸出到結果矩陣。

在此計算過程中,標量(Scalar)、向量(Vector)、矩陣(Matrix)算力密度依次增加,對硬體的AI運算能力不斷提出更高要求。 典型的神經網絡模型計算量都非常大,這其中99%的計算都需要用到矩陣乘,也就是說,如果提高矩陣乘的運算效率,就能最大程度上提升AI算力——這也是達文西架構設計的核心:以最小的計算代價增加矩陣乘的算力,實現更高的AI能效。

科普2:各單元角色分工揭秘,Da Vinci Core是如何實現高效AI計算的?

在2018年全聯接大會上,華為推出AI晶片Ascend 310(昇騰310),這是達文西架構的首次亮相。

其中,Da Vinci Core只是NPU的一個部分,Da Vinci Core內部還細分成很多單元,包括核心的3D Cube、Vector向量計算單元、Scalar標量計算單元等,它們各自負責不同的運算任務實現並行化計算模型,共同保障AI計算的高效處理。

3D Cube矩陣乘法單元:算力擔當

剛才已經提到,矩陣乘是AI計算的核心,這部分運算由3D Cube完成,Buffer L0A、L0B、L0C則用於存儲輸入矩陣和輸出矩陣數據,負責向Cube計算單元輸送數據和存放計算結果。

Vector向量計算單元:靈活的多面手

雖然Cube的算力很強大,但只能完成矩陣乘運算,還有很多計算類型要依靠Vector向量計算單元來完成。Vector的指令相對來說非常豐富,可以覆蓋各種基本的計算類型和許多定製的計算類型。

Scalar標量計算單元:流程控制的管家

Scalar標量運算單元主要負責AI Core的標量運算,功能上可以看作一個小CPU,完成整個程序的循環控制,分支判斷,Cube、Vector等指令的地址和參數計算以及基本的算術運算等。

科普3:3D Cube計算方式的獨特優勢是什麼?

不同於以往的標量、矢量運算模式,華為達文西架構以高性能3D Cube計算引擎為基礎,針對矩陣運算進行加速,大幅提高單位面積下的AI算力,充分激發端側AI的運算潛能。

以兩個N*N的矩陣A*B乘法為例:如果是N個1D 的MAC,需要N^2(即N的2次方)的cycle數;如果是1個N^2的2D MAC陣列,需要N個Cycle;如果是1個N維3D的Cube,只需要1個Cycle。

華為創新設計的達文西架構將大幅提升算力,16*16*16的3D Cube能夠顯著提升數據利用率,縮短運算周期,實現更快更強的AI運算。

這是什麼意思呢?舉例來說,同樣是完成4096次運算,2D結構需要64行*64列才能計算,3D Cube只需要16*16*16的結構就能算出。其中,64*64結構帶來的問題是:運算周期長、時延高、利用率低。

達文西架構的這一特性也完美體現在麒麟810上。作為首款採用達文西架構NPU的手機SoC晶片,麒麟810實現強勁的AI算力,在單位面積上實現最佳能效,FP16精度和INT8量化精度業界領先,搭載這款SoC晶片的華為Nova 5、Nova 5i Pro及榮耀9X手機已上市,為廣大消費者提供多種精彩的AI應用體驗。

同時,麒麟810再度賦能HiAI生態,支持自研中間算子格式IR開放,算子數量多達240+,處於業內領先水平。更多算子、開源框架的支持以及提供更加完備的工具鏈將助力開發者快速轉換集成基於不同AI框架開發出的模型,極大地增強了華為HiAI移動計算平臺的兼容性、易用性,提高開發者的效率,節約時間成本,加速更多AI應用的落地。

預見:達文西架構解鎖AI無限可能

基於靈活可擴展的特性,達文西架構能夠滿足端側、邊緣側及雲端的應用場景,可用於小到幾十毫瓦,大到幾百瓦的訓練場景,橫跨全場景提供最優算力。

以Ascend晶片為例,Ascend-Nano可以用於耳機電話等IoT設備的使用場景;Ascend-Tiny和Ascend-Lite用於智慧型手機的AI運算處理;在筆記本電腦等算力需求更高的便攜設備上,由Ascend-Mini提供算力支持;而邊緣側伺服器上則需要由Multi-Ascend 310完成AI計算;至於超複雜的雲端數據運算處理,則交由算力最高可達256 TFLOPS@FP16的Ascend-Max來完成。

正是由於達文西架構靈活可裁剪、高能效的特性,才能實現對上述多種複雜場景的AI運算處理。

同時,選擇開發統一架構也是一個非常關鍵的決策。統一架構優勢很明顯,那就是對廣大開發者非常利好。基於達文西架構的統一性,開發者在面對雲端、邊緣側、端側等全場景應用開發時,只需要進行一次算子開發和調試,就可以應用於不同平臺,大幅降低了遷移成本。

不僅開發平臺語言統一,訓練和推理框架也是統一的,開發者可以將大量訓練模型放在本地和雲端伺服器,再將輕量級的推理工作放在移動端設備上,獲得一致的開發體驗。

在算力和技術得到突破性提升後,AI將廣泛應用於智慧城市、自動駕駛、智慧新零售、機器人、工業製造、雲計算AI服務等場景。華為輪值董事長徐直軍在2018華為全聯接大會上表示,「全場景意味著可以實現智能無所不及,全棧意味著華為有能力為AI應用開發者提供強大的算力和應用開發平臺;有能力提供大家用得起、用得好、用得放心的AI,實現普惠AI」。

未來,AI將應用更加廣泛的領域,並逐漸覆蓋至生活的方方面面。達文西架構作為AI運算的重要技術基礎,將持續賦能AI應用探索,為各行各業的AI應用場景提供澎湃算力。

相關焦點

  • 華為深度解讀達文西架構:3D Cube計算引擎加速運算
    IT之家8月22日消息 此前,華為正式推出了麒麟810晶片,這款晶片採用華為自研的達文西架構,其AI得分在蘇黎世聯邦理工學院推出的AI Benchmark榜單中位列前三。華為在文章中同時表示,8月23日,採用達文西架構的AI晶片Ascend910將正式商用發布,同時與之配套的新一代AI開源計算框架MindSpore也將同時亮相。針對達文西框架,華為中國今天發文進行深度科普。以下則是華為對達文西框架的科普內容。
  • 麒麟990 5G晶片的NPU如何做到算力暴漲?華為自研達文西架構詳解
    相信大家還記得,華為在2017年推出的麒麟970晶片是全球首款集成NPU神經網絡單元的智慧型手機AI計算平臺,而在2018年推出的麒麟980晶片上又全球首次集成了雙核NPU,而在今年的麒麟990 5G上,AI能力再次實現了升級,它採用了基於華為自研達文西架構的全新大核+微核架構的NPU。
  • 達文西架構和arm架構有什麼區別?
    關於華為的主流技術術語,筆者在專欄《華為方舟編譯器原始碼分析》的第5章《鴻蒙能解決谷歌斷供嗎?昇騰、鯤鵬、麒麟、方舟之間是什麼關係》有詳細闡述,有興趣可以關注筆者,訂閱該專欄。現在回到正題:一直說華為獲得了ARMv8的永久授權,那麼為什麼又搞出了「達文西架構」?
  • 華為昇騰 910 AI 晶片正式商用,全場景 AI 框架 Mind...
    ,在華為 2018 全聯接大會上,華為對外宣布了昇騰 910 晶片(Ascend 910)晶片,號稱是全球已經發布的單晶片計算密度最大的 AI 晶片——當然,從宣布到商用也需要一個過程,華為當時表示會在 2019 年第二季度商用。
  • 華為公布五大AI戰略,推最強7nm昇騰AI晶片!提出十大變革
    ,分別是面向雲端超高算力場景的昇騰910、以及主打終端低功耗AI場景的昇騰310,兩款晶片都採用華為自研的達文西架構。當被問到為什麼不採用麒麟晶片中使用的寒武紀人工智慧IP時,徐直軍表示:「寒武紀的(IP)也很好,但是它無法支持我們的全場景,我們需要從雲、到端、到物聯網終端的人工智慧設備,因此我們要創造性地打造一款新的架構。我們很幸運地找到了這個達文西架構,能夠解決極致的功耗與極致的算力需求。」
  • 華為全球最快AI產品發布,ResNet-50訓練59.8秒,集成1024顆晶片
    昇騰910晶片亮相於去年的全聯接大會,今年8月正式商用,是全球第三款、中國首款AI訓練晶片。昇騰910採用華為自研的達文西架構,號稱「算力最強的AI處理器」,7nm工藝製程,最大功耗為350W,實測310W。該晶片跑分對標也很明確。直接對標英偉達Tesla V100,主打深度學習的訓練場景,客戶面向AI數據科學家和工程師。晶片如何強悍?
  • 華為昇騰AI全棧知識深入解讀,師資培訓沙龍深圳場圓滿落幕
    為這10年的計算機體系結構做一個定義,是計算架構創新的黃金時代。原因也很簡單,晶片級摩爾定律基本上將走到盡頭,物理限制導致單晶片計算性能提升遇到瓶頸。所以,AI計算面臨的核心問題,在於如何與教學和產業結合,讓計算系統最大化地發揮價值。
  • 華為昇騰AI全棧知識深入解讀,師資培訓沙龍深圳場圓滿落幕!
    為這10年的計算機體系結構做一個定義,是計算架構創新的黃金時代。原因也很簡單,晶片級摩爾定律基本上將走到盡頭,物理限制導致單晶片計算性能提升遇到瓶頸。所以,AI計算面臨的核心問題,在於如何與教學和產業結合,讓計算系統最大化地發揮價值。
  • 從美國禁止華為,中興事件,我們來詳細說說晶片的發展
    從此可以看出英國ARM公司的技術有多重要,它為蘋果,高通,聯發科,包括華為的麒麟晶片都提供架構,近日,美國商務部又發了新的通知,讓有美國技術成分的公司只要美國技術佔到一定比列就不許與華為公司合作。所以華為公司可能會得不到arm公司最新架構的授權了,因為ARM公司有一定的美國技術,上次麒麟990 5G晶片跑分比高通驍龍低了點兒,就是因為沒有得到ARM的最新架構授權,而高通得到了。
  • 18位巨頭火拼晶片黑科技!阿里華為炫技Hot Chips頂會
    Nervana NNP-T晶片的代號為Spring Crest,是一款神經網絡處理器,專為大型數據中心設計,主要運用於深度學習訓練。此外,它採用了臺積電的16nm製程工藝,擁有270億個電晶體,矽片總面積達680平方毫米。應用上,它具有高度的可編程性,並支持所有主流深度學習框架,如TensorFlow、PYTORCH 訓練框架和C++深度學習軟體庫等。
  • 蘋果、三星、華為都在用ARM晶片架構,為什麼ARM如此受歡迎!
    說到華為的麒麟晶片小編還是很自豪的,但是很多網友都不這麼認為,他們說華為晶片架構都是國外的有什麼了不起。確實華為的麒麟晶片確實採用了國外的ARM架構,然而三星蘋果就不是用APM的構架嗎?答案是三星蘋果也是用的ARM架構。
  • 全球首個手機AI晶片華為麒麟970是怎麼來的?有什麼用?
    同樣,在智能時代,我們也會需要有一類專門的智能處理器晶片,而寒武紀公司就是這個領域的先行者。寒武紀團隊在 2013 年研製了全球首個深度學習處理器,相關工作獲得了處理器架構領域頂級會議 ASPLOS 的最佳論文獎,是亞洲機構首次獲得這樣的榮譽。
  • 華為與蘋果最新晶片有多大差距?網友:麒麟980處於A10與A11之間
    華為與蘋果最新晶片有多大差距?網友:麒麟980處於A10與A11之間華為麒麟晶片的實力還是比較強的,特別是加入了華為自研的基帶晶片、整合了GPU,在華為自己的手機上進行了很好的優化,使用起來流暢度與高通855及其蘋果a12的流暢度差距不大,但真正要比較他們的跑分,華為的麒麟與高通及其蘋果晶片還是有兩年的差距,很多網友說,目前華為最好的麒麟980的實力處于于蘋果A10與A11之間
  • 解密華為最新AI生態布局,開源AI計算框架,三大頂會密集發論文81篇
    它的架構設計靈活,模型可大可小,能保證模型低功耗、速度快、輕量級的需求。此外,MindSpore也提供有深度優化的模型集市Model Zoo,今年第四季度將上線超過30個模型。MindSpore首個開源版本為0.1.0-alpha版。陳雷教授表示,MindSpore開源後,華為將極力構建蓬勃發展的AI生態。
  • 此「麒麟」竟是真「麒麟」 華為麒麟晶片商標註冊
    中關村在線消息:今日,知名數碼博主 @長安數碼君 在微博曝光了華為麒麟晶片的一個商標設計,並且提到本商標在企查查中顯示為剛申請的,不出意外的話,這應該就是華為麒麟晶片的專有商標了。麒麟系晶片目前已經發布了不少,在今年就有麒麟820和麒麟985的發布。其中麒麟Kirin 820由榮耀30S首發搭載。麒麟820採用集成5G基帶技術,完美繼承了麒麟旗艦晶片的高端5G體驗,7nm製程工藝,1個大核+3個中核+4小核架構CPU,Mali-G57 6核GPU,華為自研架構新一代NPU,旗艦級Kirin ISP 5.0,讓榮耀30S成為了實力超群的硬核擔當。
  • 5款晶片已經面世,可重構架構是AI晶片的新風潮?
    Patterson在年初的一篇報告中展望,未來的十年將是計算機體系架構領域的「新的黃金十年」。AI的發展更加期待新架構的出現,因為,經典的馮諾依曼架構處理器應用於深度學習計算時面臨著內存牆挑戰(訪問存儲器的速度無法跟上運算器消耗數據的速度)。
  • 華為晶片最新AI性能跑分:麒麟990 5G秒殺驍龍855,持平蘋果A13!
    9月19日,華為舉辦全球新品發布會正式發布了下半年旗艦Mate30系列,與此同時,新一代海思晶片麒麟990和麒麟990 5G也隨之首發。作為國產手機當中唯一自研高端晶片,麒麟990和990 5G的問世,也再次開創了多個全球第一。
  • 2019年AI晶片產業深度研究報告
    第三次爆發的核心引爆點是深度學習算法的出現,但其背後的支撐是數據和算力。對整個 AI 行業來講,算法、數據和算力三大基本要素中,數據尤其是海量數據的獲取和處理難度在下降,算法也在深度學習模型的基礎上不斷優化,而負責將數據和深度算法統一協調起來的晶片能否獲得大的飛躍,成為市場關注的焦點。
  • 華為nave 5攜全新7nm晶片麒麟810來襲!性能爆棚!
    6月21日下午,華為正式發布了旗下第二款7nm SOC麒麟810。據官方介紹,麒麟810採用7nm工藝製程,相比8nm工藝,能效提升20%,電晶體密度提升50%。規格方面,麒麟810的CPU部分採用了2+6架構設計,分別是兩顆主頻2.27GHz的Cortex-A76大核以及六顆主頻1.88GHz的Cortex-A55小核。GPU部分,麒麟810用上了定製版的Mali-G52 MP6,主頻820MHz。此外,麒麟810還搭載了自研的達文西架構NPU。
  • 深度:AI晶片終極之戰,四大門派爭奪千億市場
    在圍繞華為Mate 10和麒麟970晶片進行的一系列獨家深入採訪中,華為無線終端晶片業務部總監Eric曾經告訴智東西,未來AI將會是晶片中的一個基礎技術,可能到了明年(2018年),每家晶片公司都會有這個能力。(18個月,華為AI手機涅槃誕生記)   事實證明,他說的沒錯。