英特爾很嚇人AI技術:神經網絡處理器及VPU性能飆升3-4倍

2020-12-06 極客網FromGeek

這是我第二次見到Naveen Rao。

與初見一樣,聊到AI,他的話匣子一下被打開,一直有層出不窮的想法與理論冒出,滿腹經綸,侃侃而談。

英特爾全球副總裁兼人工智慧產品事業部(AIPG)總經理 Naveen Rao

與他這種溫暖的教授般的氣質形成「反萌差」的是他對極限運動的熱愛。這位40剛出頭的AI專家還是一名運動健將,以至於在滑雪、滑板、騎自行車、駕駛賽車、摔跤和打籃球的生涯中,弄傷了全部手指。或許就是這樣一位冒險家,更適合帶動人工智慧,在他創立的深度學習初創公司Nervana被英特爾收購後,Nervana被迅速整合到英特爾AI核心戰略之中,現在Rao已經成為英特爾人工智慧事業群(AIPG)的掌舵人。

Rao說來到英特爾,「這裡是一個開放的文化」,他很喜歡團隊合作,然而調用資源並不是一件容易的事,但英特爾在產品的市場化方面擁有豐富的經驗,強大的向心力正將公司各部門之間扭成一股勁,朝著一個目標通力協作。

在英特爾,實幹永遠比空談更重要。在英特爾首屆AI開發者大會上,由Rao率隊帶領,英特爾人工智慧業務相關部門的「狠角色」集中露面,這應該是英特爾AI史上一次先例。要知道,除了英特爾內部會議,能夠在公開場合看到一群「大牛」如此乖巧的集中出現,幾乎是零概率事件。

但英特爾並沒有讓人失望。

這一次它拿出了一支配置超高的英特爾「AI銀河戰隊」(姑且叫這名吧),如下圖,從左到右依次是:

Jennifer Huffstetler,英特爾數據中心事業部副總裁兼數據中心產品和存儲營銷總經理

Reynette Au,英特爾可編程解決方案事業部副總裁

Jack Weast, 英特爾無人駕駛解決方案資深首席工程師兼首席架構師

Gayle Sheppard,英特爾新技術事業部副總裁兼Saffron人工智慧事業部總經理

Remi El-Ouazzane,英特爾新技術事業部副總裁兼Moviduis總經理

Jonathon Ballon,英特爾物聯網事業部副總裁

Naveen Rao, 英特爾公司副總裁兼人工智慧產品事業部總經理

儘管這陣容堪比漫威「復仇者聯盟」,但依舊有「大神」在畫框外。

英特爾人工智慧事業部副總裁、 Nervana團隊核心成員Carey Kloss

Carey Kloss是英特爾人工智慧事業群副總裁、 Nervana團隊核心成員,雖然並沒有在上圖中出現,但他向科技行者表達出對團隊的熱愛,「英特爾有迄今為止我見過的最佳的後矽培養(post-silicon bring-up)和架構分析。」也正因如此,Nervana神經網絡處理器(Nervana Neural Network Processor,NNP)才獲得巨大提升。

事實上,NNP也是英特爾醞釀已久的「殺手鐧」。在本次AI開發者大會上,Rao就爽快公開了英特爾新一代AI芯——英特爾Nervana NNP-L1000,代號為「Spring Crest」的專用人工智慧晶片,而這款晶片也即將成為英特爾第一款商用神經網絡處理器產品,並計劃在2019年發布。

儘管Rao並沒有再多透露新代AI晶片的細節,但同為Nervana創始團隊的Carey Kloss卻掌握著機密——我們當然不會放過他。就在AI開發者大會期間,科技行者與他進行了一次「接地氣」對話,原來打著「如意算盤」的英特爾還可以這樣玩。

Nervana NNP:新AI芯性能飆升3-4倍,但威力還沒完全釋放

在Rao長達1小時的主題演講中,最重磅的發布非英特爾Nervana神經網絡處理器莫屬了,它對英特爾的意義非同小可。

如果拿去年10月首次公布的「Lake Crest」(Nervana NNP系列初代晶片代號)做一個比喻,可以說「Lake Crest」就像一場「及時雨」,成功幫助英特爾在AI專用晶片競爭中站住腳。但英特爾卻提出了一個更大的目標,即到2020年要將深度學習訓練的性能提升100倍。而Crest家族很可能成為英特爾目標實現的最快途徑。

要知道一塊晶片的打造並非易事,如果背後沒有一支瘋狂、專注的晶片開發團隊,它也將是一塊不足掛齒的晶片。所以懂門道的內行人更專注的問題是:Nervana神經網絡處理器系列晶片背後的英特爾IC設計團隊,究竟是如何打造出這顆能在現有性能上再飆升3-4倍的「Spring Crest」?

雖然Carey Kloss口風很緊,但關於Nervana神經網絡處理器,科技行者還是在與他的聊天中,拿到以下犀利信息:

1、Lake Crest和Spring Crest的主要區別

Lake Crest作為第一代處理器,在GEMM(矩陣運算)和卷積神經上都實現了非常好的計算利用率。這不僅僅是指96%吞吐量的利用率,而是在沒有充分定製化的情況下,Nervana也在大多數情況下實現GEMM高於80%的計算利用率。當開發下一代晶片時,如果能夠保持高計算利用率,新的產品在性能上有3到4倍的性能提升。

2、Lake Crest計算利用率達到96%,為什麼到Spring Crest不升反而降了?

這是一個市場策略,把利用率適當下降。有些情況確實可以實現98%,在沒有資源衝突時,每個矽晶片都完全運行的情況下,可以達到99%甚至100%計算利用率。但英特爾想展示的是大多數情況下能能實現的利用率,所以適當調整了。

3、為什麼Nervana晶片的發布節奏一再延期?

分為兩個階段,Nervana在2014年成立之初就開始研發Lake Crest,,當時整個團隊大概45人,正在構建一個最大的Die(矽晶片),我們開發了Neon(深度學習軟體),還構建了雲棧,這些都是小團隊所完成的。但這也是挑戰所在,小團隊成長會有陣痛,Nervana花了很長時間才把第一批產品拿出來,直到去年晶片才真正問世。關於Spring Crest為何選擇2019年年底推出,因為需要集成更多的Die(矽晶片),獲得更快的處理速度,但需要一定的時間去製造矽片,也需要矽片變成新的神經網絡處理器,這是延遲的原因。目前來看,Spring Crest正處於合理的節奏中,已具備明年取得成功的所有要素。

4、延遲給英特爾帶來了哪些不利影響?

Carey Kloss並不認為英特爾會在神經網絡處理器上處於劣勢,因為英特爾的反應速度相對較快,比如逐步轉向bfloat是一個重要因素,它是業內廣泛採用的針對神經網絡的一種數值型數據格式,很受市場歡迎,未來英特爾將在人工智慧產品線上擴大對bfloat16的支持,包括至強處理器和FPGA。

5、拿nGraph與CUDA相比:沒在怕的

拋開硬體層面,英特爾還在軟體部署上加足馬力。目前,英特爾AIPG事業部正在開發名為nGraph的軟體,該軟體是一個框架中立的深度神經網絡(DNN)模型編譯器。英特爾正在把TensorFlow、MXNet、Paddle Paddle、CNTK和ONNX等深度學習框架集成在nGraph之上。

同樣是一個平臺概念,很多人喜歡拿GPU代表企業英偉達與英特爾做比較,事實上,Carey Kloss就直言了nGraph與競爭對手CUDA平臺的區別。

「nGraph與CUDA還是不一樣的。CUDA你可以理解為 nGraph的底面,我們稱之為變壓器。nGraph通過一個固定的API接收來自TensorFlow,Caffe或MXNet的輸入,然後通過圖形編譯器進行性能優化,排除一些不需要的東西,然後將其發送給CPU的MKL-DNN。所以CPU仍然使用MKL-DNN,即使在nGraph中也是如此。「不難看出,英特爾也有意把晶片開發放在統一平臺上,將nGraph打造成為開發基於所有英特爾晶片的AI應用程式的接口做統一。

相比於新一代Nervana NNP-L1000還處於研發階段,英特爾另一款專注於計算機視覺的晶片VPU實際已經商用。關於這款晶片,英特爾又寄託了怎樣的市場期望,來看另一位同樣在畫框外的大神的解答。

12下一頁>

(免責聲明:本網站內容主要來自原創、合作媒體供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,並對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或連結內容可能涉嫌侵犯其智慧財產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,並提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件後,將會依法儘快聯繫相關文章源頭核實,溝通刪除相關內容或斷開相關連結。 )

相關焦點

  • 為增強AI晶片實力,英特爾又收購了一個7個人的初創公司Vertex.ai
    英特爾在聲明中表示:「英特爾已經收購了Vertex.AI,這是一家位於西雅圖的創業公司,專注於開發深度學習編譯工具及配套技術。由7個人組成的Vertex.AI團隊將加入英特爾AI產品集團的Movidius團隊。通過這筆交易,英特爾獲得了一支經驗豐富的團隊和智慧財產權,以進一步實現邊緣計算的靈活深度學習。更多細節和條款將不會被披露。」
  • 「Movidius發布最新一代VPU」集成DNN加速器,每秒超過1萬億次運算
    Movidius最新的這款VPU是Myriad X系統級晶片,配備了專門的神經計算引擎,能夠支持邊緣設備的深度學習推理(inferences)。Myriad X專為高速和低功耗運行深度神經網絡而設計。英特爾方面表示,這款深度神經網絡加速器可以讓DNN推理實現每秒超過1萬億次運算。
  • 英特爾研究院五大前沿領域研究進展揭秘!神經擬態架構性能已達CPU 2000倍
    英特爾研究院院長、英特爾高級院士、副總裁Rich Uhlig說:「我們認為這五個領域能夠真正大規模釋放數據價值,並且變革人們與數據互動的方式。」作為英特爾掌握未來核心技術的儲備軍,英特爾研究院負責突破性創新技術的研究,以及全球範圍內的交付,旨在追求互連、計算、內存等領域技術的「1000倍提升」。
  • 對話英特爾AI硬體負責人:什麼是真正的AI晶片 | AI英雄
    | 性能提升3到4倍 不畏懼競爭對手問:Lake Crest和Spring Crest的主要區別是什麼?因為需要一定的時間去製造矽片,也需要時間把矽片變成新的神經網絡處理器,這是延遲到2019年上市的原因。
  • 英特爾發布AI晶片系統,比傳統CPU快1000倍
    在DARPA 2019 年電子復興計劃峰會上,英特爾發布了「 Pohoiki Beach 」神經擬態系統,該系統主要由64 顆 Loihi 神經擬態晶片構成,集成了 1320 億個電晶體,總面積 3840 平方毫米,可處理深度學習任務,速度比CPU快1000倍,效率高10000倍,耗電量小100倍。
  • 性能提升5倍,能耗降低30倍!Intel要用自旋電子技術復活摩爾定律
    幾十年來,晶片始終依賴於互補金氧半導體電路(CMOS)技術。雖然CMOS電子元件仍遵循摩爾定律,但隨著元件大小越來越接近單個原子尺寸,現有的晶片製程技術已經越來越逼近了物理極限。例如,寬度為 10nm 的電晶體柵極結構,其允許誤差僅為 1nm,這僅相當於3至4個原子層的厚度。
  • 技術實力大爆發!詳解英特爾十一代酷睿四大核心亮點
    此外,通過提升MIM電容器能力(超過4倍),Tiger Lake處理器可以勝任更高負載的任務,提供快速而穩定的供電響應。這種強大的4元素矢量點積擴展,經過優化之後加速了用於人工智慧的推斷,並且在深度學習中也有所應用。Intel DL Boost:VNNI並非首次出現在酷睿平臺之上。英特爾在Tiger Lake上繼續沿用了這一技術。VNNI為處理器提供了卓越的人工智慧性能或矢量神經網絡指令,支持低精度指令,可加速基於卷積神經網絡的算法。
  • 深度學習進入晶片領域,揭秘寒武紀神經網絡處理器
    陳雲霽(左)和陳天石(右)兄弟寒武紀神經網絡處理器廬山真面目目前,寒武紀系列已包含三種原型處理器結構:寒武紀1號(英文名DianNao,面向神經網絡的原型處理器結構);寒武紀2號(英文名DaDianNao,面向大規模神經網絡);寒武紀3號(英文名PuDianNao,面向多種機器學習算法)。
  • 英特爾發布Movidius(TM)神經計算棒
    神經計算棒,這是世界上首個基於USB模式的深度學習推理工具和獨立的人工智慧(AI)加速器,為廣泛的邊緣主機設備提供專用深度神經網絡處理功能。外形小巧的MovidiusTM神經計算棒專為產品開發者、研究人員和創客設計,提供專用高性能深度神經網絡處理性能,從而減少開發、調優和部署人工智慧應用的障礙。
  • 英特爾詳解計算趨勢:量子計算如何商業化?神經擬態計算如何提升性能?
    12月4日,英特爾在2020年英特爾研究院開放日上,公布了集成光電、神經擬態計算、量子計算、保密計算、機器編程等前沿計算技術的最新進展並進行解析。近日英特爾首席架構師Raja Koduri談道,英特爾的目標是讓每個人都能獲得百億億次級計算。為此,英特爾研究院選擇以上五個領域來實現目標。
  • 英特爾詳解計算趨勢:量子計算如何商業化?神經擬態計算如何提升性能?
    12月4日,英特爾在2020年英特爾研究院開放日上,公布了集成光電、神經擬態計算、量子計算、保密計算、機器編程等前沿計算技術的最新進展並進行解析。近日英特爾首席架構師Raja Koduri談道,英特爾的目標是讓每個人都能獲得百億億次級計算。為此,英特爾研究院選擇以上五個領域來實現目標。
  • 英特爾最新一代10nm重新定義電晶體,Tiger Lake架構性能提升20%
    全新10nm SF工藝讓性能提高多達20%,技術可媲美節點轉換英特爾推出全新的 10nm SuperFin 電晶體技術,這是該公司有史以來最為強大的單節點內性能增強。首席架構師 Raja Koduri 表示,「經過多年對FinFET電晶體技術的改進,英特爾正在重新定義該技術,以實現其歷史上最強大的單節點內性能增強,帶來的性能提升可與完全節點轉換相媲美。」
  • 英特爾:效率達CPU一萬倍的神經形態晶片發布
    特別的是,Loihi 擁有可編程微碼學習引擎,可在片上訓練異步脈衝神經網絡(SNN)——這是一種將時間結合進模型操作的特殊 AI 模型,可以讓模型的不同組件不會同時被輸入處理。SNN 被認為可以高效實現自適應修改、基於事件驅動和細粒度平行計算。
  • 登上Nature子刊封面:英特爾神經晶片實現在線學習
    論文地址:https://www.nature.com/articles/s42256-020-0159-4在該研究中,研究者展示了英特爾神經形態研究晶片 Loihi 在存在明顯噪聲和遮蓋的情況下學習和識別危險化學品的能力。
  • Imagination 的神經網絡加速器在邊緣計算領域的應用
    今天,2019 SiFive Tech workshop在深圳舉行,IC晶片領域的兩百多位設計人員到場參會交流目前最熱門的RISC-V處理器開發,作為SiFive的DesignShare生態系統合夥夥伴,Imagination Technologies不僅在現場演示了最新新神經網絡加速演示,公司高級技術專家李安也發表《神經網絡加速賦能端側智能》介紹了Imagination
  • 一起教育科技基於英特爾 技術優化 AI 口語測評平臺 賦能英語教學
    該處理器集成了英特爾 超級通道互聯(英特爾 UPI)、英特爾 Infrastructure Management 技術(英特爾 IMT)和英特爾 高級矢量擴展指令集512(英特爾 AVX-512)等領先功能,可滿足嚴苛的 I/O 密集型工作負載的需求。
  • 英特爾推6大硬核新品!第二代至強、傲騰內存、革新FPGA組團來了
    智東西(公眾號:zhidxcom)文 | 心緣智東西4月3日消息,今日,英特爾在北京和大洋彼岸的美國同時正式發布了以數據為中心的產品組合,包括第二代英特爾至強可擴展處理器、英特爾至強D-1600處理器和英特爾Agilex FPGA
  • 英特爾全新電晶體技術重新定義FinFET
    在英特爾2020年架構日新聞發布會上,英特爾首席架構師Raja Koduri攜手多位英特爾院士和架構師,詳細介紹了英特爾在創新的六大技術支柱方面所取得的進展。英特爾推出了10納米SuperFin技術,這是該公司有史以來最為強大的單節點內性能增強,帶來的性能提升可與全節點轉換相媲美。
  • ...英特爾們的「醫療數據隱私保衛戰」:三種AI技術你最傾向哪一個?
    神經網絡的「漏洞」大多數人工智慧系統的核心是神經網絡,它由層層排列的功能神經元組成,神經元將信號傳遞給其他神經元。這些信號輸入到網絡中,從一層傳遞到另一層,並緩慢地「調整」網絡,實際上調整了每個連接的突觸強度(權重)。隨著時間的推移,網絡從數據集中提取特徵並識別交叉樣本,最終做出預測。
  • 年中盤點|2020最炙手可熱的10家AI晶片初創公司
    Blaize主要針對汽車和智能視覺等場景,其中,Graph Streaming Processor處理器克服了AI處理成本和尺寸方面的障礙,效率是現有產品的10到100倍。4、GroqCEO:Jonathan RossGroq表示,它的Tensor Streaming Processor(TSP)處理器可提供「無與倫比的敏捷性」,避免了傳統GPU需要在最高響應速度和最高性能之間折衷的問題。