阿里含光800 AI處理器高調亮相後,三大場景落地性能比GPU高4-11倍

2020-12-22 雷鋒網

2019年杭州雲棲大會上,阿里巴巴集團首席技術官兼阿里雲智能總裁張建鋒簡短的介紹了阿里首款AI晶片含光800,這款當時最強AI推理晶片的一發布就引發了巨大關注,可謂高調亮相。

今年的阿里線上雲棲有一個晶片設計發展現狀與未來的論壇,阿里雲異構計算產品研發總監龍欣分享了含光800推出近一年後的最新進展。

他表示:「含光800 NPU實例已經正式對外服務,不需要白名單就可以在阿里雲實例上購買,實例名稱是ebman1.24xlarge,最多支持8核NPU和96核vCPU,384G內存,網絡帶寬最高達到30Gbit/s,主要面向數據中心的CNN類型模型推理加速,業務包括城市大腦,圖像視頻審核,拍立淘等。」

更引人關注的是含光800在具體應用中的表現。

含光800未對外發售,性能通過阿里雲輸出

正如雷鋒網在去年的文章中所說,科技巨頭自研晶片是因為有大量數據,在內部的AI需求推動下,希望通過自研晶片來提升效率和性價比。周五的線上分享中,龍欣也表示,阿里巴巴內部有廣闊的AI應用,包括電商應用、視覺應用、語音交互、自然語言理解、機器翻譯等。

一個典型的例子就是拍立淘,兩千多萬的日活用戶在使用這項功能的時候,要透過一張圖片,在4億多的商品中搜索,在30多億張圖片多庫中進行匹配,根據用戶的使用習慣進行個性化推薦,這就需要很強的AI能力。

阿里雲異構計算產品研發總監龍欣

因此,阿里希望通過自研的含光800從硬體到軟體的方案提升性價比。做個簡單的回顧,含光800在硬體方面有三個方面的特色,包括:

深度優化CNN及視覺類算法

加速卷積和矩陣乘,支持反卷積、孔洞卷積、3D卷積、插值、ROI等針對 ResNet-50、SSD/DSSD、 Faster-RCNN、Mask-RCNN、DeepLab等模型優化高能效、低延時

高密度的計算與存儲,極大減少I/O需求軟硬協同支持權重的稀疏壓縮,計算的量化壓縮指令集支持可編程模型擴展

除INT8/INT16量化加速外,也覆蓋FP16/BFP16的向量計算除直接加速各種ReLu、 Sigmoid、Tanh等,也可支持未來新型激活函數

也就是說,含光800的硬體特別針對CNN算法模型進行設計,但也保持一定的靈活性,再匹配全棧的軟體支持在特定應用和算法中實現高性價比。去年張建鋒發布含光800時說,「在業界標準的ResNet-50測試中,含光800推理性能達到78563 IPS,比目前業界最好的AI晶片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。」

不過龍欣在昨天的分享中並沒有提及含光800的峰值性能,而是強調其可用性。他表示,「含光800作為並沒有在公開市場發售的晶片,通過阿里雲輸出。」

為了讓含光800能夠開箱即用,阿里雲讓購買實例的用戶可以自動安裝NPU驅動和SDK,系統方面支持公共鏡像CentOS 7.6/7.7和Ubuntu 16.04,還預裝主流深度學習框架,提供TensorFlow、MXNet示範教程。

龍欣強調,含光800的應用主要是在數據中心和大型端上,以CNN類模型推理加速為主,可擴展到其他DNN模型中。目前在具體的應用中相比GPU有4-11倍性能提升。

含光800在三大AI應用中4-11倍的性能提升

去年含光800發布時給出的數據是,在城市大腦中實時處理杭州主城區交通視頻,需要40顆傳統GPU,延時為300ms,使用含光800僅需4顆,延時降至150ms。拍立淘商品庫每天新增10億商品圖片,使用傳統GPU算力識別需要1小時,使用含光800後可縮減至5分鐘。

昨天的分享中,龍欣給出的最新數據是,在行人檢測應用中,4核含光800克支持100路視頻,比主流GPU 25路的推理性能提升4倍。在車輛檢測中,同樣是4核含光800,可以支持85路視頻,比主流GPU支持10路推理性能提升了8.5倍。

在直播、短視頻、商品信息流等內容識別應用中的ResNet50 V2模型中,含光800(4核)的幀率可以達到20000 FPS,比主流推理GPU的1800 FPS性能提升11倍,性能加速比11倍。在Inception V4模型中,含光800(4核)的處理幀率達到5000 FPS,比主流推理GPU的460FPS性能加速比高10.8倍。

還有,在直播、點播、短視頻等視頻質量增強中。4核含光800的直播視頻增強性能為500 FPS,對比主流推理GPU的50 FPS,性能加速比是10倍。在點播HDR中,4核含光800多性能是66 FPS。龍欣說:「點播HDR需要用到性能比較強的訓練GPU,比如英偉達A100,但即便如此其性能智能達到10 FPS,我們可以實現6.6倍的性能加速比。」

至於在語音交互、自然語言理解等語言方面的應用實例優勢,龍欣並未在今年的雲棲上給出數據。

雷鋒網小結

相對於含光800在去年雲棲備受關注的亮相,今年雲棲對含光800的關注度並不高,龍欣的介紹也只有15分鐘,還包含了許多去年已經公開的消息。含光800的實際應用優勢,應該是當下許多人關注的,但此次的分享給出的場景還沒有十分豐富,介紹的也比較簡單。這可能是由於目前緊張的貿易關係讓阿里對於晶片相關的話題更加謹慎。

但更應該看到的是,即便有強大的團隊能夠快速設計出一款晶片,但要大規模落地仍然需要很長的時間,這個過程軟體發揮著更加直接的作用,獲得客戶的認可和採用也並非易事。阿里的晶片路,依舊還只是開始階段。

那麼,阿里的下一代AI晶片會在什麼時候推出呢?雷鋒網

相關焦點

  • 「含光」含著什麼樣的光?
    在業界標準的ResNet-50測試中,含光800推理性能達到78563 IPS,比目前業界最好的AI晶片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。含光800採用12nm工藝,擁有170萬電晶體數量,推理性能達78563 IPS,比目前業界最好的AI晶片性能高4倍;能效比500 IPS/W,是第二名的3.3倍,主要應用於雲端視覺處理場景,能夠在1秒內處理7.8萬張圖片。在杭州城市大腦的業務測試中,1顆含光800的算力相當於10顆GPU,這對於未來智慧城市交通等AI應用落地場景來說,無疑是巨大的源動力。
  • 世界第一的平頭哥晶片含光800,正式商用
    來源:新浪眾測作者:爆侃數碼日前,在2020阿里雲線上峰會上,阿里雲發布了第七代高主頻雲伺服器ECS和含光800雲伺服器等產品,這標誌著阿里雲自研含光晶片正式大規模商業化。含光800是阿里巴巴平頭哥在2019杭州雲棲大會首日發布的首顆晶片,該晶片性能和能效比均為全球第一,一顆含光800的算力相當於10顆GPU,例如實時處理杭州主城區交通視頻,需要40顆傳統GPU,延時為300ms,使用含光800僅需4顆,延時降至150ms。
  • 全球最大氮化鎵工廠在蘇州建設完成;阿里含光800 AI處理器亮相等
    該輪融資完成後,TikTok的投後估值將達到近5000億元(約625億美元),字節跳動將繼續掌握TikTok的控制權,甲骨文和沃爾瑪則分別獲得TikTok12.5%和7.5%的股份。 四、【V2X:智能駕駛、車聯網】 全球首個高級別自動駕駛示範區落地 近日,北京市高級別自動駕駛示範區正式落地經開區並啟動建設,這也是全球首個網聯雲控式高級別自動駕駛示範區,通過車網深度融合,實現車路協同,發揮網端作用,降低車端成本
  • 英特爾推第11代移動PC處理器,AI性能提升5倍,官宣新品牌Logo
    芯東西(公眾號:aichip001) 文 | 心緣 芯東西9月3日報導,今天,英特爾推出新一代移動PC處理器——第11代智能英特爾酷睿處理器,代號Tiger Lake,搭載英特爾銳炬Xe顯卡
  • 含而不露,光而不耀,低調的80後投資人田含光
    2019年9月25日,在阿里巴巴的雲棲大會上,阿里旗下半導體公司平頭哥正式發布了第一顆自研晶片----含光800。比業界最好的AI晶片性能高4倍,1顆含光800的算力相當於10顆GPU,能夠在1秒內處理7.8萬張圖片,對於未來智慧城市交通等AI應用落地場景來說,無疑是巨大的源動力。消息一出,震驚海內外。
  • 阿里解讀平頭哥造芯,未來作業系統重點在於雲端
    圖丨圖中對比的兩款AI晶片分別為Habana Goya和寒武紀MLU270(來源:阿里巴巴)最近的一個典型案例是近日刷屏的阿里首顆 AI 晶片——NPU 含光 800。據介紹該晶片從最開始設計到流片成功用了約一年半的時間(7 個月完成前端設計,3 個月流片),是阿里巴巴第一顆正式流片的晶片,主要應用於雲端視覺處理場景,且在 ResNet50 的測試中,對比 Habana Goya 和寒武紀 MLU270 都領先數倍。會場之外,含光一經發布,也被大量地與另一家國內友商對比,甚至有網友直言,「平頭哥一年半的投入,友商十年的投入,究竟誰是全球最強?」
  • 前瞻半導體產業全球周報第18期:餘承東稱麒麟990 AI性能超過蘋果...
    雲天勵飛獲國家三大部委人工智慧專項近日,科技部科技創新2030——「新一代人工智慧」重大項目2018年度項目公示,雲天勵飛與清華大學、中國科學技術大學、中國科學院自動化研究所等高校和科研院所牽頭承擔的33個項目通過公示。至此,雲天勵飛的人工智慧晶片已經獲得科技部、發改委、工信部三大部委人工智慧專項。
  • RISC-V硬碟處理器?希捷發布!令機械硬碟性能暴漲3倍!
    RISC-V架構處理器憑著開源沒有IP糾紛的優勢,得到了全球各大廠商的青睞,國外有IBM,谷歌等,國內有阿里等都推出了自己的RISC-V處理器晶片,近日,又傳來國際硬碟製造大廠發布自己的RISC-V架構處理器,基於此處理器的硬碟性能提升達到3倍!
  • 超越英偉達的,不會是另一款GPU——鯤雲數據流架構AI晶片利用率...
    CAISA3.0在多引擎支持上提供了4倍更高的並行度選擇,架構的可拓展性大大提高,在AI晶片內,每一個CAISA都可以同時處理AI工作負載,進一步提升了CAISA架構的性能,在峰值算力提升6倍的同時保持了高達95.4%的晶片利用率,實測性能線性提升。同時新一代CAISA架構對編譯器RainBuilder的支持更加友好,軟硬體協作進一步優化,在系統級別上為用戶提供更好的端到端性能。
  • 三星Exynos1080處理器性能怎樣?
    打開APP 三星Exynos1080處理器性能怎樣? 大話百科天地 發表於 2020-11-16 14:45:38 三星Exynos1080SoC是三星和vivo聯合研發的,相比起上一代Exynos980,Exynos1080So的性能有了大幅的提升
  • 高通驍龍730處理器性能曝光
    ,高達20萬分,性能還是不錯的。驍龍730上的Qualcomm® Hexagon™688處理器,支持增強的基準標量(base scalar)和Hexagon向量擴展內核(Hexagon Vector eXtensions,HVX)性能;此外,它還在Hexagon處理器中新增了專門面向AI處理的全新Hexagon張量加速器(Hexagon Tensor Accelerator,HTA)。
  • 2020年性能前十的手機處理器排名,蘋果第一,高通第三!
    在本月初高通正式發布了驍龍888處理器,這款處理器可以說是三星的exynos 1080蘋果的a14處理器,還有華為的麒麟9000處理器之後的第四款五納米工藝處理器,這款處理器的提升也是非常大的性能,與網絡方面都是讓我們出乎意料,在這款處理器發布之後,就有許多廠商第一時間宣布將會推出搭載這款處理器的手機
  • 用於端點AI加速的10大處理器
    (圖片來源:恩智浦半導體)4uEednc除神經網絡處理器以外,i.MX 8M Plus還搭載運行速度為2GHz的4核Arm Cortex-A53子系統,以及Cortex-M7實時子系統。針對視覺應用,它提供兩個圖像信號處理器,可以支持兩個立體視覺高清相機或一個12MP相機。
  • realme真我Q2評測:天璣800U加持 千元檔位高刷性能強者
    除了高顏值的外觀,硬體層面的表現自然也是「越級」的重要標準。全新的realme 真我Q2搭載了聯發科新款集成式5G晶片——天璣800U。簡單介紹一下聯發科天璣800U處理器,該晶片採用了領先的7nm 超低功耗製程工藝和經典的大小核配置,大核心ARM A76+ 小核心ARM A55的八核心組合性能與功耗表現均衡,最高2.4GHz的大核主頻,性能相比天璣720有著20%的大幅度提升。
  • GPU大廠英偉達的AI造夢空間
    英偉達通過一系列手段支持AI技術發展,打造性能、構架更高效的GPU,即「通用AI處理器」。近十年來,GPU長足發展,其在深度學習領域擁有的數據處理能力,極大拓展了AI的應用場景。 AI江湖,硝煙四起。英偉達以GPU獨霸江湖,除在圖形處理方面佔有絕對優勢外,還大力開大規模並行計算平臺、雲端AI計算平臺和廣泛應用於自動駕駛汽車的AI計算平臺等,目前已成為全球人工智慧計算平臺的領導者。
  • 三星將推首款AI晶片NPU,性能超華為蘋果,智能終端AI芯大PK
    iPhone X中的「A11生物神經網絡引擎」(A11 bionic neural engine)晶片,每秒運算次數最高可達6000億次,相當於0.6TFlops(寒武紀NPU則是1.92TFlops,每秒可以進行19200次浮點運算),採用了六核心設計,由2個高性能核心與4個高能效核心組成。
  • 阿里平頭哥「生娃」!最強 RISC-V 處理器玄鐵 910 誕生!
    5年前,馬雲曾發微博稱:「我做過幾次婚姻紅娘,由於是順水推舟所以成功率不錯,阿興就是其中一位.幾年後,他們結婚了,生孩子了,孩子生下來取名字取不好,我還請金庸給取的。」如今,老先生駕鶴西去,但他的《神鵰俠侶》仍在影響馬雲和阿里!
  • 2019年度安卓手機盤點,最強性能旗艦、年度最流暢手機揭曉!
    又玩出了新花樣下半年推出的oppo nos搭載驍龍855旗艦處理器以高性價比成了很多。尤其是iphone6的發布可能是目前為止。最便宜的驍龍85plus進行了啊華為想也不用多說憑藉武器的先發優勢妹子和p系列。瘋狂收割氛圍要說今年最受傷的可能就是小米小米今年的數字事業之間小米九發布。
  • 用「AI核彈」飽和攻擊的英偉達,如何贏下AI計算新賽場?
    架構提升20倍,HPC性能提升到上一代的2.5倍。從2016年推出第一個專為深度學習優化的Pascal GPU,到2017年又推出性能相比Pascal提升5倍的新GPU架構Volta,再到現在推出比Volta性能高20倍的Ampere(安培)架構,英偉達在數據中心的GPU產品一直成功實現高速且穩定的性能提升。
  • 適合學生黨玩遊戲的三款手機,性能強悍、性價比高
    同時,我們對手機的性能、屏幕、續航等要求也越來越高。下面三款手機就非常符合我們的使用要求,性能強悍,性價比高,可以說是十分符合學生黨了。1.紅米K30 Pro在我看來紅米K30 Pro是最適合打遊戲的手機,首先正面採用了一塊6.67英寸的OLED屏幕,解析度為1080P,刷新率為60Hz。