微軟推出深度學習加速平臺「Project Brainwave」

2021-01-08 機器之心Pro

本文由機器之心編輯,「機器之心」專注生產人工智慧專業性內容,適合開發者和從業者閱讀參考。點擊右上角即刻關注。

近日在 Hot Chips 2017 上,微軟團隊推出了一個新的深度學習加速平臺,其代號為腦波計劃(Project Brainwave),機器之心將簡要介紹該計劃。腦波計劃在深度學習模型雲服務方面實現了性能與靈活性的巨大提升。微軟專為實時人工智慧設計了該系統,它可以超低延遲地處理接收到的請求。雲基礎架構也可以處理實時數據流,如搜索查詢、視頻、傳感器流,或者與用戶的交互,因此實時 AI 變的越發重要。

近來,FPGA 對深度學習的訓練和應用變得越來越重要,因為 FPGA:

性能:低批量大小上的優秀推理性能、在現代 DNN 上服務的超低延遲、>10X 且比 CPU 和 GPU 更低、在單一 DNN 服務中擴展到很多 FPGA。

靈活性:FPGA 十分適合適應快速發展的 ML、CNN、LSTM、MLP、強化學習、特徵提取、決策樹等、推理優化的數值精度、利用稀疏性、更大更快模型的深度壓縮。

規模:微軟在 FPGA 上擁有全球最大的雲計算投資、AI 總體能力的多實例操作、腦波計劃運行在微軟的規模基礎設施上。

所以我們發布了腦波計劃(Project BrainWave),一個可擴展的、支持 FPGA 的 DNN 服務平臺,它有三個特性:

快速:小批量 DNN 模型有超低延遲、高吞吐量服務

靈活:適應性數值精度與自定義運算符

友好:CNTK/Caffe/TF/等的交鑰匙(turnkey)部署

腦波計劃

腦波計劃系統的主要內容包括以下三個層面:

一個高性能的分布式系統架構;

一個集成在 FPGA 的硬體 DNN 引擎;

一個用於已訓練模型的低摩擦(low-friction)部署的編譯器和運行時間。

首先,腦波計劃利用了微軟這些年一直部署的大量 FPGA 基礎架構。通過把高性能 FPGA 直接連接到我們的數據中心網絡,我們可以把 DNN 作為硬體微服務,其中 DNN 可以映射到一個遠程 FPGA 池,並被循環中沒有軟體的伺服器調用。這個系統架構不僅可以降低延遲(因為 CPU 並不需要處理傳入的請求),還可以允許非常高的吞吐量,並且 FPGA 處理請求可以如網絡的流式傳輸一樣快。

第二,腦波計劃使用了一個強大的在商業化可用的 FPGA 上合成的「軟」DNN 處理單元(DPU)。大量的公司,包括大型公司和一大批初創公司,正在構造硬化的 DPU。儘管其中一些晶片具有高峰值性能,但它們必須在設計時選擇運算符和數據類型,這限制了其靈活性。腦波計劃採取了另一種方法,提供了一個可在一系列數據類型上縮放的設計。這個設計結合了 FPGA 上的 ASIC 數位訊號處理模塊和可合成的邏輯,以提供一個更大更優化數量的功能單元。這一方法以兩種方式利用了 FPGA 的靈活性。首先,我們已經定義了高度自定義、窄精度(narrow-precision)的數據類型,無需損失模型精度即可提升性能。第二,我們可以把研究創新快速整合進硬體平臺(通常是數周時間),這在快速移動的空間中至關重要。因此,我們取得了可媲美於甚至超過很多硬編碼(hard-coded)DPU 晶片的性能,並在今天兌現了性能方面的承諾。

腦波軟 DPU 架構

核心特徵

單線程 C 編程模型(沒有 RTL)

具有專門指令的 ISA:密集矩陣乘法、卷積、非線性激勵值、向量操作、嵌入

獨有的可參數化的窄精度格式,包含在 float16 接口中

可參數化的微架構,並且擴展到大型 FPGA(~1M ALMs)

硬體微服務完全整合(附設網絡)

用於 CPU 主機和 FPGA 的 P2P 協議

易於擴展帶有自定義運算符的 ISA

矩陣向量單元

特徵

優化以適用於批量為 1 的矩陣向量乘法

矩陣逐行分布在 BRAM 的 1K-10K 個內存塊上,最高 20 TB/s

可擴展以使用晶片上所有可用的 BRAM、DSP 和軟邏輯(soft logic)

將 float 16 權重和激活值原位轉換成內部格式

將密集的點積單元高效映射到軟邏輯和 DSP

第三,腦波計劃納入了一款支持多個流行深度學習框架的軟體棧(software stack)。我們已經支持微軟 Cognitive Toolkit 和谷歌的 Tensorflow,並且計劃支持其他框架。我們已經定義了一個基於圖的中間表示(intermediate representation),我們將在流行框架中訓練的模型轉換成中間表示,然後再將其編譯成我們的高性能基礎架構。

編譯器 & 運行時:框架中立的聯合編譯器和運行時,用於將預訓練的 DNN 模型編譯至軟 DPU

架構:自適應 ISA,用於窄精度 DNN 接口;靈活、可擴展,可支持快速變化的人工智慧算法

微架構:BrainWave Soft DPU 微架構;高度優化,適用於窄精度和小批量

擴展一致性:在 FPGA 晶片內存中一致的模型參數;可在多個 FPGA 中擴展以支持大模型

英特爾 FPGA 上的 HW 微服務:英特爾 FPGA 大規模部署,帶有硬體微服務 [MICRO'16]

腦波編譯器和運行時

我們構建該系統,以展示其在多個複雜模型中的高性能,同時無須執行批處理(batch-free execution)。公司和研究人員構建 DNN 加速器通常使用卷積神經網絡(CNN)展示性能 demo。CNN 是計算密集型,因此它取得高性能相對比較簡單。那些結果通常無法代表其他域的更複雜模型上的性能,如自然語言處理中的 LSTM 或 GRU。DNN 加速器經常用來提升性能的另一項技術是用高度批處理運行深度神經網絡。儘管該技術對基於吞吐量的架構和訓練等離線場景有效,但它對實時人工智慧的效果沒有那麼好。使用大批量,一個批次中的第一個查詢必須等待該批次中的其他查詢完成。我們的系統適用於實時人工智慧,無須使用批處理來降低吞吐量,即可處理複雜、內存密集型的模型,如 LSTM。

即使在早期 Stratix 10 silicon 中,移植的 Brainwave 系統可運行大型 GRU 模型,它們可能比不使用批處理的 ResNet-50 還要大 5 倍,同時該系統也實現了創紀錄的性能。該演示使用的是微軟定製的 8 位浮點格式(「ms-fp8」),它在很多模型中都不會遭受到平均準確度損失。我們展示了 Stratix 10 在大型 GRU 模型中保持了 39.5 Teraflops,並且每一個請求的運行時間都在毫秒內。在性能方面,腦波架構每一個周期保持了超過 130000 個計算操作,並且由每 10 個周期發布的宏指令驅動。腦波在 Stratix 10 上運行,實現了實時 AI 的強大性能,特別是在非常具有挑戰性的模型上。我們將在接下來的幾個季度調整系統,希望它能夠實現顯著的性能提升。

傳統的加速方法:Local Offload and Streaming

通過批處理提升硬體效用

FPGA 上的窄精度接口

結語

我們正將這種強大的實時 AI 系統介紹給大家,特別是 Azure 平臺的用戶。這樣,我們的用戶才能從腦波計劃中直接獲益,並間接補充了訪問我們的服務的路徑,如 Bing。在不久的未來,我們將具體說明 Azure 用戶可以怎樣使用該平臺運行他們複雜的深度學習模型,並達到創紀錄的性能。因為腦波計劃系統是大規模集成系統並對我們用戶是可用的,所以 Microsoft Azure 在實時人工智慧上有行業領先的性能。

原文地址:https://www.microsoft.com/en-us/research/blog/microsoft-unveils-project-brainwave/

相關焦點

  • 微軟披露Project Brainwave實時人工智慧平臺的更多細節
    Project Brainwave 是微軟的一套深度學習加速平臺,主要面向實時人工智慧應用。
  • 微軟發布基於FPGA的深度學習平臺Brainwave
    打開APP 微軟發布基於FPGA的深度學習平臺Brainwave 發表於 2019-08-19 17:51:01 據微軟官方博客顯示
  • 微軟發布深度學習平臺Brainwave,基於FPGA且速度超快
    安妮 編譯整理量子位 出品 | 公眾號 QbitAI在昨天Hot Chips 2017大會上,微軟發布了基於FPGA的低延遲深度學習加速平臺。據微軟官方博客顯示,當使用英特爾Stratix 10 FPGA時,Brainwave可在無批處理的情況下支持每秒39.5萬億次浮點運算。
  • 微軟推出深度學習系統Brainwave:超低延遲
    新浪科技訊 北京時間8月23日早間消息,微軟周二下午宣布Brainwave,這是一套基於FPGA(現場可編程門陣列)的超低延遲雲端深度學習系統。早期的基準測試顯示,在使用英特爾Stratix 10 FPGA時,Brianwave可以在沒有任何批處理的情況下在大型門控循環單元上保持39.5 Teraflop運算速度。
  • 圖靈獎「擁抱」深度學習
    ACM 將本屆圖靈獎頒給了深度學習領域,並且讚譽三位獲獎人為「深度學習之父」。他們分別是:Yoshua Bengio,蒙特婁大學教授,人工智慧孵化器 Element AI 聯合創始人;Geoffrey Hinton,多倫多大學名譽教授,Google Brain 高級研究員;Yann LeCun,紐約大學教授,Facebook 首席 AI 科學家。
  • 微軟發布 Project Brainwave,基於英特爾 FPGA 的低延遲深度學習雲...
    雷鋒網消息:今日,微軟發布了 Project Brainwave,一個基於 FPGA 的低延遲深度學習雲平臺。微軟官方測評顯示,當使用英特爾的 Stratix 10 FPGA,Brainwave 不需要任何 batching 就能在大型 GRU (gated recurrent unit)達到 39.5 Teraflops 的性能。
  • 迎來PyTorch,告別 Theano,2017 深度學習框架發展大盤點
    深度學習是機器學習中一種基於對數據進行表徵學習的方法,作為當下最熱門的話題,谷歌、Facebook、微軟等巨頭紛紛圍繞深度學習做了一系列研究,一直在支持開源深度學習框架的建設。這使得開發者的深度學習模型能夠有「最大限度的內存效能」,訓練比從前更大的深度神經網絡。
  • 用深度學習對抗癌症:從分子層面研究到大規模人口建模
    我可以表明的是,我們正在與英特爾的所有適合的部門合作。」Stevens 說,他是 ANL 研究員和臨床前篩選項目的領導者。事實上,英特爾一直很忙,忙於購買 Nervana(一個用於深度學習的完整平臺),最近又推出了擴展計劃。Stevens 說:「他們談論到為機器學習而優化的 Knights X 系列的版本。
  • AI+醫療「最佳掘金案例」榜單出爐,致敬寒冬中的「持炬者」
    針對醫療AI各個細分領域的創新,今年「AI最佳掘金案例年度榜單」特設了五個「AI+醫療」獎項,深睿醫療、依圖醫療、聯影智能、推想科技、微軟亞洲研究院,憑藉各自優勢在眾多優秀競爭者中脫穎而出,分別榮獲「最佳醫學影像輔助診斷獎」「最佳醫學科研平臺獎」「最佳智能設備AI獎」「最佳肺癌全周期智能解決方案獎」以及「最佳全科醫學智庫獎」。
  • 「愛情就像脂肪,是點點滴滴的積累」,微軟小冰造句天馬行空,三大...
    「愛情就像脂肪,是點點滴滴的積累」這是 18 歲少女微軟小冰造出來的句子,咋一聽來,倒是很能引起萬千熱戀中的少男少女的同理心:「這可不就是戀愛後的幸福肥嗎?」作為一款主業為「陪聊」的對話機器人,微軟小冰近幾年來不斷解鎖其他副業的進階之路,受到了不少關注。然而為什麼要讓微軟小冰唱歌、寫詩、作畫以及現在為什麼還讓她開啟了「造 比喻句」技能?微軟小冰這些技能的背後又有哪些技術支撐?伴隨著前不久第七代微軟小冰的誕生,各位心中的這些疑問想必又被放大了不止一倍。
  • 微軟推出機器學習系統Brainwave,超低延遲、堪稱實時AI
    【AI星球(微信ID:ai_xingqiu)】8月23日報導(編譯:福爾摩望)微軟今天推出了一款可以支持高速、低延遲機器學習模型的系統,也預示著微軟開始在專用AI硬體領域嶄露頭角。
  • 深度強化學習走入「死胡同」,繼續死磕電子遊戲還是另闢蹊徑?
    無論是 DeepMind 星際2 AI 「AlphaStar」血虐人類玩家,還是 OpenAI 最終因太過強大而被認為可能有風險所以不公開發布的語言模型 GPT-2,無疑都在過去一年中最轟動的 AI 大事件之列,也吸引了 AI 社區的越來越多的研究者投身深度強化學習研究之列。然而,也有很多反對的聲音認為深度強化學習現在的一系列成果,其實更像是一種虛假的「繁榮」。
  • 在「古板遲緩」的晶片產業,一群「寒武紀」們誕生的意義與挑戰
    撰文 | 宇多田在過去的幾年裡,一個名為「深度學習」的人工智慧技術家族在科技行業掀起了一場風暴。從幫你對手機相冊裡的自拍與萌寵進行識別分類,再到大幅度提高 Alexa 們(智能助手)與無人駕駛汽車的「平均智商」,「深度學習」這個人工智慧裡的門類,具備了更高級的對「複雜結構」進行自動挖掘的能力。
  • 微軟全球資深副總裁Peter Lee和我們聊了聊微軟神秘部門NExT
    你可能曾經聽說過他們「能提升必應所需機器學習算法運算速度 100 倍」的 FPGA 晶片和深度學習加速框架 [1][2],驚異於他們將數據中心機櫃放進潛水器的腦洞 [3] 和接近絕對零度的量子計算機系統結構 [4],但從未見過 NExT 作為一個整體的樣子。
  • ...招聘高級區塊鏈開發工程師;微軟翻譯軟體「中譯英」比「英譯中...
    (來源:新浪科技)G 點評:不止是阿里,開曼群島上的百度、京東公司回歸 A 股之日同樣可期B 站將啟動「青少年防火牆」計劃B 站昨日宣布將啟動「青少年防火牆」計劃,通過大數據分析、關鍵詞管理等措施,從嚴識別並過濾對青少年的不良信息。「青少年防火牆」計劃分為兩部分:1、加強身份認證。
  • 兩年之後微軟「海底數據中心」被打撈出水,故障率僅為陸地1/8
    機器之心報導作者:張倩「我們的水下數據中心故障率只有陸地的 1/8」,在微軟的實驗成功之後,將數據中心沉入海底或成為未來的一大趨勢。超低的故障率表明,「將數據中心沉入海底」的想法是可行的,而且是一種環保、經濟的解決方案。
  • 用生物計算技術打造生命科學平臺,李彥宏牽頭創立「百圖生科」
    然而,這些技術所帶來的的海量數據和由此而來的挖掘、分析、匹配需求,也向生命科學行業的平臺和工具框架提出了巨大挑戰。原本配置已不能充分應對和利用新獲取的生物數據。為了解決生命科學領域的這些嶄新需求,9月25日,「百圖生科」正式成立,希望在急劇增長的生物數據時代,能為行業提供更好的生物地圖,幫助藥廠找到化合物,幫助醫生找到生物標誌物,幫助科研人員找到各種生物數據背後的意義。
  • 微軟推出Brainwave項目 提供更快晶片吸引AI開發者
    這個項目名為Project Brainwave,可以讓微軟數據中心的開發人員使用現場可編程門陣列(FPGAs),這種這列即使被插入伺服器之後也可以進行定製。微軟表示,該晶片在Build開發者大會上首次亮相。
  • CVPR 2018 中國論文分享會 之「深度學習」
    日在微軟亞洲研究院進行的 CVPR 2018 中國論文宣講研討會中「Deep Learning」環節的四場論文報告,分別針對Deep Learning的冗餘性、可解釋性、遷移學習和全局池化做了深入分享。
  • 微軟和寶馬推出OMP平臺 【圖】
    北京時間4月2日消息,據國外媒體報導,微軟和寶馬集團日前在漢諾瓦工業博覽會上推出開放式製造平臺(OMP),以支持在汽車行業以及更廣泛的製造業領域展開智能工廠解決方案開發,旨在實現製造業更快、更具成本效益的創新技術發展。這兩家公司還宣布成立面向其他製造商和供應商開放的OMP社區,包括汽車行業以外的企業均可加入該社區。