清華團隊最新晶片報告:原創框架性能提4.8倍,入選頂會ISCA2020

2021-01-11 騰訊網

對於許多數據密集型的應用分析而言,高效求解的大規模圖計算算法是至關重要的。因此,人們提出了大量的圖分析框架來對多種圖計算算法進行性能優化,其應用從CPU拓展到GPU、FPGA和ASIC。

然而,多樣性的計算平臺也給圖分析帶來了異質性,大量的協調和同步工作使得圖分析框架很難從單一平臺擴展到異構平臺。

此外,現有框架在優化迭代算法時僅關注單次迭代的執行時間,很少對算法收斂所需迭代次數進行探討,因此,算法性能的整體優化遇到了顯著瓶頸。

從工作方法上說,以往的工作大多依靠經驗實現優化收斂速度,缺乏系統的收斂速度分析和優化方法來迭代圖算法。

這些瓶頸若不能突破,必將嚴重製約圖計算框架的完善,也會極大限制大數據分析等領域的進一步發展。

撰文 | 徐丹、吳昕

上周,第47屆國際計算機體系結構大會(ISCA)通過線上形式進行。清華大學魏少軍、劉雷波教授團隊發表了題為《GraphABCD:通過分塊坐標下降擴展圖分析》(GraphABCD: Scaling Out Graph Analytics with Asynchronous Block Coordinate Descent )的學術報告。

該報告介紹了一種在可重構架構下(FPGA平臺)將圖計算問題轉化為最優化問題,利用 分塊坐標下降(Block Coordinate Descent ,簡稱BCD) 執行模型,可以同時優化圖計算算法的迭代次數和單次迭代時間。

該方法充分利用了可重構陣列的空間並行性,給出了一個優化圖計算框架性能的全新視角,相比傳統方法具有顯著優勢。

實驗結果表明,在單源最短路徑、PageRank、協同濾波等重要圖算法上,新型計算框架GraphABCD 相比現行主流圖計算框架GraphMat,收斂速度提高了4.8倍,執行時間提升了2倍。

論文主要由清華大學魏少軍、劉雷波團隊完成,在過去十餘年中,他們在動態可重構晶片領域取得了多項重要技術突破,關鍵技術在多項國家重大工程中得到批量應用。

論文第一作者楊軼凡目前正在麻省理工學院攻讀博士學位。這篇文章是他在清華攻讀學士學位時完成的。論文通訊作者是劉雷波教授,主要合作者還有李兆石、劉志偉、尹首一、鄧仰東等。

一 可重構晶片的想像力

該篇論文的核心就是提出了面向可重構晶片的圖計算加速技術。

可重構晶片是一種軟硬體可編程的晶片,相比於普通晶片,可重構晶片有諸多卓越性,包括軟硬體可編程、硬體架構的動態可變性及高效的架構變換能力、兼具高計算效率和高能量效率、不需要晶片設計能力的應用簡便性和軟體定義晶片能力等。

可重構晶片一個明顯的優勢是可復用性。半導體製程的演進帶來了高成本問題。僅研發一款14nm製程的晶片綜合成本高達1.5-2億美元,銷售3000萬顆以上才能把研發成本攤銷到每顆晶片上。

這時復用晶片就會成為一個不錯的選擇。相同的晶片,功能可通過軟體改變,不同的軟體寫入就變成了「專用」晶片。目前,國內大多AI晶片的設計思路正是基於此。

魏少軍教授被選為2020年度IEEE產業先驅獎(Industry Pioneer Award)獲獎人,圖片來源清華大學微電子所。

論文的主要作者,魏少軍、劉雷波團隊是國內可重構晶片的領軍人物。魏少軍是清華大學微納電子學系主任、微電子學研究所所長,曾帶領團隊登上世界頂級高性能晶片頂級會議Hot Chips,先後獲得國家知識產權局和世界智慧財產權組織中國專利金獎、國際半導體產業協會(SEMI)突出貢獻獎、第五屆世界網際網路大會全球領先科技成果等,並在2019年當選IEEE會士。

二 將圖計算問題轉化為最優化問題

針對圖計算技術瓶頸,魏少軍團隊的研究集中成果在兩個方面。

首先是將圖計算問題轉化為最優化問題,將最優化分析的分塊坐標下降方法(Block Coordinate Descent ,簡稱BCD)創新性地引入到圖計算框架中。

圖1:將分塊坐標下降算法應用於圖形域模型

現有圖計算框架局限性的癥結在於,採用整體同步並行執行模型,即圖計算每次迭代都利用屏障進行全局同步。整體同步並行模型不僅限制了框架的可擴展性,而且無法在算法執行過程中動態優化算法收斂所需的迭代次數。

在分塊坐標下降方法執行模型下,圖算法的迭代過程不再依賴全局同步,而是在每次迭代中選擇一個或多個由子圖構成的數據塊,按照坐標下降的方法進行更新,直至算法收斂。

該研究通過分析數據塊的大小、選擇順序和更新方法這三個變量來辨別塊坐標下降模型參數對收斂速度的影響,能夠系統地優化算法收斂所需迭代次數。

實驗結果證明,更大的塊大小意味著更慢的收斂,但有更明確的並行性和位置記憶,適合解決衝突或隨機內存訪問中開銷較大的系統。

優先級調度由於包含了高階全局信息,收斂速度更快。然而,該方案需要更多的工人之間的全局協調來提取信息,這可能會在高度異構的分布式系統中造成嚴重的延遲。

同時,由於多個數據塊之間無須同步,塊坐標下降可實現異步並發執行。

三 原創GraphABCD框架

研究的第二個成果是根據塊坐標下降視圖方法設計並實現了GraphABCD框架異構系統。

系統中包含一個CPU和硬體加速器,通過減少迭代次數大大提高迭代圖算法點收斂速度,可以以異步執行的方式擴展到可重構晶片上。

圖2:GraphABCD系統的架構、執行示例和內存布局示例

GraphABCD框架異構系統包括如下個關鍵設計:

實現快速收斂。GraphABCD的目標是在異構平臺上同步實現輕量級的快速收斂,所以它同時支持優先級調度和簡單循環塊選擇方法。支持優先級塊選擇方法是由於其快速收斂點特性,然而運行時較大的開銷可能會抵消改進的收斂速度,因此也支持簡單循環塊選擇方法。

實現更好的內存位置和寬帶利用率。圖計算算法的不規則性很大程度上來自於大量的數據隨機訪問。GraphABCD選擇「pull-push」作為頂點操作符和邊緣圖格式,結合在異構系統上的任務分配,能夠確保所有的加速器內存訪問都是有順序的。

圖3:三種類型的頂點運算符的PageRank示例

支持異步執行。如果部署同步執行模型,系統中異構組建之間的高同步開銷會嚴重降低性能。在異步BCD保證了異步收斂性的情況下,GraphABCD通過,基於狀態更新信息、解耦的CPU加速執行和不連續的塊內存布局實現了以最小的協調開銷設計異步執行。

CPU-FPGA混合執行優化。GraphABCD會將計算分配給加速器和可用的CPU,以有效地利用異構系統。為此,團隊構造了一個CPU版本的收集-應用函數,並在運行時檢測到CPU充分利用它。

最後,團隊在FPGA上實現了硬體加速器的原型,並將整個GraphABCD系統部署在現有的CPU-FPGA異構系統Intel HARPv2 CPU-FPGA系統上,證實了該框架的可用性。

在GraphABCD中,簡單的定製硬體模塊(GATHER, APPLY)和軟體功能(SCATTER)作為API暴露給最終用戶。這些模塊和功能可以修改,使框架適應不同算法。硬體方面,GraphABCD為定製邏輯提供了一個直接的數據流接口。定製組件可以由高級合成工具或通過集成現有ip生成。

實驗結果環節,團隊將GraphABCD與三種迭代圖算法,PageRank (PR)、單源最短路徑(SSSP)和協同過濾(CF)在7個真實圖上(以edgelist格式)運行。每一種算法運行到收斂9次,並報告執行時間。

圖4:GraphABCD、GraphMat和ASIC (Graphicionado)的執行時間和吞吐量

實驗結果表明,在單源最短路徑、PageRank、協同濾波等重要圖算法上,新型計算框架GraphABCD 相比現行主流圖計算框架GraphMat,收斂速度提高了4.8倍,執行時間提升了2倍。

相關焦點

  • 清華魏少軍團隊最新晶片報告:原創框架性能提升4.8倍,入選頂會ISCA 2020
    清華大學魏少軍、劉雷波教授團隊發表了題為《GraphABCD:通過分塊坐標下降擴展圖分析》的學術報告。該方法充分利用了可重構陣列的空間並行性,給出了一個優化圖計算框架性能的全新視角,相比傳統方法具有顯著優勢。 實驗結果表明,在單源最短路徑、PageRank、協同濾波等重要圖算法上,新型計算框架GraphABCD 相比現行主流圖計算框架GraphMat,收斂速度提高了4.8倍,執行時間提升了2倍。
  • 入選ISCA 2020,清華大學魏少軍、劉雷波團隊提出面向可重構晶片的...
    清華大學魏少軍、劉雷波教授團隊作了題為「GraphABCD: Scaling Out Graph Analytics with Asynchronous Block Coordinate Descent 」的學術報告。報告人楊軼凡是論文第一作者。該報告介紹了一種在可重構架構下將圖計算問題轉化為最優化問題,並利用分塊坐標下降算法優化圖計算框架的方法。
  • 清華大學軟體定義晶片團隊兩篇論文入選頂會MICRO 2020
    作為計算機體系結構四大頂級會議,清華大學魏少軍、劉雷波團隊有兩篇入選該會議論文。 △清華微電子所博士生陳迪貝同學報告論文的主要工作 三態內容尋址存儲器(TCAM)憑藉其不錯的匹配性能,廣泛應用於現代交換機和路由器的高速包分類
  • 提氣!阿里平頭哥三篇論文入選 ISCA
    作者 | 馬超責編 | 胡巍巍出品 | CSDN(CSDNnew)近日計算機體系結構方面的頂級學術會議ISCA2020公布了論文入選結果(http://iscaconf.org/isca2020),阿里平頭哥半導體公司有三篇論文入選,創下國內晶片公司的記錄。
  • 中國晶片企業新紀錄:阿里平頭哥三篇論文入選國際頂級會議ISCA2020
    今天,計算機體系結構頂會ISCA 2020公布了論文入選結果,平頭哥三篇論文入選,創國內晶片企業紀錄。據悉,平頭哥入選的三篇論文分別展示了平頭哥半導體在玄鐵910處理器、計算存儲一體化及AI硬體基準測試等方面的研究成果。ISCA是計算機體系結構領域最權威的會議之一,包括谷歌、英特爾、英偉達等企業在ISCA上發表的多項研究成果都已在半導體行業廣泛應用。
  • 創國內晶片企業紀錄?平頭哥三篇論文入選ISCA 2020
    集微網消息,據環球網報導,3月25日,計算機體系結構頂會ISCA 2020公布了論文入選結果,平頭哥三篇論文入選,創國內晶片企業紀錄。據悉,此次平頭哥入選的三篇論文分別展示了平頭哥半導體在玄鐵910處理器、計算存儲一體化及AI硬體基準測試等方面的研究成果。
  • 雲知聲- CMU 合作論文入選全球 AI 頂會 NeurIPS 2020
    近日,神經信息處理系統大會 NeurIPS 2020(Conference and Workshop on Neural Information Processing Systems)於線上舉行。
  • 阿里平頭哥三篇論文入選ISCA2020;官方公布華為P40圓角曲率輪廓…
    打開APP 阿里平頭哥三篇論文入選ISCA2020;官方公布華為P40圓角曲率輪廓… Norris 發表於 2020-03-26 09:07:14
  • 清華Thinker團隊提出AI計算晶片存儲優化新方法 | ISCA 2018中國唯一一作論文
    清華大學微納電子系博士生塗鋒斌在大會上做了題為《RANA:基於刷新優化嵌入式 DRAM 的神經網絡加速框架》(RANA: Towards Efficient Neural Acceleration with Refresh-Optimized Embedded DRAM)的口頭報告。該研究成果大幅提升了人工智慧(AI)計算晶片的能量效率。
  • PyTorch稱霸頂會:CVPR論文佔比是TensorFlow 4 倍
    機器之心報導參與:杜偉在開源框架領域,PyTorch 與 TensorFlow 之爭一直存在,研究人員在寫論文時也會有不同的偏向。這兩年,我們從各類自然語言處理(NLP)、計算機視覺(CV)國際學術頂會接收論文中使用 PyTorch 和 TensorFlow 的佔比情況,就可以發現這種趨勢 。
  • 雲知聲原創技術獲肯定:多篇論文被國際語音頂會 INTERSPEECH 2020...
    -10-23/11:31 近日,全球語音頂會INTERSPEECH 2020 公布了論文接收結果,雲知聲聯合上海師範大學、安徽大學等高校發表多篇論文成功入選。
  • 華為雲最新力作入選AAAI 2021:揭秘個性化聯邦學習框架
    華為雲論文研究成果,揭秘首創自分組個性化聯邦學習框架。該框架可以有效地處理普遍存在的數據分布不一致問題,並大幅度提高聯邦學習性能。人工智慧頂級會議 AAAI 2021 將於 2021 年 2 月 2 日 - 9 日線上召開,華為雲 AI 最新聯邦學習成果《Personalized Cross-Silo Federated Learning on Non-IID Data》成功入選。這篇論文首創自分組個性化聯邦學習框架。
  • 2020,國產AI開源框架「亮劍」TensorFlow、PyTorch
    2020年,CSDN將對1000+人物進行訪談,形成系列,從而勾勒出AI生態最具影響力人物圖譜及AI產業全景圖。本文為 「AI技術生態論」系列訪談第05期。百萬人學AI你也有份!參與文章評論,評論區留言入選,可獲得價值299元的「2020 AI開發者萬人大會」在線直播門票一張。
  • 清華團隊的新型融合AI晶片「天機」登上Nature封面
    其實,這是清華大學施路平教授團隊為驗證全球首款異構融合AI晶片設計的系統。該研究登上了頂級學術期刊《自然》(Nature)8月刊的封面,封面標題為《雙重控制》(Dual control)。天機晶片異構融合計算架構清華研究團隊的解決方案是,建了一個跨範式的神經元方案,又設計了一個統一的功能核(FCore),這也是一項重要的創新,FCore的每個功能核包括軸突、突觸、樹突
  • 清華天機晶片登上《自然》封面
    傳統晶片均基於馮諾依曼架構,清華天機則是一種類似人類大腦機制的非傳統結構,類似Intel正在研究的神經擬態晶片Loihi。其實早在2015年,清華團隊就完成了第一代「天機」晶片,2017年進化為第二代,速度更快,性能更高,功耗更低,相比於當前世界先進的IBM TrueNorth,也具備功能更全、靈活性、擴展更好的優點,密度高出20%,速度高出至少10倍,帶寬高出至少100倍。
  • 斬獲ISCA 2018中國唯一一作論文,清華大學Thinker團隊提出AI計算...
    清華大學微納電子系博士生塗鋒斌在大會上做了題為《RANA:基於刷新優化嵌入式 DRAM 的神經網絡加速框架》(RANA: Towards Efficient Neural Acceleration with Refresh-Optimized Embedded DRAM)的口頭報告。該研究成果大幅提升了人工智慧(AI)計算晶片的能量效率。
  • 廣西理科探花、清華電子系學霸、阿里AI晶片帶頭大哥、新...
    此次ACM Fellow有他,上月AAAS Fellow有他,稍早之前阿里平頭哥首款AI晶片交貨,背後研發更離不開他——達摩院計算技術團隊的頭號擔當。  而且在回顧清華電子系知名校友和廣西少年天才時,依然繞不過他。  所以謝源究竟是誰?
  • BAIR最新RL算法超越谷歌Dreamer,性能提升2.8倍
    在 DeepMind Control Suite 和 Atari Games 中的複雜任務上,CURL 優於以前的 pixel-based 的方法(包括 model-based 和 model-free),在 100K 交互步驟基準測試中,其性能分別提高了 2.8 倍以及 1.6 倍。
  • 獨家| 計算機體系結構頂級會議ISCA,2017圖靈獎得主展望黃金時代
    曾經 1980 年代時 C 編譯器和 RISC 架構的編譯器-微架構協同設計帶來了三倍的性能提升,新的黃金時代裡的新的技術進展將有可能帶來新的編譯器和新的領域專用計算架構,十倍甚至更多的性能提升都不是夢想。增強的安全性過去的 40 年裡信息技術的發展日新月異,但信息安全的戰役中我們正節節敗退。
  • 京東深耕語音技術研究 4篇論文入選國際語音頂會INTERSPEECH 2020
    備受全球關注的第21屆國際語音通訊會議INTERSPEECH2020在上海召開。作為國際語音通訊協會(International Speech Communication Association,ISCA)主辦的頂級國際會議,INTERSPEECH是國際公認的語音領域兩大頂會之一。此次會議共接收有效論文投稿2140篇,錄取1022篇,覆蓋語音、信號處理、口語語言處理等多個方面。