清微智能歐陽鵬:可重構架構提升神經網絡處理能效

2020-12-20 智芯集

6月4日至5日,2019 AI Hardware Summit(人工智慧硬體峰會)在北京舉行,阿里巴巴、百度、華為、SambaNova Systems、Graphcore等國內外創新企業攜手亮相。人工智慧硬體峰會是國際上第一個也是唯一一個專門探討開發用於神經網絡與計算機視覺的硬體加速器這一生態系統的行業峰會。清微智能CTO歐陽鵬受邀出席並發表《Embedding AI in Every Thing: Reconfigurable Architecture for Energy Efficient Neural Network Processing》主題演講。

以下是演講記錄,發布時經刪減編輯。

AI晶片市場將迎來爆發

人工智慧向各領域的滲透,讓AI晶片市場迎來飛躍發展,Tractica預測,AI市場的演變將推動深度學習晶片組的出貨量從2018年的1.649億增長到2025年的29億單位以上。屆時,深度學習晶片組的全球市場將達到663億美元。

到2025年,專用集成電路(ASIC)將佔總收入的最大份額,其次是圖形處理單元(GPU)、中央處理器(CPU)、系統級晶片(SoC)加速器和現場可編程門陣列(FPGA)。在2023年左右,基於專用電路架構的AI晶片需求量,就將會超過採用CPU/GPU架構實現AI晶片的需求量。

AI晶片的廣泛應用,對算力提升的要求日益迫切,工藝的提升和架構的改變能帶來晶片性能的提升,但摩爾定律已漸漸失效,架構創新是新的方向。

可重構計算支持高效、靈活的晶片設計

雲端和終端對晶片都有不同的需求,CPU、GPU在雲端要執行不同的任務。在終端,手機、耳機、音箱都需要做不同的事情,需要在即高效又靈活的晶片設計。

傳統人工智慧晶片,主要基於CPU/DSP/GPU/NPU架構, 這些架構本質屬於指令驅動的計算模式。在具體計算過程中,需要從指令存儲器中加載指令並解析指令,然後指導執行單元進行計算。在每次的數據計算中,這樣的過程都不可避免,因此這是一種靈活但是低效的時域計算模式。

ASIC方式固化電路結構,數據驅動下執行,計算效率非常高,但是沒有靈活性。應用任務變化時,電路結構無法改變,無法執行新算法。

FPGA計算架構基於查找表方式進行細粒度執行,屬於硬體可編程,非常靈活。然而,大量細粒度LUT(Look-Up-Table)使得內部連線複雜。LUT和互聯線,會使得能耗增加,關鍵路徑變長,同時,軟體編譯和用戶開發變得困難。

要解決上述問題,我們需要考慮AI晶片的本質需求到底是什麼?

主流神經網絡算法具有混合數據精度表示的特點,即不同的神經網絡層可用不同數據位寬來表達中間數據或者權重數據的精度,無法高效支持混合精度計算,或者只能通過擴展資源方式支持少數幾種精度。

另外一方面,人工智慧算法,除了神經網絡中卷積層,全連接層等邏輯,還有非神經網絡計算邏輯。傳統AI晶片架構,強調了神經網絡邏輯的計算效率,卻忽視了非神經網絡邏輯的計算效率。針對非神經網絡邏輯,一般仍然採用CPU或者DSP進行處理,或者採用ASIC進行固化,計算效率或者靈活性會打折扣。

CGRA計算架構通過空域硬體結構組織不同粒度和不同功能的計算資源,通過硬體的運行時配置,調整硬體功能,根據數據流的特點,讓功能配置好的硬體資源互連形成相對固定的計算通路,從而以接近「專用電路」的方式進行數據驅動下的計算。當算法和應用變換時,再次通過配置,使硬體重構為不同的計算通路去執行。CGRA最大的優勢體現在兩方面,一是沒有傳統指令驅動的計算架構中取指和解碼操作的延時和能耗開銷,二是在計算過程中以接近「專用電路」的方式執行。此外,CGRA架構算力可以彈性擴展,適用於從雲端到邊緣端中對高能效和靈活性有綜合要求的場景。

低功耗語音晶片TX210

基於十多年的技術積累,清微自成立以來快速地在今年量產了語音晶片TX210,該晶片採用TSMC40ULP工藝,支持WLCSP和QFN兩種產品封裝。

晶片採用多級功耗喚醒模式,極大的降低了晶片的功耗,工作功耗mW級,VAD功耗僅uW級。

TX210晶片可編程可重構,結構上有著極強的靈活性,支持多比特DNN神經網絡,可以支持1-16bit位寬的神經網絡計算,也支持FFT/MEL FILTER等。

TX210還有一個顯著特點就是用極小的晶片面積支持豐富的接口和電源管理。TX210的WLCSP封裝面積僅有2.3X1.9mm2,適用於手機,藍牙耳機等對體積要求苛刻的應用場景。採用算法+晶片的協同設計優化,TX210在典型信噪比下,喚醒識別率95%,誤識別率小於24小時一次。

關於清微智能

清微智能是可重構智能晶片領導企業。核心技術團隊來自清華大學微電所,這支兼具晶片、軟體、算法和系統能力的業界頂級研發團隊,從事晶片研發13年,是前沿晶片架構可重構技術的提出者和實踐者。團隊2014年獲得教育部技術發明一等獎,2015年獲得國家技術發明二等獎和中國專利金獎,2017 ACM/IEEE ISLPED會議獲得設計競賽獎,2019年,DAC低功耗目標檢測系統設計挑戰賽獎。

相關焦點

  • 清華可重構技術再下一城!對話清微智能CEO,視覺晶片月出貨數十萬顆
    基於可重構技術的Thinker系列晶片設計方案一問世,便立即收穫國際學術界的認可。比如Thinker-I首次出現在2017 VLSI國際研討會上時,外界評價它「突破了神經網絡計算和訪存瓶頸,實現了高能效多模態混合神經網絡計算。」
  • 5款晶片已經面世,可重構架構是AI晶片的新風潮?
    陣列結構:如何提高計算能效?算法映射:如何優化映射效率?可重構技術的優勢和挑戰都同樣顯著,採用這個技術,清微智能、耐能、雲天勵飛、燧原科技、WaveComputing相繼推出了AI晶片,他們有何不同?在具體實現過程中,可重構模式動態重組計算資源和帶寬,根據精度表示,讓計算資源和帶寬接近滿負荷進行計算,從而將混合精度網絡下的計算資源和帶寬的利用率逼近極限,高效支持多種混合精度的神經網絡。另外,清微的AI晶片針對神經網絡部分和非神經網絡均進行了計算效率考慮。針對非神經網絡處理邏輯,從算法數據流圖進行空間映射,以接近ASIC效率計算。
  • 專訪清微智能尹首一:理想的計算應該是架構隨著軟體變
    2018年第三季度,清華系AI晶片初創公司清微智能完成近億元天使輪融資,成為知名科研團隊產品走向商業化的代表之一,其AI晶片產品採用了可重構架構來提升AI晶片的能效比和可編程性。清微智能的核心技術源於清華大學微電子所魏少軍教授領導的可重構計算團隊,其在新型計算架構領域耕耘多年,Thinker系列AI晶片在國內外具有廣泛影響。核心團隊成員來自清華大學和NVIDIA、SONY、高通等公司,在半導體行業具備多年經驗。面對競爭激烈的AI市場,清微智能的產品怎樣才能快速獲得市場認可?
  • 清微智能產品工程VP李秀東:可重構計算可以解決靈活性與算力兩大問題
    峰會上,清微智能產品工程VP李秀東,以《可重構計算賦能AIOT》為主題分享了自己的觀點。人工智慧時代發展日新月異,並且不斷在向APP端延伸,對能耗能效比要求日益增高。李秀東總結,智能晶片主要有三大特點:第一,具備靈活性和可編程性;第二,既能處理AI神經網絡,又能處理傳統的AI計算;第三,具備高算力。
  • Live回顧|清微智能科技CTO:可重構計算晶片的技術原理及實現難點
    以下為清微智能CTO歐陽鵬的部分直播分享實錄,【AI投研邦】在不改變原意的基礎上做了整理和精編。完整分享內容請關注【AI投研邦】會員內容。大家好!非常開心能夠來到這裡受雷鋒網的邀請,然後來給大家做一個技術的講座。我是清微智能CTO歐歐陽鵬。
  • 36氪首發 | 可重構計算助力AI晶片,「清微智能」獲近億元級天使輪...
    隨著智能物聯時代到來,AI計算從雲走向邊緣節點,即IoT終端和傳感器上,因此對低延時、低功耗、高隱私性的訴求日益提升。在智能物聯場景下,IoT設備對於AI晶片的能耗有著嚴格約束。為了在設備功耗約束下實現高能效AI計算能力,廠商一般會從算法、計算架構兩個維度切入。清微智能就是通過可重構架構來提升AI晶片的能效比,在保證AI計算效率和精度前提下降低功耗。
  • 深度神經網絡降噪取得重大突破 清微智能受邀參加國際語音旗艦會議
    近日,由清華大學和清微智能技術團隊合作的論文PAGAN:A Phase-Adapted Generative Adversarial Networks for Speech Enhancement(PAGAN:一種用於語音增強的自適應生成對抗網絡)被第45屆國際聲學、語音與信號處理會議
  • 復盤2019:清微智能這一年……
    TX 510發布9月25日,杭州、雲棲大會,全球首款可重構超低功耗多模態智能計算晶片——TX510正式在此發布。以可重構計算架構為基礎,TX510實現高算力、低功耗的超強能效比,同時支持視覺、語音等多模態智能處理。
  • 清華大學博士生塗鋒斌:設計神經網絡硬體架構時,我們在思考些什麼...
    神經網絡作為實現人工智慧任務的有效算法之一,已經在各種應用場景獲得廣泛的應用。從雲端到移動端,不同應用場景也對神經網絡的計算能力提出了不同的需求。神經網絡的廣泛應用離不開核心計算晶片。目前的主流通用計算平臺包括 CPU 和 GPU,存在著能效較低的問題(能效即能量效率,是性能與功耗的比值)。為了獲得更高的能效,我們需要設計一種專用的神經網絡計算晶片來滿足要求。
  • 清微智能聯合創始人&產品工程VP李秀東確認出席NFS2020年度CEO峰會...
    【獵雲網北京】11月28日報導可重構計算(Coarse-grained Reconfigurable Architecture CGRA)是一種全新的晶片架構技術,可根據算法和應用的不同靈活配置硬體資源,執行不同的任務
  • 共話智能門鎖新趨勢,2019 智能門鎖標準與生態落地峰會順利召開
    目前智能門鎖滲透率低、智能門鎖標準重點在機械安全和功能安全,安全技術有待提升,安全問題有待解決。在此背景上,全國智標委發布了《建築及居住區數位化技術應用智能門鎖安全技術》導則,規定了智能門鎖的系統架構、智能門鎖終端安全、智能鑰匙安全、雲服務平臺安全、客戶端安全、通用安全、智能門鎖安全等級方法。
  • 清微智能1周年慶:我們距離百年老店還有99年
    2018年7月,清微在北京中關村成立,如今,清微1歲了。我們為清微慶生,更是在為自己這一年的付出欣喜和驕傲。心「清」志確 積「微」成著,贏未來!懸掛在會場大講臺正上方的清微周年慶主題,是寫照,更是鞭策。
  • IBM的8位浮點精度深度神經網絡模型解析
    本文引用地址:http://www.eepw.com.cn/article/201901/396743.htm  IBM的研究人員聲稱,他們已開發出一個更加高效的模型用於處理神經網絡,該模型只需使用8位浮點精度進行訓練,推理(inferencing)時更是僅需4位浮點精度。
  • 動態可重構系統的通信結構研究
    XPP(eXtreme Processing Platform) 結構: PACT公司提出的一種粗粒度實時動態可重構的數據處理技術,其中心思想是用配置流替代指令流,支持並行任務。XPP對處理大量流數據的應用效率很高,適用於無線基站、圖像、視頻流處理、雷達聲納、生物信息、過程仿真和加密等領域。
  • 機器學習必知的8大神經網絡架構和原理
    什麼是神經網絡?神經網絡是一種通用機器學習模型,是一套特定的算法集,在機器學習領域掀起了一場變革,本身就是普通函數的逼近,可以應用到任何機器學習輸入到輸出的複雜映射問題。一般來說,神經網絡架構可分為3類:前饋神經網絡:是最常見的類型,第一層為輸入,最後一層為輸出。
  • 人工智慧晶片魚和熊掌終極難題 被清華大學IC男神解決了!
    舉個例子,華為Mate 10裡的麒麟970晶片用於手機的性能非常強大,但是它並不適用於安防攝像頭、可穿戴手環等場景;同理,一個CPU能夠靈活地處理眾多不同任務,但是它在某些特定任務上往往性能不夠強大,比如在深度神經網絡訓練上的性能不如GPU。