6月4日至5日,2019 AI Hardware Summit(人工智慧硬體峰會)在北京舉行,阿里巴巴、百度、華為、SambaNova Systems、Graphcore等國內外創新企業攜手亮相。人工智慧硬體峰會是國際上第一個也是唯一一個專門探討開發用於神經網絡與計算機視覺的硬體加速器這一生態系統的行業峰會。清微智能CTO歐陽鵬受邀出席並發表《Embedding AI in Every Thing: Reconfigurable Architecture for Energy Efficient Neural Network Processing》主題演講。
以下是演講記錄,發布時經刪減編輯。
AI晶片市場將迎來爆發
人工智慧向各領域的滲透,讓AI晶片市場迎來飛躍發展,Tractica預測,AI市場的演變將推動深度學習晶片組的出貨量從2018年的1.649億增長到2025年的29億單位以上。屆時,深度學習晶片組的全球市場將達到663億美元。
到2025年,專用集成電路(ASIC)將佔總收入的最大份額,其次是圖形處理單元(GPU)、中央處理器(CPU)、系統級晶片(SoC)加速器和現場可編程門陣列(FPGA)。在2023年左右,基於專用電路架構的AI晶片需求量,就將會超過採用CPU/GPU架構實現AI晶片的需求量。
AI晶片的廣泛應用,對算力提升的要求日益迫切,工藝的提升和架構的改變能帶來晶片性能的提升,但摩爾定律已漸漸失效,架構創新是新的方向。
可重構計算支持高效、靈活的晶片設計
雲端和終端對晶片都有不同的需求,CPU、GPU在雲端要執行不同的任務。在終端,手機、耳機、音箱都需要做不同的事情,需要在即高效又靈活的晶片設計。
傳統人工智慧晶片,主要基於CPU/DSP/GPU/NPU架構, 這些架構本質屬於指令驅動的計算模式。在具體計算過程中,需要從指令存儲器中加載指令並解析指令,然後指導執行單元進行計算。在每次的數據計算中,這樣的過程都不可避免,因此這是一種靈活但是低效的時域計算模式。
ASIC方式固化電路結構,數據驅動下執行,計算效率非常高,但是沒有靈活性。應用任務變化時,電路結構無法改變,無法執行新算法。
FPGA計算架構基於查找表方式進行細粒度執行,屬於硬體可編程,非常靈活。然而,大量細粒度LUT(Look-Up-Table)使得內部連線複雜。LUT和互聯線,會使得能耗增加,關鍵路徑變長,同時,軟體編譯和用戶開發變得困難。
要解決上述問題,我們需要考慮AI晶片的本質需求到底是什麼?
主流神經網絡算法具有混合數據精度表示的特點,即不同的神經網絡層可用不同數據位寬來表達中間數據或者權重數據的精度,無法高效支持混合精度計算,或者只能通過擴展資源方式支持少數幾種精度。
另外一方面,人工智慧算法,除了神經網絡中卷積層,全連接層等邏輯,還有非神經網絡計算邏輯。傳統AI晶片架構,強調了神經網絡邏輯的計算效率,卻忽視了非神經網絡邏輯的計算效率。針對非神經網絡邏輯,一般仍然採用CPU或者DSP進行處理,或者採用ASIC進行固化,計算效率或者靈活性會打折扣。
CGRA計算架構通過空域硬體結構組織不同粒度和不同功能的計算資源,通過硬體的運行時配置,調整硬體功能,根據數據流的特點,讓功能配置好的硬體資源互連形成相對固定的計算通路,從而以接近「專用電路」的方式進行數據驅動下的計算。當算法和應用變換時,再次通過配置,使硬體重構為不同的計算通路去執行。CGRA最大的優勢體現在兩方面,一是沒有傳統指令驅動的計算架構中取指和解碼操作的延時和能耗開銷,二是在計算過程中以接近「專用電路」的方式執行。此外,CGRA架構算力可以彈性擴展,適用於從雲端到邊緣端中對高能效和靈活性有綜合要求的場景。
低功耗語音晶片TX210
基於十多年的技術積累,清微自成立以來快速地在今年量產了語音晶片TX210,該晶片採用TSMC40ULP工藝,支持WLCSP和QFN兩種產品封裝。
晶片採用多級功耗喚醒模式,極大的降低了晶片的功耗,工作功耗mW級,VAD功耗僅uW級。
TX210晶片可編程可重構,結構上有著極強的靈活性,支持多比特DNN神經網絡,可以支持1-16bit位寬的神經網絡計算,也支持FFT/MEL FILTER等。
TX210還有一個顯著特點就是用極小的晶片面積支持豐富的接口和電源管理。TX210的WLCSP封裝面積僅有2.3X1.9mm2,適用於手機,藍牙耳機等對體積要求苛刻的應用場景。採用算法+晶片的協同設計優化,TX210在典型信噪比下,喚醒識別率95%,誤識別率小於24小時一次。
關於清微智能
清微智能是可重構智能晶片領導企業。核心技術團隊來自清華大學微電所,這支兼具晶片、軟體、算法和系統能力的業界頂級研發團隊,從事晶片研發13年,是前沿晶片架構可重構技術的提出者和實踐者。團隊2014年獲得教育部技術發明一等獎,2015年獲得國家技術發明二等獎和中國專利金獎,2017 ACM/IEEE ISLPED會議獲得設計競賽獎,2019年,DAC低功耗目標檢測系統設計挑戰賽獎。