編輯 | 心緣
GTIC 2020全球AI晶片創新峰會剛剛在北京圓滿收官!在這場全天座無虛席、全網直播觀看人數逾150萬次的高規格AI晶片產業峰會上,19位產學界重磅嘉賓從不同維度分享了對中國AI晶片自主創新和應用落地的觀察與預判。
清華大學微納電子系副主任、微電子所副所長尹首一教授首登GTIC,圍繞《中國AI晶片的創新之路》主題,深入淺出地探討了AI晶片在中國的進展,並對AI晶片產業的關鍵技術與創新機會進行了系統的梳理與預判。
▲清華大學微納電子系副主任、微電子所副所長尹首一教授
在演講期間,尹首一教授重點為大家梳理了當前AI晶片的技術路線分類,分別介紹了指令集架構處理器、數據流處理器、存內計算處理器、可重構處理器、脈衝神經網絡處理器及神經形態器件等AI晶片的不同研究方向,並對AI晶片進行了階段性回顧和展望。
他總結道,目前AI晶片仍處起步階段,在科學研究和產業應用方面具有廣闊的創新空間,而中國AI晶片產業創新正與國際同步,未來大有可為。
以下為尹首一教授演講實錄整理:
一、2025年全球AI晶片市場規模將達700億美元
AI晶片產業發展至今已有五六個年頭,現在進入攻堅階段。大家已經達成這樣一個共識,人類社會正從信息化邁向智能化,人工智慧(AI)成為實現智能化的一個關鍵手段,而在這其中,晶片是核心基石和戰略制高點。
耳熟能詳的AlphaGo、自動駕駛,手機上的人臉解鎖、智能拍照,無線耳機的人機互動……都離不開AI晶片的支撐。
在推動智能化發展方面,AI晶片有兩個最核心的作用:一是晶片的「絕對算力」是決定智能化所能達到的最高水平的關鍵因素之一;二是「計算能效」是決定智能化應用範圍的關鍵因素之一。
從「絕對算力」來看,今年OpenAI推出的GPT-3非常火,成為今年自然語言處理中最強大的模型,這個模型有1700億個參數,使用了一萬張GPU卡進行訓練。沒有這樣強大的算力,GPT-3無法達到目前的智能化水平,可以說「絕對算力」決定了今天智能化的水平。
晶片算力的發展速度與人工智慧算法對算力的需求增長之間存在巨大的差距,通用處理器平均每兩年性能翻一番,而算法模型對算力的需求大概每3.4個月就翻一番,這是AI晶片需要解決的問題。
從「計算能效」來看,今天有非常多的應用領域面臨迫切的智能化需求,人工智慧技術正從雲端向邊緣和物聯網設備快速滲透。然而人工智慧技術能否實用化,受限於軟硬體系統的計算能效。比如,語音識別顛覆了傳統的人機互動接口,如果沒有低功耗高能效的AI晶片,在智能耳機等便攜穿戴設備上就無法實現令人滿意的用戶體驗。
伴隨著人工智慧產業的快速發展,AI晶片展現出巨大的發展潛力。據第三方機構預測,全球AI市場規模到2025年將達到6.4萬億美元,其中全球AI晶片市場規模預計在2025年將達到700億美金,今年中國AI晶片市場規模已超過75億人民幣,未來有非常強勁的增長潛力。
二、兩大維度整體梳理AI晶片分類
大家經常問:「AI晶片用在哪裡?」、「AI晶片屬於什麼類別的產品?」在峰會現場,尹首一教授從應用場景和技術路線兩個維度,概述了AI晶片尤其是中國AI晶片的發展全貌。
他認為,中國的AI晶片發展起步和國際產業基本同步。據不完全統計,今天中國在做AI晶片的企業超過100家,從地域劃分來看,北京、上海、長三角、珠三角是最為活躍的區域。
從應用場景的角度做劃分,AI晶片可以分成雲端、邊緣端兩類。
雲端可以進一步細分成推理應用和訓練應用。推理應用是大家每天都在網際網路服務中能感受到的,比如搜尋引擎中的自然語言翻譯、電商網站的用戶推薦系統、很多地方在建的城市大腦等;而訓練應用是今天所有人工智慧系統開發的基礎。
邊緣側的應用場景非常繁多,比如智慧型手機、智能音箱、安防監控、智能駕駛、無人系統等,在這些終端設備上都是推理應用。
今天AI晶片成長非常速度,從2017年到2022年,不同應用領域的AI晶片的複合增長率都在50%左右。綜合來看,五年間以55%的年均複合增長率快速發展。
從技術路線的角度,今天的AI晶片可以分成兩大類。
一類是深度神經網絡處理器,對今天深度學習的核心基礎——深度神經網絡——進行計算加速。
另一類是神經形態處理器,通過對人腦結構的研究,設計電路或器件來複製或模仿人腦機理,實現智能處理能力。
三、實現深度神經網絡處理器的四類典型架構
深度神經網絡處理器,從計算架構的角度可分成四種不同的類型:(1)指令集處理器(2)數據流處理器(3)存內計算處理器(4)可重構處理器。
無論哪種技術路線,最終目標都是實現對深度神經網絡的計算加速。
首先來看一下指令集架構AI處理器。
指令集架構AI處理器可以定義為一類使用專門為神經網絡運算而設計的指令集的處理器。
說到指令集,大家熟悉的CPU是最典型的指令集處理器的例子,採用一套預定義的定長或者變長的指令作為數據處理的基本單元,通過對這些指令的組合構成指令流,由指令流來驅動處理器完成複雜計算任務。
通過對神經網絡計算特徵的抽象,構造出神經網絡專用指令集,設計硬體架構高效執行這些指令,就實現了專用的AI處理器。
尹首一教授通過寒武紀的例子進一步解釋了神經網絡專用指令集和處理器架構。上圖是寒武紀公開發表的DianNao架構結構示意圖,其中典型的計算部件有三個NFU(神經功能單元),分別是並行乘法器、加法樹、激活函數三類單元,另外還有三個不同的存儲單元,分別存儲著輸入特徵數據、模型權重、輸出數據。
寒武紀DianNao架構的運行受到CP控制器的控制,神經網絡指令集中有存儲指令LOAD、READ、WRITE等、運算指令MULT、ADD等。典型的神經網絡被表達為通過這些指令組合構成的指令流,從而驅動處理器完成計算。
第二類是數據流AI處理器,這是一種計算行為由數據調度決定的數據流驅動的張量處理架構,其特點是優化數據復用和計算並行度。
在典型的數據流處理器中,神經網絡張量會被劃分成不同的tile,每個tile內的計算被映射到一個處理單元(PE)陣列中。典型的數據流包括兩種:一種稱為權重穩定數據流,一種稱為輸出穩定數據流,分別對應著充分復用權重數據、充分復用輸出數據,通過不同數據流提高數據復用、減少緩存,提高計算並行度,從而最終提高晶片的處理能力和處理能效。
第三類存內計算處理器,如今吸引了很多研究機構、創業公司及投資機構的興趣。
什麼是存內計算?邏輯電路或處理單元被放置到存儲器內部,使數據更接近處理單元;或者直接在存儲電路中執行計算,而無需進行數據傳輸,這就是我們今天所說的存內計算概念。
它能解決什麼問題?在傳統計算架構中,處理單元和存儲器是分離的結構,每次計算都要在處理單元和存儲器之間進行一定的數據搬移。而存內計算架構,不需要在存儲器和計算單元間大量搬移數據,解決了今天傳統計算架構面臨的「存儲牆」問題。
存內計算根據採用存儲器類型的不同,可以分成不同的技術路線,包括:阻變存儲器(RRAM)、快閃記憶體(Flash)、靜態隨機存儲器(SRAM)等。
RRAM和Flash屬於非易失存儲。以RRAM為例,每個存儲單元裡面的電阻值通過電流來調節,每個單元可以調節多種阻值,典型憶阻器結構是交叉開關形式。
AI算法中大量存在的是矩陣和張量計算,在RRAM中,將神經網絡權重以電導的形式寫到cross-point上,再把輸入值以電壓形式輸入到存儲器的字線上,當電壓施加到電阻上,就有電流流過,這些電流在位線上自然地被累加起來。這就形成了在矩陣和張量計算中的乘法累加過程,把數學上的矩陣和張量計算轉化成了物理上的基爾霍夫定律和歐姆定律表達的電壓和電流的關係,用物理方式完成了數學計算。
這也就是今天存內計算最吸引人的地方,我們不再採用傳統的數字計算部件,而是採用模擬、物理的方式去實現計算。
除了前面提到的RRAM、Flash非易失存儲以外,晶片中用到最多的是SRAM,有製造上的優勢。SRAM中也能夠通過模擬方式實現矩陣/張量計算,免除了數據搬移,降低了計算功耗、提高了計算能效。
第四類是可重構AI處理器。用簡單的詞來概括可重構架構的特點,可以說它是一種空間陣列,計算單元在空間排成一個陣列結構,具有計算並行性;它也是近存計算,每個計算單元附近有存儲單元,這樣減少了數據搬移的距離;另外,它還具有彈性粒度的計算單元,通過電路重構支持多種數據位寬;隨著算法需求變化,動態重構計算架構,靈活支持多種數據流,由數據驅動完成計算。
可重構AI處理器在運算部件、處理單元、片上互連、計算陣列等方面實現了分層次架構重構,各個層次在運算中協同配合,實現了多元編程機制,這樣的架構克服了傳統計算架構中數據位寬固定或者數據流固定的缺點,提升了AI計算的算力和能效。
例如,今天的神經網絡中有一個典型需求是多數據位寬量化,一個神經網絡中不同神經層可被量化成不同的數據位寬,可重構AI處理器的多尺度編程能力與之配合,可以顯著減小模型體積、提高計算速度和能效。
四、解讀神經形態處理器的兩大研究路徑
接著,尹首一教授講解了AI晶片的另一大技術路線——神經形態處理器。
從技術路線角度來看,神經形態處理器可以被細分為兩類:一是脈衝神經網絡處理器,二是神經形態器件。
脈衝神經網絡從數學上模擬了大腦神經網絡中的脈衝放電機制,是對人腦神經網絡的一種抽象。把脈衝神經網絡的典型數學模型,通過電路方式實現出來,晶片在運行中就能模仿人腦計算的特點,即實現了一定程度的類腦計算。
例如,清華大學的天機(Tianjic)晶片,通過優化電路設計,不僅支持脈衝神經網絡,而且同時支持深度神經網絡,實現了深度神經網絡和脈衝神經網絡的「二合一」。此前大家看過一段演示視頻,通過天機晶片控制實現了自行車的自動駕駛,展現了脈衝神經網絡的智能處理能力。
神經形態器件,則是設計一種物理器件,在物理上模擬神經元的行為。
應用離子動力學可以逼真地模擬生物突觸的可塑性以及神經元工作機制,通過物理方式實現能夠模擬神經元放電過程的器件。假如我們把大量的模擬人類神經元行為的器件互連起來,就有機會製造一個非常接近於人腦神經網絡的系統,有望實現類腦智能。
這裡的代表性工作是中科院微電子所和麻省大學的合作成果,設計製備出了一種新型器件結構,當施加電脈衝以後,它的響應曲線和人腦神經元受到刺激後的響應曲線非常接近。大量的器件連起來,就能構造出類似人腦的神經網絡系統。這就是通過神經形態器件的方式去實現人工智慧計算的技術路線。
五、中國AI晶片產業創新正與國際同步
在演講尾聲,尹首一教授對AI晶片發展做了階段性回顧和總結。
首先,經過五六年的發展,AI晶片已經取得非常大的成績,但它仍然處於起步階段,無論在科學研究還是產業應用方面,都具有非常廣闊的創新空間。
其次,人工智慧從算法和應用角度來講,給晶片提出大量新需求,它將促使AI晶片去探索很多顛覆性的技術,徹底突破傳統架構的性能和能效瓶頸,實現跨越式發展。
最後,中國的AI晶片創新與國際同步,今天中國AI晶片的技術路線最全面、應用領域最豐富,伴隨著人工智慧產業快速發展,中國AI晶片將大有可為。
以上是尹首一教授演講內容的完整整理。除尹首一教授外,在本屆GTIC 2020 AI晶片創新峰會期間 ,比特大陸、地平線、黑芝麻智能、燧原科技、壁仞科技、光子算數、知存科技、億智電子、豪微科技等晶片創企,全球FPGA領先玩家賽靈思,Imagination、安謀中國等知名IP供應商,全球EDA巨頭Cadence,以及北極光創投、中芯聚源等知名投資機構,分別分享了對AI晶片產業的觀察與思考。如感興趣更多嘉賓演講的核心乾貨,歡迎關注芯東西後續推送內容。