智東西(公眾號:zhidxcom)
編輯 | 信儀
GTIC 2020全球AI晶片創新峰會剛剛在北京圓滿收官!在這場全天座無虛席、全網直播人數逾150萬人次的高規格AI晶片產業峰會上,19位產學界重磅嘉賓從不同維度分享了對中國AI晶片自主創新和應用落地的觀察與預判。
在峰會下午場,賽靈思人工智慧業務資深總監、前深鑑科技CEO姚頌發表了題為《AI晶片:新格局與新出路》的演講。
▲賽靈思人工智慧業務資深總監姚頌
從兩年前登臺GTIC 2018峰會至今,姚頌經歷了全球FPGA龍頭賽靈思併購深鑑科技、AMD收購賽靈思兩個大事件,此次以全新身份出席GTIC峰會的姚頌,不再作為一家創業公司的代表,因而從相對更為中立的角度輸出對AI晶片行業的看法。
在姚頌看來,目前數字AI晶片進步趨緩,顛覆式創新難,AI晶片最重要解決的是寬帶不足的問題,軟體生態才是AI晶片的核心壁壘,他認為未來AI晶片行業最終將會形成「雲端相對統一,終端相對垂直」的競爭格局。
以下為姚頌演講實錄整理:
一、 AI和晶片互相需要,算力仍有很大提升空間
姚頌認為,AI和晶片緊密相連,AI需要晶片,晶片需要AI。
從背景上來講,例如反向傳播等算法在上世紀80年代就已經出現了,現在的一些神經網絡與上世紀90年代Yann LeCun教授做的手寫數字識別幾乎沒有本質上的區別,由此可見很多算法在上世紀已經全部具備了。
直到最近幾年,行業內才感覺到AI的爆發,才感覺到晶片有這麼強的需求。2012年以後,業內在算法方面看到突破,看到深度學習能夠發揮很大的作用。
其中有一個原因在於,英偉達當時在2017年、2018年著力推進生態系統,搭了很多晶片,但晶片的性能並沒有太多實質性的增長,這令英偉達有一段時間陷入低谷中。在這個過程中,英偉達更換了一位首席科學家,最終等到了春天。
有一個很明顯的例子,2012年穀歌的吳恩達和Jeff Dean做貓臉識別項目,用了1000臺伺服器、16核CPU,同期ImageNet用更少的伺服器完成了相同的事情。至此,人們開始充分把深度學習隨著數據增長性能越來越好的特點發揮出來。
人工智慧是將算法、數據和算力結合起來才有今天,而不是單獨一點就可以推進的,因此如今人工智慧的發展要感謝各種基礎設施、網絡、存儲、計算等的進步。
另一方面,整個半導體行業的進展由新的應用驅動和引領。比如最開始的雷達,後來的大型機、小型機、Mobile,現在的AI、IoT,這些行業都有很大的新的應用需求,也因此需要做新的晶片滿足這些行業的需求,這也引領了AI晶片的出現。
2012年Learning出現一些突破,2014年曠視、商湯等公司成立,最近AI在很多領域都有突破,在人臉識別、自動駕駛等領域也有了非常多的應用,行業對晶片有了更大更新的需求,因此目前也有不少AI晶片出現。
▲AI晶片在計算能力上還有很大的進步空間
從2012年到2020年,從AlexNet到最新的ImageNet,過去8年裡,AI晶片算法效率提升了44倍,同樣實現90%的精確度,計算量只有原來的1/40,而計算性能需求卻翻了幾十萬倍甚至數百萬倍。以AlphaGo Zero舉例,該算法用了1750億個參數,有非常龐雜的神經網絡,對算力的需求還需要非常多倍數的提升。
因此當前業界對AI晶片的算力需求還有很大的提升空間,絕不僅僅是現在看到很多公司出來做AI晶片,這個事情就結束了。
二、 AI晶片最需解決的是寬帶問題
緊接著,姚頌談及對行業現狀的看法。他說,AI晶片這個詞用得特別泛,AI領域本身就特別寬泛,有一小部分才是機器學習,機器學習中的一小部分才是深度學習,深度學習天然切分為訓練和推理兩個階段,其中有數不過來的各種神經網絡。
一個AI晶片可以指代的東西有很多,因此這是一個很寬泛的概念,按稍嚴格的分類,它可以分成訓練、推理兩個階段,以及雲端、終端兩個應用場景。大家目前基本不在終端做訓練,因此終端的場景象限基本是空的。
▲AI晶片分類:根據AI的階段與應用場景
AI晶片核心解決的是什麼問題?去堆並行算力?實際並不是。
谷歌TPU第一代的論文中寫道,其晶片最開始是為了自己設計的GoogLeNet做的優化,CNN0的部分就是谷歌自己設計的Inception network,谷歌設計的峰值性能是每秒92TeraOps,而這個神經網絡能跑到86,數值非常高;但是對於谷歌不太擅長的LSTM0,其性能只有3.7,LSTM1的性能只有2.8,原因在於它整個的存儲系統的帶寬其實不足以支撐跑這樣的應用,因而造成了極大的算力浪費。
▲AI晶片最重要解決的是帶寬不足的問題
AI晶片最重要解決的問題核心是帶寬不足的問題,其中一種最粗暴且奢侈的方式就是用大量的片上SRAM(靜態隨機存取存儲器),比如原來寒武紀用36MB DRAM做DianNao,深鑑科技曾用10.13MB SRAM做EIE,TPU採用過28MB SRAM。
而將這種工程美學發揮到中最「殘暴」的公司,叫做Cerebras,它把一整個Wafer只切一片晶片,有18GB的SRAM,所有的數據、模型都存在片上,因此其性能爆棚。
當然這種方式是非常奢侈的,Cerebras要為它單獨設計解決製冷、應力等問題,單片晶片的成本就在1百萬美元左右,對外一片晶片賣500美元,這一價格非常高昂。因此業內就需要用微架構等其他方式解決這一問題。
業內常用的有兩種解決方式:
一是在操作時加一些buffer,因為神經網絡是一個雖然並行,但層間又是串行的結構。把前一層的輸出buffer住,或把它直接用到下一層作為輸入。
二是在操作時做一些切塊,因為神經網絡規模比較大,每次將它切一小部分,比如16X16,把切出來這一塊的計算一次性做完,在做這部分計算的時候同步開始讀取下一塊的數據,讓這件事像流水線一樣串起來,就可以掩蓋掉很多存儲、讀取的延遲。
現在在數字電路層面,業內更多在做一些架構的更新,根據不同的應用需求做架構的設計。
三、數字AI晶片顛覆式創新難
在談到AI晶片產業特點時,姚頌說,首先AI晶片的概念非常寬泛,所以它並不一定是特別難的事。
▲數字AI晶片產業特點
設計一顆特別通用的晶片很難,設計CPU和GPU同樣很難,但是如果只做某一顆晶片,只支持某一個算法和某幾個算法,其實並不太難,尤其是對算力的需求很低的時候,技術難度就沒有那麼大了。以至於現在對於一些簡單的神經網絡的加速,直接付錢給芯原微電子、GUC等機構,都可以幫助做前端定製。因此對於AI晶片還是要辯證看待,不同的東西難度也不同。
第二,高集成度對於終端市場來說非常重要,這是所有做AI起家的公司都會認識到的一點。
舉例來說,如果廠商想要將AI晶片做到攝像頭裡面,ISP怎麼做、SoC誰來做?將AI晶片做到耳機裡面,是語音喚醒的AI部分最終集成藍牙做成SoC,還是藍牙的部分集成AI做成SoC?這些都是要考慮的問題。
對於終端市場來說,一定是高集成度的方式比分立器件的方式佔優勢,所以對於終端市場一定要考慮全面,而不能僅僅考慮AI這一個IP。
第三,軟體生態才是AI晶片的核心壁壘。
英偉達創始人兼CEO黃仁勳最近開發布會時說,英偉達已經有180萬的開發者、30萬個開源項目,99.99%的初學者在學AI時一定會買一塊GPU,下載一些Github上的開源項目做試驗。這是英偉達最終的一個護城河,它會有源源不斷的開發者加入,開發者又會為生態貢獻新的項目,如果開發者沒有達到一定數量,則很難突破AI晶片的生態壁壘。
姚頌說,這與滴滴、淘寶以及其他網際網路平臺是一個邏輯,一邊是商家一邊是用戶,一邊是開發者一邊是使用者,這是一個閉環軟體生態的邏輯,是最核心的壁壘。
在單純的數字晶片領域、單純的學術研究做微架構迭代的領域,數字集成電路領域從2016年開始至今沒有見到特別大的創新。
▲2016年至2019年AI晶片能效指標變化
上圖中顯示的是從2016年至2019年的AI晶片能效指標變化,「方形」是實際量產的產品。這個圖越往上代表性能越好,越往右是功耗越高,因此在這張圖中,越偏向左上角意味著性能越好。
而實際上大量的「方形」都落在了圖的右上角,處於1~10TOPs/W的兩條線之間,現在性能比較好的產品基本上在1~2TOPs/W的區間內,這幾年在量產級別上沒有見到特別大的變化。行業內有很多工程在往產品方向走,但是通用的微架構迭代的進步已經趨緩。
此外,姚頌一直在關注的一個重點在於,晶片越來越貴,導致了一個較大的問題:業內原來很期待在行業中出現一個「破壞性創新」的事,也就意味著想要用很低廉、便捷的方式實現原來高端產品的能力。比如業內希望AI晶片以低價、便捷的方式實現GPU的功能,而現在看起來,實現這一願景很困難。
在如今所處的時間點,摩爾定律還沒有死掉但是越來越貴。一顆7nm晶片的流片需要3000萬美元左右,再加上IP、人力的成本,甚至需要大幾千萬甚至是上億美元,需要賣出很大的量才能收回成本。對於初創公司來說,這是一個難點。
▲數字AI晶片可能不存在顛覆式創新的大機會
有些晶片公司,比如壁仞科技,融了很多資金,能夠做兩顆、三顆甚至更多晶片;而有的公司如果沒有資金,則無法參與到行業正面戰場的競爭中來。
這個市場已經發生變化,隨著摩爾定律的變化,在正面戰場上,我們得想一些其他的辦法,可能不能單純依靠架構的優勢取得幾倍的性能提升,業界也需要找到一些新的底層技術迭代。
比如做存內計算的知存科技就屬於這一類,它將計算和存儲放在一起,將計算放在Flash中,就可以減少存儲的搬運,突破卡在存儲的瓶頸;再比如法國有一家叫UpMem的企業把計算放到DRAM中,還有比如普林斯頓大學教授的小組把計算放到SRAM中。
另一種技術路線,光計算,也是業內非常看好的方向。用兩束光的光強表示兩個數值,通過一個幹涉儀發生幹涉行為,它出射的強度就是兩個光強相乘,再乘以他們相位差的cos(餘弦),這樣就相當於用光的幹涉直接完成了乘法,這種操作速度很快、功耗也很低,但也有很大的問題。
因為所有的物理器件都不是理想的器件,光每經過一個幹涉儀可能要損耗千分之一的強度,如果想要做一個64X64的陣列或是128X128的陣列,每做一個計算的過程中,每束光要通過幾百個幹涉器,數值就變了。
目前國際最好的水平也只能在64X64陣列上保證8bit信息量是不變的,因此這種方式無法在高精度、大陣列的要求下施行,也從而沒辦法實現特別大的性能,因此這也是一種還在開發中的路線。
四、雲端統一終端垂直的新格局
放眼AI晶片未來的新路線和新格局,姚頌認為,一方面,行業短期內不用太為新的技術路線擔憂,在3~5年內數字集成電路依舊是主流,光計算完全完善還需要時間。
另一方面,如今被多次提及的量子計算,距離商用的階段還很遠。現在全球最好的做量子計算的水平能達到50~60 qubit,如果想用它來形成分子模擬等簡單的應用,大概需要300~400 qubit,還有五年左右的時間要走。如果想用新技術實現通用的做法,比如量子計算的解密AES,按照現在的算法,大概需要300萬個qubit才能完成。因此姚頌不認為量子計算在20年內能在大範圍應用中佔據較大優勢,短期內,產業還是以數字集成電路為主。
這其中也有不同的路線,其中一個在於,有很多緊密結合應用的晶片出現了,換句話說,很多晶片公司的客戶開始做晶片了。
比如百度和三星合作研發了14nm工藝「崑崙」晶片,阿里開發了「含光800」深度學習NPU,還有很多計算類晶片的開發計劃,包括字節跳動、騰訊、快手等都投資或孵化了相關的晶片公司。這其實是對第三方晶片公司的衝擊,也確實是未來行業發展的重要路徑,當應用更明確的時候,晶片的設計難度就會相應降低。
雲端市場現在看起來可能是最大的單一市場,但競爭確實相對激烈。
第一,很多網際網路公司自己在做雲端市場;第二,英偉達這樣的巨頭佔了雲端市場絕大部分的市場份額;第三,英特爾收購了Habana,AMD與賽靈思走到一起,還有很多巨頭公司想擠入這一市場;第四,有很多創業公司正準備進入這一市場。
雲端市場的接口相對統一,需求相對統一,需要的通用性非常高,最後可能會是一個競爭激烈但最終走向相對統一的市場。
在終端市場,有很多可以做的事情。舉例來說,小蟻科技創始人達聲蔚創立了晶片公司齊感科技,面向終端小攝像頭做加AI識別的晶片,售價僅幾元錢一個,他們在收入上已經做得不錯。在不同的市場,如果廠商能夠做到高集成度,並能夠完整滿足這個市場方向的需求,實際上每個方向都是足夠能支撐1~2家上市公司的。
其中不同的場景有不同的需求,差異很大。比如在無線耳機市場,廠商要做的是一個簡單的語音喚醒,要集成藍牙;如果廠商要做智能攝像機,則要做的是CNN,這就與簡單的語音喚醒所需要的加速完全不同。因此必須把場景、SoC都定義清楚,集成度做高,滿足一整個行業方案的需求,這就做得非常垂直。
▲AI晶片市場格局:雲端統一,終端垂直
在姚頌看來,最終行業的格局上,雲端還是需要相對統一,如果創業公司要進入這一領域,需要拿到非常多的資源,才能參與到「正面戰場」的競爭。
在終端上,不同的垂直領域都非常有機會,比如車、智能視頻、智能語音等領域,這要求廠商做得非常深,從算法、軟體、晶片、硬體上使整個方案全部打通,只有這樣才能在這個市場上形成比較強的競爭力。
最終,AI晶片領域會形成雲端相對統一,終端相對垂直的格局。
以上是姚頌演講內容的完整整理。除姚頌外,在本屆GTIC 2020 AI晶片創新峰會期間,清華大學微納電子系尹首一教授,比特大陸、地平線、燧原科技、黑芝麻智能、壁仞科技、光子算數、知存科技、億智電子、豪微科技等晶片創企,Imagination、安謀中國等知名IP供應商,全球EDA巨頭Cadence,以及北極光創投、中芯聚源等知名投資機構,分別分享了對AI晶片產業的觀察與思考。如感興趣更多嘉賓演講的核心乾貨,歡迎關注芯東西後續推送內容。