芯東西(公眾號:aichip001)編輯 | 心緣
GTIC 2020全球AI晶片創新峰會剛剛在北京圓滿收官!在這場全天座無虛席、全網直播觀看人數逾150萬次的高規格AI晶片產業峰會上,19位產學界重磅嘉賓從不同維度分享了對中國AI晶片自主創新和應用落地的觀察與預判。
在峰會下午場,Cadence公司驗證事業部產品工程總監孫曉陽帶來主題為《AI大時代中的晶片設計驗證挑戰》的演講。
▲Cadence公司驗證事業部產品工程總監孫曉陽
孫曉陽談及晶片設計流程存在的三個關鍵挑戰,並講解了Cadence的強大驗證產品套件,以及如何引入AI算法,來應對日益高漲的算力需求。
據孫曉陽分享,增強機器學習能力的新Xcelium ML邏輯仿真平臺在落地實例中,將完全隨機回歸運行的周轉時間縮短至原來的1/4,同時能夠達到原有功能覆蓋率99%。
以下為孫曉陽演講實錄:
一、晶片設計難在何處?
在數據爆炸的時代,算力毫無疑問成為整個行業最具挑戰或亟待解決的一個領域。
作為國際知名EDA及IP供應商,Cadence希望其產品及方案可以助力大家在AI的海洋裡面暢遊。在此次峰會上,孫曉陽代表Cadence,分享了他們所觀察到的一些晶片設計挑戰。
從底向上來看,單一晶片的設計複雜度非常高,AI晶片同樣如此,有模擬、數字和混合信號,有先進工藝節點,及數十億門晶片的實現與驗證,這些都給晶片設計帶來複雜度。
因此,晶片設計者不僅需考慮單一晶片的設計,還要考慮晶片周邊整個系統的設計,包括電磁和熱分析,加上驅動程序、作業系統和應用性能,整體來看整個系統的性能。
在這之上,還要考慮運行在系統中心或者系統上的智能應用,包括學習、感知算法、定製化的用戶體驗,以及針對應用工作負載的計算優化等。
基於這些認知,Cadence著力於提升所有產品線從晶片設計到智能應用的所有算力,不再是單點或者局部地去看待晶片設計本身,除了晶片的設計、封裝等事情外,還考慮到系統的設計,考慮到用戶可能存在的算法需求、軟硬體協同需求等問題,並在引入AI算法,與客戶一起應對挑戰。
孫曉陽來自Cadence系統設計和驗證產品線,因此在演講中,他更多分享了關於系統仿真和驗證相關的產品和解決方案。
如圖是一個晶片設計的典型周期,造出一顆晶片往往需要兩三年的時間,當然不全是設計的緣故,比如需花一些時間做架構的探索和定義等。從圖中可以看到,軟體起到很大的作用,尤其在AI晶片的設計領域,由軟體驅動一個晶片的設計正變得越來越重要。
這是因為,很多AI結構具有重複性、通用性的特徵,上面跑的軟體及PPA表現,是晶片設計成功的關鍵。因此軟體越早介入,越能夠保證最後出來的晶片是成功的。
我們看到,也許在有RTL、有代碼之前,可能要先做模型,從全部或部分的模型開始,在上面運行各種各樣的軟體,去評估架構,評估通路、帶寬、存儲等各類參數,來達到最好的平衡。
Cadence有虛擬的平臺來支撐各種模型的仿真,有各種RTL+部分模型的仿真,有非常知名的Palladium硬體仿真加速平臺,還有基於FPGA的原型驗證平臺Protium X1,能運行對性能、功耗、功能等各方面的驗證評估。
二、破解晶片設計驗證挑戰的三大平臺
今天在中國,人們享受到了物流帶來的便利性,可以看到在城市中,有貨車、卡車、飛機在城市群周邊做物流快遞。其中前兩者裝卸相對容易,但跑得慢;飛機跑得最快,但裝卸流程相對複雜。這裡有一個概念,引擎越快,就要做更多準備工作來使能引擎,以實現更好的性能。
類似的,Cadence提供有並行邏輯仿真平臺Xcelium、硬體仿真加速平臺Palladium、基於FPGA的原型驗證平臺Protium等。Xcelium跑在100Hz水平,Palladium跑在1MHz,而Protium能跑在5MHz。
因為性能不同,應用場景也不一樣,Xcelium主要做IP的仿真評估,Palladium面向SoC晶片的仿真驗證,Protium則可以使能完整系統的開發調試。
Xcelium相比上一代有很大的性能提升,Cadence在產品中大量使用AI算法來加速性能,包括分布式計算。「可以看到,我們一邊面臨AI應用帶來的挑戰,一邊也在使用AI算法來提升算力。」孫曉陽說。
Xcelium最新發布的AI-機器學習賦能技術,可以讓驗證的吞吐力得到提升,能使覆蓋率收斂更快,可達到5倍的速度提升。例如在一家晶片公司應用最新的Xcelium ML平臺的案例中,將完全隨機回歸運行中的周轉時間速度提升4倍,達到原來產品99%的功能覆蓋率。
其原理如上圖所示,跑整個覆蓋率回歸是一樣的,有上千條、上萬條的case放到計算中心上運行,花這麼多的時間才可以結束,在這個過程當中,機器學習算法就可以去學習case和覆蓋率之間的關係,從而創建一個模型,並產生更高效的測試集和相應的隨機化參數,就能在更短的時間(比如1/4、1/5的時間),達到相當的覆蓋率,從而縮短驗證時間。
還有多核仿真,在仿真回歸中,一定有一些需要花很長時間才能做完的case,針對這些case,如果有足夠的算力,用分布式的計算方式,就能縮短整個驗證回歸時間。
Palladium是業界的明星產品,主要用作仿真加速,Palladium是基於Cadence自研CPU做出來的平臺,Protium是基於賽靈思的FPGA做出來的平臺。正如剛才提到的,要應用更快的引擎,勢必做一些準備工作。這個準備工作對用戶來講是一筆開銷,怎麼減少這筆開銷呢?Palladium和Protium用的是完全統一的前端編譯系統、編譯流程,這致使一個設計在Palladium跑起來後,要將它移植到Protium上就會非常簡單。
孫曉陽現場給大家一個參考,有些AI公司在40億門左右,系統廠商在140億門左右,或者其它超大型公司有30億門左右,在Palladium和Protium是這樣的比例。
他也再次強調軟體驅動的重要性,軟體越早介入,就能讓晶片或整個開發周期縮短,一開始用全部虛擬的平臺,有模型就可以開始做很多開發和評估。
最近很多AI、GPU公司都遇到這樣的需求,它的主力可能是做GPU或AI算法相關IP,而不是CPU、互連等技術。於是在開始確定一些架構的時候,它們可以拿Cadence的虛擬平臺來建立一個虛擬CPU、真實的GPU或AI IP,然後就能去做開發和評估。
因此全套軟體可以貫穿從虛擬到部分IP晶片的混合動力仿真到整個晶片回來的整個流程。很多客戶已經有部署這個方法學流程,比如博世主要關心它的IP,很早就可以介入軟體開發;再比如英偉達做的是大型的系統,當Cadence把CPU從RTL中搬出來後,性能可以得到更大的提升。
三、EDA是關鍵性少數
接著,孫曉陽談到AI晶片的幾個關鍵點,包括存儲、互聯及一些相關IP。Cadence在這些先進位程領域,IP追得非常緊,包括內存、DDR、HBM等都緊追最新標準。除了有IP,大家還有驗證IP產品VIP,Cadence在驗證方面也會有相應的解決方案,今年已追到像PCIe6這樣的標準。
晶片做功能驗證,還要追求PPA的指標等事情。在SoC系統上,除了用Cadence的IP之外,也可以用Cadence System VIP產品去模擬整個數據流,從而幫助實現很多系統級分析,還能自動生成test bench,來降低人工的時間。
Cadence還有其它的產品、驗證和設計的管理,比如有企業級的驗證管理方案,從計劃到實施到最後的覆蓋率,能滿足跨地域團隊驗證的流程;還有調試,在整個驗證的cycle裡面,調試約佔70%的時間,因此調試工具毫無疑問是最重要的,新的Indago Debug平臺可以提升調試的效率,並且有開放的接口,性能也在持續提升。
在演講末尾,孫曉陽總結說,此次演講主旨很契合當下的新基建,過去二三十年間,中國持續做高速公路的建設、高鐵的建設,是今天快速物流的前提。而Cadence相當於在做基建的工作,提供快速的計算平臺,讓各位的計算訴求在計算平臺上跑得更快。今天的新基建是另外一種,它不是鋼筋水泥,而是數據中心、絕對算力、AI晶片這樣的更高級的東西。這些邏輯是一脈相承的。
Cadence採用了大量的算法來持續提升這些引擎的計算能力。孫曉陽主要代表Cadence的系統設計和驗證團隊,但其產品線遠不止於驗證部分,還有時限、布線、系統分析等很多其它產品線。Cadence持續打造「Intelligent System Design」的全流程解決方案,更好地服務於客戶。
最後,他提到20年前剛進入EDA行業時,一位前輩曾跟他講過的話:「EDA是關鍵性少數。」
就算是兩年前,鮮少有大眾能夠理解EDA是什麼,而今天大家都在談EDA,其「關鍵性」毋庸置疑。
但是少數還沒有變成多數,孫曉陽非常高興看到這麼多人做AI晶片,希望有更多的人投身EDA行業,使其變成關鍵性的多數,帶來更快的進步。
以上是孫曉陽演講內容的完整整理。除了孫曉陽外,在本屆GTIC 2020 AI晶片創新峰會期間,清華大學微納電子系尹首一教授,比特大陸、地平線、燧原科技、黑芝麻智能、壁仞科技、光子算數、知存科技、億智電子、豪微科技等晶片創企,Imagination、安謀中國等知名IP供應商,以及北極光創投、中芯聚源等知名投資機構,分別分享了對AI晶片產業的觀察與思考。如感興趣更多嘉賓演講的核心乾貨,歡迎關注芯東西後續推送內容。