編 | 心緣
芯東西7月23日消息,對於開發集成電路(IC)和片上系統(SoC)的人來說,DAC大會都是極重要而全面的會議,電子設計自動化(EDA)領域最先進的公司和研究機構匯聚於此,展示他們最前沿的技術或研究項目。
就在本周二,第57屆DAC 2000正式開幕,這也是DAC大會首次在線上虛擬舉辦。會議為期五天,覆蓋有關人工智慧、機器學習、安全性、電子設計和基於雲設計的最新研究與開發。
在開幕式上,臺積電首席科學家、史丹福大學教授黃漢森(Philip Wong)發表主題演講。 黃漢森聚焦在數據分析、機器學習、AI技術趨勢,主要探討GPU和加速器系統。
他提到,半導體技術是經濟增長、保護環境、改善醫療保健和教育的關鍵。世界各國也已經意識到這種對國家安全和能源領導的重要性。
過去50年中,半導體技術的發展類似於在隧道內行走,前面有一道明確清晰的道路,每個人都知道需要做什麼。
現在我們正在接近隧道的盡頭,技術變得很難做,創新和敏銳的眼光對於21世紀社會關鍵技術的持續發展必不可少。
對此,黃漢森教授概述了幾個重要技術方向。
首先,電晶體的數量與峰值吞吐量相關,可通過DTCO技術提升電晶體密度。
其次,邏輯與內存集成,使內存儘可能接近邏輯,並增加邏輯與內存之間的IO數量,最重要的是增加峰值帶寬和內存帶寬。從封裝技術到晶圓級集成等很多技術選擇越來越多地融合。
此外,最佳執行系統分區的新設計工具將變得必不可少,系統分區需要跨管芯執行。
最後,黃漢森教授談到創新的民主化。在應用和系統驅動的世界中,擁有一個促進創新的生態系統非常重要。
芯東西對黃漢森教授的演講進行梳理,以下為核心內容:
21世紀的應用將是以數據為中心的,數據分析和機器學習應用將主導從數據中心到移動和物聯網的數據收集、處理和評估。許多系統將需要動態學習和適應以獲得信息。
在此次演講中,黃漢森教授將重點關注數據分析、機器學習和人工智慧等技術趨勢,這意味著我將把我的注意力和討論集中在像GPU和加速器這樣的系統上。
一、晶片性能峰值與電晶體數量強相關
數據移動是一大關鍵瓶頸,數據移動所造成的能耗是當今需要解決的問題。
上圖顯示了幾個經典深度學習應用工作負載的數據,硬體配置列在底部。可以看到,絕大多數能耗發生在內存訪問中,包括存儲器產生的能耗,和等待片外內存的數據時計算所產生的能耗。
這是個挑戰,也是巨大收穫的機會,如果我們可以專注於開發具有系統性能的技術。
考慮到這一點,我們先看看半導體技術在過去幾十年中為我們提供了什麼,然後對未來做出了一些預測。
迄今為止,2D微縮(2D Scaling)技術一直在推動半導體技術的發展。電晶體、邏輯門、高密度SRAM、標準單元布局密度都在以指數級增長,而規模擴展是技術的驅動力。
但如果回顧歷史,會發現僅用一種方法無法維持某些技術的進步,摩爾定律通過各種創新得以維繫。
起初是Dennard微縮定律,即隨著電晶體尺寸縮小,它們變得更快、更節約能耗。當製程節點進化變慢,我們轉而用應變矽和高k金屬柵極實現等效微縮。
當平面電晶體達到極限時,我們採用了3D電晶體結構並引入了FinFET技術。如今,密度的提高大多來自設計-工藝協同優化(DTCO)技術。
2D微縮技術的革新增加了電晶體密度,從而降低了成本,並帶來了其他系統優勢。我們用實驗說明器件密度的好處。下圖左側是具有器件密度高的晶片;右側是器件密度低的晶片,但其電晶體具有速度、能量和功率效率等高性能。
對於右邊的晶片,即使電晶體本身也具有良好的性能,對整個晶片和整個系統幫助不大。
因為如果沒有密度,可用器件的數量將很少,沒有足夠的內存或緩存,也就不會有多核晶片,因為多核晶片需要更多的電晶體來實現多進程。出於同樣的原因,也不會加速器。
此外,由於該器件彼此相距較遠,所以長導線會使晶片延時變長,它們的能耗也比電晶體彼此靠近的晶片要高得多。
而豐富的數據計算(或以數據為中心的計算) 的出現,為通過平衡靈活性、增益系統吞吐量和能效、進一步優化系統吞吐量創造了機會。
上圖y軸顯示系統吞吐量,x軸顯示可以執行的任務範圍。 CPU可以執行各種任務,並且一直是計算的主體。以數據為中心的計算支持領域特定架構(DSA),如GPU、TPU和類似的加速器,因為它們能夠以大規模並行的方式高速且高能效執行一組特定領域的任務。
黃漢森教授分享了一篇7月ACM新發表論文中定義的現代GPU和加速器用來提高性能效率的四種主要技術。
(1)特定數據:執行內循環功能的專用邏輯可提高性能和效率;
(2)並行性:並行單元利用本地性、局部性,幾乎不會進行全局內存引用;
(3)本地化&優化內存:將關鍵數據結構存儲在許多小型本地內存中,以低成本和低能耗實現很高的內存帶寬;
(4)減少開銷:專用硬體減少了程序解釋的開銷。
所有這些架構都依賴於有大量電晶體以特定方式來獲得性能和能效。例如下圖所示,GPU峰值吞吐量與電晶體數量具有很強的相關性。
今天,我們需要採取自頂向下(top-down)的方法。
設計選擇取決於系統技術選項,需要堅持不懈地進行創新,以使系統達到最佳解決方案。如果中間或底部存在漏洞,那麼無論頂層看起來多麼好,堆棧都會崩塌。
首先,讓我們看一下使用Roofline模型從系統角度評估性能的情況。
Roofline模型提出使用計算強度(Operational Intensity)進行定量分析的方法,將計算量和放存量放到同一張圖上,從而將其峰值性能可視化。理想情況下,峰值吞吐量和內存帶寬的過程應同時提高。
峰值吞吐量是核心數量、核心頻率、每周期操作數的乘積,決定紅線的高度;內存帶寬是總線寬度、總線頻率和數據速率的成績,決定藍線的斜率。
其中,核心頻率、總線頻率受功率密度和散熱設計功耗(TDP)限制,每周期操作數、數據速率取決於手頭任務、架構設計和行業標準。
諸如此類的體系架構技巧有待改進。對於處理器而言,增長關鍵是引入更多並行性來實現峰值吞吐量;對於內存帶寬,總線寬度最有可能增長,因為此類技術已準備就緒。
這些機會也表明我們需要更多的電晶體、更多的存儲器以及電晶體和存儲器之間的更多連接,將它們組合在一起以提高系統吞吐量。
接下來,黃漢森教授將基於伺服器和數據中心GPU與吞吐量和帶寬相關的趨勢來說明這些觀點。
自2007年以來,峰值吞吐量平均每兩年增長1.8倍,其增長主要歸因於核心數量,與晶片上電晶體數量也直接相關。
關鍵的應用重點已從以CPU為主變為以GPU為主,隨著這種變化,半導體器件技術已通過提供更多電晶體找到了性能提升的新領域,並以最終產品應用可接受的成本提供這些電晶體。
當然,我們還需在多個體系架構方面取得進展。要說明的是,沒有任何一個抽象層可以單獨解決所有問題。
電晶體的數量主要由電晶體密度驅動,每兩年增加約1.6倍,而晶片面積增加的貢獻很小。
其中晶片的數字部分以比上圖所示更快的速度增長,因為晶片的模擬和IO等其他部分的增長速度比數字部分慢。
如圖,藍色數據點顯示的電晶體密度,每兩年增長約1.84倍。再過去十年中,電晶體密度持續提高的趨勢沒有改變。
例如,用紅色數據點表示的接觸柵極間距(CPP)與最小金屬間距(MP)的乘積所表示的密度,每兩年僅增長約1.69倍。
為密度提高做出主要貢獻的是DTCO技術,黃漢森教授認為,這種電晶體數量趨勢將持續相當長的一段時間。有些來自持續擴展,有些來自集成,有些來自DTCO。
如圖是DTCO如何提升邏輯密度的示例。從移動、筆記本、臺式機、伺服器、工作站到超級計算機,所有計算系統的電晶體數量與內存量之間的關係都接近1:1,八個數量級以上的相關性非常驚人。
因此,我們將假定內存容量不是限制因素。
接下來再談談內存帶寬。內存帶寬是數據速率、總線頻率、IO數量或總線寬度(以字節為單位)的乘積。總線頻率可以提高帶寬,但以增加功率為代價。
內存峰值帶寬每兩年增長約1.56倍,比邏輯每兩年增長1.8倍的速度慢。因此,內存帶寬不足且限制了系統吞吐量。
二、3D晶片需平衡邏輯與存儲,I/O連接數量成增加帶寬的重要指標
在較早的論文中,David Paterson教授曾提出建議:如果一切都以相同的速度改善,那麼什麼都不會改變。
這又需要在計算內存集成方面進行創新。
計算內存集成有多種方式。如圖是傳統2D系統,作為基線進行比較。該系統通過有限的I/O連接到矽邏輯裸片的印刷電路板上的插座中。
進一步是2.5D系統,其中HBM型DRAM通過矽中介層與矽邏輯晶片連接,並且比2D系統有更多I/O。
再進一步,想像一下將HBM型DRAM堆疊在具有TSV和微型凸塊的矽通孔的矽邏輯管芯上,我們可以得到微米級的連接。在單個3D晶片上,TSV間距可以降至個位數微米級。
通過單片3D集成可以獲得更細的顆粒和更緊密的連通性,這被稱為N3XT系統。其願景是包含多層邏輯和內存層。內存層覆蓋了從高速內存到大容量內存的範圍,高容量存儲器如綠色塊所示,可用3D形式實現高密度。
這是N3XT納米系統的示例。晶片上需要有大量的邏輯電晶體,同時,3D晶片上的邏輯與內存需要保持平衡。因此,同一晶片上需要有多層邏輯和存儲器,這些邏輯存儲層將最終相互領先,並與超高密度細孔相連。
實際上,過去十年,使用各種晶片級和晶圓級技術,與先進封裝相關的垂直互連密度可提高約3-4個數量級。
當今最先進的TSV間距約為5至10微米,使用晶圓對晶片或SoIC技術時,間距約為1微米。
晶圓級、單片集成技術和封裝技術將在未來平穩地融合在一起,單片集成實際上是2.5D和3D封裝的連續體,包括晶片級和晶圓級封裝。重要的是連接數量、連接密度以及運輸數據的能耗,而不是實現這些數據的特定方式。
如圖所示,連接密度花費了7個數量級以上,從今天的晶圓上晶片解決方案到明天的3D集成,至少要獲得3-4個數量級的改進。
總的來看,為了充分描述未來的技術,需要從系統角度看待數據分析和AI等豐富的數據應用,峰值吞吐量和峰值內存帶寬將是兩個關鍵指標 。
上圖是2007年至2019年的GPU類產品,峰值吞吐量和峰值內存帶寬都被提高。通過紅色箭頭可以看到,峰值吞吐量的增長速度快於峰值內存帶寬,即便在相同的邏輯模式下,這也為系統改進創造了機會。
有三個指標將反映未來半導體技術的最重要屬性:邏輯密度(DL),存儲密度(DM),邏輯與存儲之間的互連密度(DC)。
三、晶片設計工具優化將釋放大量硬體創新
在應用和系統驅動的世界中,擁有一個促進創新的生態系統非常重要。
如今,晶片設計是一項非常昂貴的活動,僅有少數幾個最先進的技術公司才能負擔得起。
這致使硬體系統的創新僅限於一小部分工程師,而軟體應用的創新通常來自社會廣泛的領域。
如果設計工具和生態系統能降低進入晶片設計和系統實施的門檻,那麼硬體方面的大量創新將被釋放。
我們將看到應用程式和系統設計的復興。理想情況下,硬體創新將變得像編寫一段軟體代碼一樣容易。
如果有一天,即使是高中生,也可以設計自己的晶片,並以易於編寫軟體的方式演示應用,那麼我們將可以釋放出許多創新來改善社會。
黃漢森教授相信,這個夢想終有一天會實現。