比摩爾定律快得多:為什麼要將AI算力擴展至ExaFLOPs百億億次量級?

2020-12-11 電子工程專輯

被譽為英國半導體之父,同時也是Arm聯合創始人的Hermann Hauser先前曾經這樣評價過Graphcore:「這在計算機歷史上只發生過三次,第一次是70年代的CPU,第二次是90年代的GPU,而Graphcore就是第三次革命。他們的晶片是這個世界偉大新架構的一種。」rprEETC-電子工程專輯

當通用計算逐漸在性能、能效比提升逐年放緩的情況下,摩爾定律放緩、登納德縮放定律失效,被人們每每提及的「架構革新」成為一種必然。Graphcore的IPU可算是當代「架構革命」的先驅之一。Graphcore的架構革命究竟能帶來什麼?rprEETC-電子工程專輯

rprEETC-電子工程專輯
Graphcore CEO Nigel ToonrprEETC-電子工程專輯

為什麼需要革命?

神經網絡(NN)的一大特點,就是在邏輯層面對人腦神經元行為的模擬。更加高度抽象地說,以「推理」過程為例,我們「感知」世界的方式,總是通過非精確數據進行推理,從經驗中學習,以及基於世界模型的嘗試。就好比人類大腦辨認一隻貓的過程,是基於經驗的、常識模型的,而且是低精度的,我們不需要精確獲知這隻動物身上究竟有多少根毛髮、眼睛尺寸的具體數值等,便可推理出這是一隻貓。rprEETC-電子工程專輯

今年的2019全球CEO峰會上,Graphcore CEO Nigel Toon在題為Exascale Compute with IPU的主題演講中提到,如今智能機器(Intelligence Machine)的常規方案,即是獲取訓練(training)數據/傳感器數據,然後藉由「概率知識模型」在本地進行推理(inference),並最終得到結果。rprEETC-電子工程專輯

「什麼樣的數據、什麼樣的方法去捕捉他們要訓練的這些數據,數據間的應用關係;就像孩子一樣,大腦不斷地吸收他們的知識,才能產生這樣的模型,這些是需要長時間建立的。」Toon表示。除此之外,這類型的工作極少出現分支和其他複雜行為任務(分支這類型的任務是CPU的專長),可以分解成單獨、半獨立的線程;而且計算精度要求並沒有那麼高。rprEETC-電子工程專輯

rprEETC-電子工程專輯

 rprEETC-電子工程專輯

這樣一來GPU這種具備處理重度並行任務能力的處理器也就非常適用,不過GPU的效率仍然不夠高。Graphcore在前兩年的一次主題演講中特別提到了GPU的Dark Silicon[1],畢竟GPU有一部分是專為圖形渲染做高性能計算的,這樣一來就存在大量資源浪費;而且主流GPU核心區域的片上存儲資源仍然是不夠的,數據吞吐能力也就沒有那麼強。rprEETC-電子工程專輯

前面提到的「知識模型」包含的特點有:自然呈現為計算圖(graphs,代表的是知識模型和應用,所有機器學習模型都用graph的形式來表達)、支持高度並行計算、需要海量數據帶寬、小型張量(small tensors)的低精度算法。這其實是AI晶片誕生的重要契機。rprEETC-電子工程專輯

另一方面,「機器智能」的要求還在發生進化。我們現在更多的應用,並不是單純能識別一隻貓這麼簡單,更多的比如語言理解,以及更多的高級感知能力——如汽車輔助駕駛系統或者自動駕駛中,對司機情緒、疲勞程度的判斷等。與此同時,模型尺寸正在變得越來越大。我們前兩年還在說:好的卷積神經網絡,通常是帶有「上百萬參數」和許多隱藏層的怪物。不過在這些年不同應用的發展中,「上百萬」又算得上什麼?rprEETC-電子工程專輯

Toon列舉在2016年1月的殘差網絡ResNet50參數總量25M,到2018年10月的BERT-Large自然語言模型發展到了330M,如今OpenAI會講故事的文本生成模型GPT2——這是一個大型語言模型,具有15億個參數;未來的新模型是朝著萬億(trillion)量級去的。rprEETC-電子工程專輯

rprEETC-電子工程專輯

 rprEETC-電子工程專輯

上面這張圖,來自去年年中OpenAI發布的一份名為《AI與計算》的分析報告[2]。這份報告提到,自2012年以來,AI訓練(training)任務應用的算力需求每3.5個月就會翻倍,這個數字可是超過了摩爾定律的;從2012年至今,AI算力增長超過30萬倍。這張圖縱軸的單位,每1個petaflop/s-day(pfs-day),就包含了一天每秒10^15次神經網絡運行次數,或者總數大約10^20次操作(不過這個統計針對一次「操作」的定義,沒有區分加法、乘法,而且不區分數據精度)。rprEETC-電子工程專輯

需要注意的是,這張圖的縱軸刻度並不呈線性,而是指數級增加。rprEETC-電子工程專輯

rprEETC-電子工程專輯

 rprEETC-電子工程專輯

當我們真正去對比當前晶片的電晶體數量,以及性能變化時,其實很容易發現,摩爾定律大趨勢是持續的,但登納德縮放比例定律(電晶體密度增加同時,每個電晶體功耗會下降)已經達到極限——我們在先前的文章中也已經不止一次地提到過這個問題。早些年,Steve Scott還在英偉達特斯拉業務部門擔任CTO(現在是Cray的CTO)的時候就說過這個觀點:電晶體已經無法在體積縮小的情況下持續降低電壓,這樣一來,雖然集成的電晶體越來越多,但也意味著功耗越來越大:性能因此受到功耗限制,每一次製程迭代,都會加重該問題。rprEETC-電子工程專輯

所以解決方案是?

去年《連線(WIRED)》雜誌在採訪AI之父Geoff Hinton說:「我認為我們需要轉向不同類型的計算機。幸運的是我這裡有一個...」Hinton從錢包裡掏出一枚又大又亮的矽晶片:IPU。rprEETC-電子工程專輯

這段是Toon在全球CEO峰會上講的,看起來很像是個段子。不過從連線雜誌的原報導來看[3],這件事竟然是真的,當時Hinton拿出來的是Graphcore的原型產品。Geoff Hinton現如今是谷歌AI頂級研究人員,此人早在上世紀70年代就開始構建人類大腦從視覺層面理解世界的數學模型。所以這件事,又讓Graphcore獲得了一重加持。rprEETC-電子工程專輯

實際上,現如今的AI晶片已經遍地開花了,不管是訓練(training)還是推理(inferencing),包括Arm前不久都已經發布了針對邊緣AI推理的專用IP。這其實已經足夠表明,這種「架構革命」風捲殘雲式的來襲。rprEETC-電子工程專輯

簡單地說:CPU通過手機數據塊來處理問題,然後針對這些信息跑算法或執行邏輯操作,其通用性很好,適用於各種計算,但可並行的核心數量經常只有個位數;GPU核心數或執行單元數量大,可同時執行更多任務,但如前所述,其效率還是不夠的;而AI晶片,則能夠從不同位置同時拉來大量數據,進行快速和更高並行數的處理:Graphcore的IPU(Intelligence Processing Units)是其中一種。rprEETC-電子工程專輯

rprEETC-電子工程專輯

 rprEETC-電子工程專輯

Graphcore可以認為是這個領域最早的一批開創者。IPU的「架構變革」部分體現在,整合晶片邏輯和存儲部分,在片上分布SRAM,讓IPU達到100倍吞吐;此外,16nm "Colossus" IPU包含了超過1200個低精度浮點運算核心,和所有機器學習所需的控制操作與超越函數,125 teraFLOPS算力;每個核心能夠跑至多6個線程。rprEETC-電子工程專輯

另外搭配Graphcore針對機器智能設計的軟體工具鏈Poplar。Toon先前在接受採訪時曾提到:「Poplar建立在計算圖形抽象(computational graph abstraction)的基礎上。其graph compiler的IR(intermediate representation中間層)是個大型的定向圖。」Graph圖像共享作為內部的representation,整個知識模型的representation最後都會分解為高度並行的工作負載,然後在IPU處理器之間進行調度和執行。一句話概括就是,Poplar通過不同層級的優化,在IPU核心之間部署任務。[4]rprEETC-電子工程專輯

Poplar支持TensorFlow、PyTorch、OONX、Keras等框架。「從這些高層級的框架獲取輸出,餵進Poplar軟體層,產生高層級的graph,並將這些graph映射到跑在IPU處理器上的一張完整計算graph上。」這其實也是當前AI晶片開發的常規思路。rprEETC-電子工程專輯

總結一下,這些嘗試解決的問題實質就是本文第一部分提出的,當代「知識模型」的那些要求,包括高吞吐、高度並行、低精度等,並在性能要求上滿足模型越來越貪婪的需求。rprEETC-電子工程專輯

IPU的幾個特點,第一是被稱作graphs型的計算(computation on graphs,包括了高度並行、稀疏化(sparse)、高維度模型、分布式片上存儲);第二,低精度,寬動態範圍算法(混合精度,16.32,和更低);第三,靜態圖形結構(編譯器可分解任務、分配存儲,調度messages,塊同步並行、無序化、adress-less通訊);最後是Entropy Generative(比如產生統一分布整數、Generation of vectors of approximately Gaussian distributed floats等)。rprEETC-電子工程專輯

ExaFLOPS級別的擴展

Nigel Toon提到,IPU產品已經向戴爾出貨,戴爾易安信IPU伺服器即是一款比較具體的產品。如我們先前所了解的那樣,這款數據中心設備,每臺插8張C2 PCIe加速卡(每個C2卡包含兩個IPU),能夠實現1.6 petaFLOPS的算力。戴爾其實也是Graphcore企業市場策略的重要組成部分。rprEETC-電子工程專輯

rprEETC-電子工程專輯

rprEETC-電子工程專輯

 rprEETC-電子工程專輯

 rprEETC-電子工程專輯

從IPU先前的介紹來看,它具備card-to-card links的彈性擴展機制。在前不久的NeurIPS展會上佔了一個名為Rackscale IPU-POD的參考設計。Nigel Toon這次講IPU-POD稱作「機器智能超級計算機」,「這部分去年10月,我們開始逐步付諸實施。」這可以認為是將IPU彈性應用到極致的某種示例。rprEETC-電子工程專輯

一個單獨的42U機架IPU-Pod能夠提供超過16 PetaFLOPS混合精度算力;一套32個IPU-POD(至多4096個IPU),可以將算力彈性擴展至超過0.5 ExaFLOPS的程度,這對同硬體的訓練和推理,都是相當驚人的吞吐量。rprEETC-電子工程專輯

顯然針對Toon前面提到神經網絡模型在體積和算力需求方面的擴張,是越來越必要的一種應用方案。rprEETC-電子工程專輯

rprEETC-電子工程專輯
可彈性擴展至0.5 ExaFLOPs的IPU-PODrprEETC-電子工程專輯

作為英國的一家獨角獸企業,Graphcore是被Nigel Toon寄予了厚望的。他一直期望在英國建立一個具備Arm同等影響力的科技企業。當前Graphcore的融資總額已經達到3.25億美元,這在我們先前的全球CEO峰會展望篇中已有所提及。不過在應對AI晶片越來越多市場參與者,包括大量初創型企業,以及Intel、英偉達這些老牌企業的入場,Graphcore和Nigel Toon的競爭壓力顯然也是不小的。rprEETC-電子工程專輯

 rprEETC-電子工程專輯

rprEETC-電子工程專輯

參考來源:

[1]https://cdn2.hubspot.net/hubfs/729091/NIPS2017/NIPS%2017%20-%20IPU.pdf?t=1526305355186rprEETC-電子工程專輯
[2]https://openai.com/blog/ai-and-compute/rprEETC-電子工程專輯
[3]https://www.wired.com/story/googles-ai-guru-computers-think-more-like-brains/rprEETC-電子工程專輯
[4]https://www.eet-china.com/news/201909211859.html
rprEETC-電子工程專輯

責編:Yvonne GengrprEETC-電子工程專輯

相關焦點

  • 摩爾定律續命至1.5納米 未來十年誰將從中得利?
    問世 50 年的摩爾定律是支撐全球近 5,000 億美元半導體產值的最大依歸,然摩爾定律是否已經走上末路?是近幾年來半導體人最熱衷論戰的話題。   日前,摩根大通發布一份報告,揭露 ASML 有能力支撐工藝技術到 1.5 納米節點,讓摩爾定律續命至 2030 年,再度將該定律的「生命年限」推至風口浪尖上,因為當中攸關全球每一家半導體企業的競爭年限。
  • 智慧型手機迭代越來越快,摩爾定律還適用嗎?
    這可能會歸結於製造商專注於其他功能,而不是盲目地遵守摩爾定律。智慧型手機不僅要比去年快得多,而且結構也要更漂亮,電池效率、解析度也要更高。CPU性能並不是唯一要優先考慮的因素,這也可以解釋為什麼我們在這些方面沒有看到「翻倍」。當然,還有更多的原因。2.關於CPU工作原理看看上面的表格,你可以看到GHz和性能之間的關係並不密切。
  • 摩爾定律會不會終結_摩爾定律還適用嗎
    貝瑞特說,在英特爾,摩爾定律就是一條一直在自我實現的預言,它也是一項戰略計劃。雖然學術權威、業內分析師和媒體都預言計算能力的指數增長趨勢已經快結束了,但是英特爾仍然保持著這種趨勢不變,因此英特爾也得以繼續在行業內處於領先地位。貝瑞特說,公司對每一位新加入的工程師說:「這麼多年來,我們一直在遵守摩爾定律,希望這種增長趨勢不會在你們手中終結。」
  • AI時代的摩爾定律?黃氏定律預測AI性能將逐年翻倍
    後來廣為人知的每18個月晶片性能將提高一倍的說法是由英特爾CEO大衛·豪斯(David House)提出。過去的半個多世紀,半導體行業按照摩爾定律發展,並驅動了一系列的科技創新。有意思的是,在摩爾定律放緩的當下,以全球另一大晶片公司英偉達(NVIDIA)創始黃仁勳(Jensen Huang)名字命名的定律「黃氏定律 (Huang’s Law)」對AI性能的提升作出預測,預測GPU將推動AI性能實現逐年翻倍。
  • 每平方毫米近3億個電晶體!臺積電3nm工藝挑戰摩爾定律
    智東西(公眾號:zhidxcom)編 | 韋世瑋智東西4月21日消息,據外媒phoneArena報導,臺積電的3nm晶片將實現每平方毫米近3億個電晶體的電晶體密度,提升了1.7倍。例如,當前使用7nm工藝生產的晶片,包括蘋果A13、高通驍龍865和華為麒麟990,它們的電晶體密度約為每平方毫米1億個電晶體。其中,蘋果公司可在每顆A13晶片中填充85億個電晶體。而臺積電的5nm晶片電晶體密度為每平方毫米1.713億個電晶體,這將使蘋果的5nm晶片A14 Bionic能夠擁有150億個電晶體,性能提升10%-15%,能耗降低25%-30%。
  • 【芯觀點】後摩爾時代的AI革命:算力需求激增,催生晶片創新
    各大廠商對機器學習的熱情越來越高,對算法、算力和數據提出新的要求,尤其是對算力需求的激增,進一步催生相關晶片和專用設備的蓬勃創新,而在後摩爾時代,這種創新或將成為突破算力極限的關鍵。數據「餵」大的機器智能什麼是機器學習?簡單來說,機器學習使用算法在數據中發現模式,然後使用一個能識別這些模式的模型對新的數據進行預測。
  • 一篇論文引發的光子 AI 晶片革命,劍指摩爾定律
    一、一篇頂刊論文引出的新型賽道隨著摩爾定律滯緩,矽光子技術成為超越摩爾定律的研究方向之一。2017 年,來自英國艾克塞特大學、牛津大學和明斯特大學的研究人員,宣布了其類腦光碟機動晶片研究成果。他們用特殊相變材料和光子集成電路模擬人腦神經突觸,使得這款晶片在測試中的數據傳輸速度達 300Gbps,比當時現有標準處理器要快 10-50 倍,同時功耗大幅降低。
  • 黃氏定律正取代摩爾定律
    在現代計算的第一個時代,有一種趨勢始終佔據主導地位,它也被稱為摩爾定律。實際上,摩爾定律是英特爾聯合創始人摩爾的預測,而不是任何形式的物理定律。摩爾定律認為,晶片上的電晶體數量大約每兩年就會翻一番。這也意味著,這些晶片以及它們所驅動的計算機的性能在大致相同時間內會有實質性的提高。
  • 摩爾定律的突圍
    摩爾定律並非自然規律,而應該被視為對未來集成電路發展的觀測或者預測,但是這樣的「預言」卻伴隨著集成電路半個多世紀的快速發展並不斷的「自我實現」。從實際使用角度看,摩爾定律可以理解為微處理器的性能每隔18個月提高一倍,或價格下降一半。
  • IT未來十年枯榮變數:摩爾定律與消費主義
    IT未來十年枯榮變數:摩爾定律與消費主義十年一循環,IT業命運如此流轉。宏觀經濟的起伏帶來泛IT行業的總體冷暖,而行業內部的風水輪換也在一次次冷暖輪迴間更替。從細分產業看,過去30多年間的枯榮順序依次是PC、PC作業系統、網際網路門戶、搜索、社交網絡、移動網際網路等,當然我們尤其不能忘記風光無限、軟硬一體的蘋果。梳理過去,並猜度未來十年不得不又一次提起摩爾定律。這個誕生於1965年的神奇定律說,每過18個月,單位面積上的電晶體數量增長一倍,而價格不變。這一定律提出後的30年間正確地指引著IT業的節奏。
  • 阿爾法狗勝利:摩爾定律的終結和科技的 3 個啟示
    為了解決過熱的問題,晶片製造商採用了兩個辦法:  限制微處理器執行計算機指令的速度(Clock Speed),從而限制了晶片中電子的速度;  將集成電路分成多個核,這樣降低每一個核的功率和發熱。(所以其實你就沒想過,為什麼最近幾年來聽到這麼多「4 核」「8 核」這種莫名其妙又不明覺厲的描述?)
  • 0.167nm電晶體達成:摩爾定律到此為止-半導體,電晶體,摩爾定律...
    從晶片製程開始邁入20nm的時候,唱衰「摩爾定律」的聲音就開始越來越強烈,但最新的進展是,IBM聯合三星、GF已經拿出了7nm樣片,而臺積電甚至都把5nm提上了日程。半導體業繃緊的神經仿佛一下子鬆弛下來,那麼在量子計算未成形之前,工藝的極限是什麼?
  • 摩爾定律、梅特卡夫定律、顛覆定律(冪指數定律)分別是啥?
    摩爾定律每18個月,計算機等IT產品(或者說相同性能的計算機等IT產品)的性能將翻一番,每18個月價格就會降一半。主幹網帶寬的增長速度至少是運算性能增長速度的三倍。因為運算性能增長速度主要是由摩爾定律決定的,所以根據每兩年運算性能提高一倍計算,主幹網的網絡帶寬的增長速度大概是每八個月增長一倍。梅特卡夫定律網絡的價值等於網絡節點數的平方,網絡的價值與聯網的用戶數的平方成正比。
  • UCLA教授Jason Woo:摩爾定律不是物理定律,是經濟學的預測
    在「摩爾定律的終結」研討會上,史丹福大學博士,加州大學洛杉磯分校教授兼副主任、CMOS研究實驗室負責人Jason C. S. Woo指出,摩爾定律不是物理定律,是具有經濟學基礎的一個預測。摩爾定律為什麼可以這樣進行演變?
  • 與摩爾定律梅特卡夫定律並論,IBM Watson定律將成為歷史論斷嗎
    說起摩爾定律、梅特卡夫定律,雖然能說清楚的不多,但知道的人不少,然而,IBM近日提出的「Watson定律」,恐怕既不知道也說不清楚的居多,懵圈的不在少數。以上所說的定律,是物理學定律,因此,我們要有所區別看待摩爾定律、梅特卡夫定律,以及,Watson定律——他們,都是產業發展定律。IBM把Watson定律與摩爾定律、梅特卡夫定律相提並論,當然並不是心血來潮。
  • 日本「富嶽」超級電腦刷新世界排行,峰值性能每秒百億億次計算
    讓蘋果、微軟等科技巨頭趨之若鶩的 ARM 架構,為什麼會有如此大的吸引力呢?其實 ARM 架構近期還有一次非常代表性的應用案例。近日,超級電腦排行版Top500還宣布,它們的排行榜的榜首位置現在已經被日本理化研究所的「富嶽」超級電腦拿下了。
  • 摩爾定律或將無效?中國晶片彎道超車?別想了,還得一步一步來!
    不少自媒體表示:華為可以憑藉碳基晶片技術實現彎道超車;更有甚者直接表示摩爾定律即將失效。那麼我們今天就這兩個問題好好談一談。首先,關於摩爾定律時候會失效的問題。可以直接給出最準確的答案是不會失效。2018年摩根大通正式發布了一份報告,該報告表示:世界晶片產業可以將晶片技術推進至1.5nm晶片工藝製成,並且可以讓摩爾定律有效至2030年。
  • 大咖 | UCLA教授Jason Woo:摩爾定律不是物理定律,是經濟學的預測
    因此需要知道它是怎麼演變的,為什麼最終能夠很好的產生這樣的效果?工程師怎麼創新能一直讓摩爾定律發揮作用?一開始,Moore他去觀察的時候,半導體IAC使用的是一些矽,後來發生了很多的變化。原件上數量增加,功率的密度的增加,使得元件管理非常重要,因此這成為了摩爾定律發揮作用的瓶頸。
  • 網際網路人必須要懂的「梅特卡夫定律」
    作者|衛夕 來源|衛夕指北(ID:weixizhibei)你一定知道「摩爾定理」,對許多IT人而言那是這個行業最基礎法則,然而,在我看來,另一個和摩爾定理齊名的「梅特卡夫定律」被嚴重地低估了。
  • 二維材料應用延續摩爾定律
    集成電路和人們的生產、生活聯繫得越來越緊密,然而隨著電晶體的不斷微縮,短溝道效應等負面效應增加,功耗大、集成度難提高、不確定性增加,限制了集成電路的發展。在這項新研究中,周鵬與復旦大學教授張衛、曾曉洋和姜育剛等合作,發現新材料硫化鉬在集成電路中的更優應用方案,解決了如何用新材料、新原理和新架構繼續延續摩爾定律的難題,實現了電路邏輯結構從無到有的創新。