各位好,我是Trish Damkroger,英特爾數據平臺集團副總裁、高性能計算總經理。今天,我要跟大家談一談擴展高性能計算邊界:多架構時代。在開始演講之前,我想感謝大家邀請我再度出席全國高性能計算學術年會,並發表演講。
今年的情況和去年不太一樣,我沒能親自來到現場,而是在英特爾工作室與大家進行交流。全球疫情的爆發讓大多數人進入了新常態,我希望每個人都平安健康。對我而言,高性能計算一直是一個令人興奮的業務。而現在,隨著新冠的影響蔓延到世界每一個角落,所有的目光都集中在高性能計算上,大家也很關注該技術將如何助力抗擊此次疫情和未來可能爆發的疫情。這是激動人心的時刻,讓我們直接進入演講,談談擴展高性能計算邊界:多架構時代這一話題。
在此次新冠疫情爆發期間,高性能計算在社會中發揮的作用和重要性比以往更為明顯。事實證明,科技是讓社會各界延續正常生活的重要工具。無論是上網課、遠程工作,或是以前所未有的規模提供線上醫療服務。4月,英特爾發布了科技抗疫計劃,提供5000萬美元幫助世界各地的人們渡過難關。英特爾正與客戶、合作夥伴以及政府機構合作,發掘我們無可匹敵的生態系統之潛力,用於改善患者在醫療點的治療效果,為衛生系統提供支持以應對疫情衝擊,並加速治療方法和疫苗研發的進度,為當務之急提供解決方案。我很高興,能與大家分享英特爾生態系統開展合作的一些領域。在疫苗和治療方面,世界各地的超級計算機均在高速運轉,以對抗新冠病毒,英特爾 技術為德州大學高級計算中心(TACC)提供支持,助力新冠病毒、其他病毒以及DNA複製等任務。高性能計算機研究中心也啟用了英特爾技術,運行分子動力學和仿真技術,以了解病毒結構,加速新冠藥物和治療方案的探索。在尋找新的抗病毒藥物和疫苗的過程中,英特爾資本投資的VeriSIM Life開發了一個軟體平臺,該平臺有助於加快新藥的發現。該系統可在數小時內對數千種藥物化合物的實驗測試結果進行建模,加速開啟人體試驗和新藥上市時間。我們正與頂級醫學影像廠商開展合作,利用人工智慧加速工具進行基於人工智慧的診斷決策,並在安全的聯邦學習框架中,開發跨多個數據集的新冠模型。在人群分析方面,我們通過大數據分析、人工智慧和英特爾 Apache Pass技術,實現高危患者分層,提前預測新冠患者的呼吸機需求。紐約苦於應對新冠患者的時候,我們與紐約布朗克斯區最大的綜合醫療服務網絡Montefiore醫療系統開展合作,幫助他們開發出專門針對新冠的實時態勢感知系統,提前數小時識別、分流並優先處理需要機械通氣與重症監護的新冠患者,或已經出現急性呼吸窘迫綜合症的患者。這得益於Montefiore的「患者導向分析學習機」(Patient-centered Analytic Learning Machine),
又稱PALM技術。
該技術基於第二代英特爾 至強 可擴展處理器和英特爾 傲騰 技術,整合了多種數據、計算和通信密集型技術,以企業級規模及時實現人工智慧。接下來談談在高性能計算領域看到的兩大趨勢:越發常見的異構架構的使用和高性能計算與人工智慧的融合。
通用處理和工作負載優化加速至關重要。傳統的建模和仿真工作負載主要涉及標量和矢量數學計算優化。
另一方面,人工智慧並非一個單一的單體工作負載,它仍在不斷發展——需要更強大的架構能力,需囊括矩陣和空間數學優化。此外,高性能計算從邊緣,到客戶端,再到數據中心和雲基礎設施,需啟用一個多層面的方法。「一刀切」的解決方案將無法提供用以構建客戶所需優化解決方案必備的正確功率、計算或延遲選項。
日益豐富的人工智慧使用場景,將我們推向計算智能進一步強化的新時代,模式的變革推動著人工智慧和高性能計算工作負載的融合。現如今,我們看到,這一融合以多種方式發生在各行各業,其主要目標便是實現人工智慧——加速傳統上完全由高性能計算完成的洞察。人工智慧正被整合到高性能計算工作流當中,以加速模式檢測,在某些情況下,比如CERN,人工智慧模型正完全取代基於物理學的模型。人工智慧也在為個性化醫療等領域的高性能計算仿真提供加速。在瑞金醫院,研究人員正利用機器學習算法來預測患者的個體風險,並能夠更準確、更精確地識別哪些患者將從特定療法中獲得最大受益。這項研究是「轉化醫學國家重大科技基礎設施(上海)」 這一重大計劃的一部分,將為上海打造一個綜合轉化醫學中心,囊括疾病預防、早期診斷和個性化治療的模型與方法,解決重大疾病的發生、發展和復發等重大科學問題,促進高端醫療產業技術的研發。英特爾正與瑞金開展合作,利用英特爾 至強 處理器和英特爾 傲騰 內存為其構建高性能計算和人工智慧基礎設施。
英特爾多架構策略正是著眼於實現這一目標。英特爾的多架構策略帶來了部署在矽平臺上的標量、矢量、空間和矩陣架構的多樣化組合,例如CPU、GPU、FPGA和專用加速器等等,並由開放、符合行業標準的統一編程模型提供支持,以簡化應用開發和可移植性。從多用途CPU到人工智慧優化離散式專用集成電路,英特爾提供了最靈活且性能得到優化的產品組合。如今,客戶可以通過英特爾 至強 可擴展處理器、英特爾 酷睿 CPU和英特爾FPGA乃至低功耗英特爾 Movidius VPUs來應對高性能計算和人工智慧的工作負載。
收購Habana Labs後,英特爾從邊緣到雲端、從硬體到軟體的產品組合更加豐富,為客戶提供了一套完整的解決方案。對於希望加速各種工作負載的客戶而言,基於Xe架構的GPU將為他們提供更多選擇。作為高性能計算的成熟基礎,英特爾 至強 處理器將繼續作為一個得力助手,為要求最高、以人工智慧為主的工作負載提供支持。但隨著計算需求的不斷增長,以及工作負載日趨多樣化,需要通過多架構加速為CPU平臺提供補充,以滿足每個客戶的計算需求。有些用戶使用的應用,對高度並行高性能計算應用和深度學習訓練都有優化需求,英特爾基於Xe 架構的GPU便是為這些用戶量身打造的。FPGA用於要求靈活性的應用,而專用集成電路,例如我們最近收購的Habana Labs,則將為人工智慧訓練和推理提供專用加速。最後,以低延遲的方式在計算區域存儲和移動複雜大型數據集所導致的系統複雜性則需要使用新一代內存和互聯技術的支持——英特爾也一直在該領域進行創新和投資。
高性能計算和人工智慧的融合是高性能計算行業的一個關鍵拐點,目前尚沒有哪家公司能夠更好地幫助我們的客戶利用這一模式。
英特爾 至強 可擴展處理器是唯一一款針對高性能計算和人工智慧融合進行優化的數據中心CPU——通過AVX512向量SIMD擴展來加速高性能計算應用,通過英特爾 深度學習加速(英特爾 DL Boost)技術來加速人工智慧應用——尤其是VNNI指令集,能讓現有Cascade Lake處理器中的推理應用更快一步。Cascade Lake處理器支持英特爾 傲騰 持久內存,可加速數據分析和AI應用,同時推動高性能計算系統的加速檢查點和啟動等關鍵功能。我們即將在今年推出首款10nm Ice Lake伺服器CPU,而計劃於2021年推出的Sapphire Rapids,會新增名為高級矩陣擴展(AMX)的加速器。
英特爾在集成顯卡領域的投資經驗已超十年,目前已有超十億用戶使用該架構為各種客戶端應用提供支持。Xe架構代表著英特爾的架構設計,從單純考慮功耗和面積受限的集成顯卡需求,向完全可擴展的圖形架構過渡,這種架構將得到大幅拓展,以服務於多個市場,從集成顯卡和入門級獨立顯卡到高端遊戲和數據中心顯卡。Xe 是11代之後新型可擴展圖形架構的代表。英特爾的Xe架構代表了一個完整的GPU產品組合,涵蓋領域廣泛,從集成圖形到高性能計算和人工智慧等高要求的數據中心應用。基於Xe架構的GPU包括三類,從低功耗(Xe-LP),到高性能的(Xe-HP),再到針對高性能計算和人工智慧加速優化的GPU(Xe-HPC)。
在8月的架構日上,我們披露了Ponte Vecchio將由基於10nm SuperFin技術的基模、基於英特爾和外部工藝的計算區塊、基於增強型SuperFin技術的Rambo緩存以及基於外部工藝的Xe鏈路與Foveros和Co-EMIB先進封裝技術強強聯合組成。Ponte Vecchio將加入靈活的數據並行向量矩陣引擎,以應對一系列高度並行的工作負載。它旨在提供高雙精度浮點吞吐量,並提供超高緩存和內存帶寬,以處理對內存帶寬要求較高的應用。Xe架構將利用英特爾新一代Foveros 3D封裝技術,在封裝內集成多個IP,包括HBM內存和其他專利技術。
正如我提到的,異構性將是加速高性能計算和人工智慧融合的關鍵。支持計算引擎多樣性,意味著開發人員需對單獨代碼庫和工具鏈對成本和性能可能產生的影響進行管理,這就是我們與生態系統合作推出oneAPI的原因。oneAPI的建立是為了簡化跨多種類型處理器和加速器的開發——不僅限於英特爾的硬體。基於行業標準和開放規範的oneAPI包含直接編程組件和基於API的編程組件,支持廣泛的行業生態系統採納該技術來推動創新、簡化應用開發、實現應用在大量節點上的可擴展性——同時為您目前使用的、喜愛的程式語言提供支持。
英特爾 oneAPI工具包(beta版)可公開免費下載,為不同硬體類型的代碼移植、測試工具、測試工作負載提供測試環境。自從在2019年超級計算大會上發布oneAPI以來,我們發布了8個oneAPI工具包(beta版),功能和性能穩步提升,可以對CPU、GPU和FPGA進行編程,同時也為分布式數據分析、渲染性能、剖析以及視頻和線程庫提供了新功能以及強化。oneAPI Gold將為開發者提供一個跨越標量、矢量、矩陣和空間,且具有生產質量和性能的解決方案,oneAPI Gold即將於今年為開發者推出。行業合作夥伴Codeplay已經為英偉達GPU開發了Data Parallel C++開源編譯器,為使用現有GPU加速器的開發者提供統一的、基於行業標準的編程工具。雖然英特爾優化版的TensorFlow和Pytorch深度學習框架目前已經可以用於CPU,但我們正在繼續對GPU進行優化,應該會在不久的將來推出。最後,您可以訪問oneapi.com,查找規範、開源實現,並提供關於oneAPI的反饋。
對於不想下載工具包的人,您也可通過雲端使用工具包。開發者可以通過英特爾 DevCloud快捷使用,從註冊到登錄只需要一分鐘。使用起來也很簡單,只需修改一行代碼就可以應對所有多架構,而且無需安裝、無需下載、無需購買新硬體,也沒有冗長的設置和配置步驟。最重要的是,該工具免費、快速,即刻就可以在您已有的至強 、FPGA和集成系統上開始編碼。部分客戶在籤署保密協議的情況下已經開始使用英特爾 DG1 GPU。
概括說來,我們通過以下措施專注打造融合的未來:投資領先工藝技術和先進封裝能力;打造計算架構,為您的所有工作負載提供最高性能;重新架構內存和存儲層次,滿足帶寬和內存容量需求;通過革命性互聯技術,在每個層次上實現安全技術;為現在和未來的異構系統提供統一的編程模型。而我想說的最後一點是,沒錯,英特爾不僅在對我們的領先技術進行投資,也在投資未來的技術領導者。
英特爾自2013年開始贊助並行應用挑戰賽,吸引了來自中國40多個城市的學生參賽,300多所大學和160多個組織參加了比賽。組建了1200多支隊伍,有超過7000人參加了這項賽事。賽事的規模每年都在持續擴大,其概念和挑戰也越來越有趣,成為了表彰傑出成就和高性能計算應用的盛會,也是並行計算領域優秀人才的搖籃。請繼續保持在高性能計算領域的出色工作和投入,加油!
接下來,謝謝各位。謝謝你們邀請我再度出席全國高性能計算學術年會,希望大家能夠盡情享受接下來的活動。
《親愛的數據》出品