AI性能基準測試從此有了「中國標準」!英偉達、谷歌可以試試這套算力卷

2021-01-14 量子位
金磊 發自 凹非寺
量子位 報導 | 公眾號 QbitAI

在秀算力這件事上,近幾年一個叫MLPerf的AI性能基準測試,經常躍入人們的視線。

為了拿這個標準證明實力,英偉達谷歌等「算力」大廠的表現,可謂是賺足了眼球。

早在2018年12月,也就是MLPerf首次出爐之際,英偉達便基於自家Tesla V100,在包括圖像分類、物體分割、推薦系統等六項測試中均取得優秀成績,拿下全場最佳

而此後,英偉達更是頻頻刷榜,就在剛剛過去不久的最新性能測試中,英偉達又憑藉A100 GPU打破了八項AI性能紀錄。

谷歌方面也是毫不示弱,憑藉4096塊TPU V3將BERT的訓練時間縮短到了23秒。

對此,谷歌AI掌門人Jeff Dean還在社交平臺發文表示:

很高興看到MLPerf 0.7的結果,谷歌TPU在八項基準測試中,創造了六項紀錄。

我們需要(換)更大的標準了,因為我們現在在30秒內,就可以訓練ResNet-50、BERT、Transformer、SSD 等模型。

那麼問題來了,令這些「算力」大廠們競相追逐的MLPerf這套「考題」,真的是「AI性能基準測試的唯一標準」嗎?

不見得。

要達到理想的AI或者高性能計算(HPC)基準測試,具有三方面的挑戰:

首先,基準工作負載(workload)需要表示關於硬體利用率、設置成本和計算模式等的實際問題。

其次,基準測試工作負載最好能夠自動適應不同規模的機器。

最後,使用簡單、較少的指標,就可以衡量AI應用上的整個系統性能。

反觀MLPerf,正如Jeff Dean所言,它具有固定的工作負載大小,這本身或許就是個錯誤。

因為增加的算力,應當被用來解決更大規模的問題,而不是用更少的時間去解決相同的問題。

而像LINPACK這樣的基準測試,在沒有代表性工作負載的情況下,又無法反映AI的跨棧性能。

針對上述問題,清華大學、鵬城實驗室、中科院計算所聯合推出了一套「中國AI試卷」——AIPerf

簡單來說,AIPerf的特點如下:

那麼,中國的這套「AI試卷」具體難度幾何?科學與否?

還請各位看官繼續品讀。

中國的這套「AI試卷」長什麼樣?

攤開這套「AI試卷」,全貌如下:

AIPerf基準測試工作流程圖

剛才也提到,AIPerf是基於AutoML算法來實現,在框架方面,研究人員選擇的是一款較為用戶友好的AutoML框架——NNI (Neural Network Intelligence)。

但在此基礎上,研究人員針對「AI加速器閒置」、「模型生成耗時」等問題,對NNI框架進行了修改。

AIPerf的工作流程如下:

通過SSH訪問主節點,收集從屬節點的信息,並創建SLURM配置腳本。

主節點通過SLURM,將工作負載並行和異步地分配給對應請求和可用資源的從屬節點。

從屬節點接收到工作負載後,並行地進行架構搜索和模型訓練。

從屬節點上的CPU,據當前歷史模型列表搜索新的架構(該列表中包含了測試數據集上詳細的模型信息和精度),然後將架構存儲在緩衝區(如網絡文件系統)中,以便後期訓練。

從屬節點上的AI加速器加載「候選架構」和「數據」,利用數據並行性與HPO一起訓練後,將結果存儲在歷史模型列表中。

一旦滿足條件(如達到用戶定義的時間),運行就會終止。根據記錄的指標計算出最終結果,然後上報。

做完這套「AI試卷」,得到的分數又該如何來衡量和排名呢?

我們知道,FLOPS是當前最常用來反映高性能計算整體計算能力的性能指標。

在這套「試卷」中,研究人員還是用FLOPS作為主要的指標,直接描述AI加速器的計算能力。

在AIPerf中,浮點數運算速率被當作一個數學問題來求解。通過對深度神經網絡的分解,對每個部分的運算量進行解析的分析,得到浮點數運算量。

結合任務運行時間,即可得到浮點數運算速率並作為benchmark分數。

理論到位了,實驗就要跟上。

硬體規格方面如下:

評估環境的詳情如下:

最後,公布性能結果

研究人員在各種規模的機器上運行了AIPerf這項基準測試,主要對兩方面特性做了評估,分別是穩定性可擴展性

從10個節點到50個節點,最多有400個GPU。所有的中間結果,包括生成的架構、超參數配置、每個時間點的精度和時間戳,都記錄在日誌文件中。

下圖展示了用不同規模的機器進行評估的「基準分數」和「規範分數」(單位均為FLOPS),隨時間產生的變化。

結果表明,AIPerf基準測試具有魯棒性和線性可擴展性。

接下來,是在不同規模機器下,GPU及其內存利用率的相關評估。

從圖中可以發現,AI訓練卡整體的計算和內存利用率很高(均大於90%)。在不同模型之間的過渡階段,由於數據的加載和計算圖的編譯等原因,利用率會有所下降。

為什麼要出這套「試卷」?

「瀏覽試卷」後,就需要思考一個問題:

為什麼要出AIPerf這套AI基準測試?

這個問題就需要「由表及裡」地來看待。

首先,從表象來看,類似MLPerf和LINPACK基準測試程序,自身存在一些漏洞和問題:

雖然諸如此類的評測標準,目前來看是具有一定的價值和意義,但客觀存在的不足也是不容忽視。

畢竟在當前人工智慧飛速發展的大環境下,算力顯得格外重要,而完備及更加科學的「基準測試」,將有助於算力的發展。

由此看來,「基準測試」和「算力」更像一對作用力反作用力

其次,從深層意義來看,發展算力,是非常必要的。

對於高性能計算來說,早在1993年便誕生了「TOP500」榜單,從一開始的美國、日本霸榜,到中國算力的崛起,不難看出國家在這項建設中的投入。

原因很簡單,高性能計算對於各個國家發展航天事業、石油勘探、水利工程,再到新興的高科技產業,都起到至關重要的作用。

但伴隨著AI的興起,改變了一往傳統高性能計算的「求解方法」——AI+HPC才是未來算力的發展趨勢。

近年來TOP500榜單,便能體現這一點:

榜單中近30%系統擁有加速卡/協處理器,也就是說,越來越多的系統配有大量低精度算術邏輯單元,用來支撐人工智慧計算能力需求。

而在我國,也有越來越多的企業,開始或已經布局其中。

例如華為、浪潮、聯想等,均拿出了自家強悍產品,在諸如TOP500、MLPerf等榜單中大顯身手。

再從實際應用層面來看,或許你覺得發展算力對平民百姓並沒有用,但其實不然。

恰好每年大血拼的「雙11」即將來臨,而每個電商平臺背後,都有一套強有力的推薦系統,也就是用戶經常看到的「猜你喜歡」功能。

推薦得準不準、快不快,很大程度上也是依賴於AI算力的強大與否。

再則,每年上千億元成交額,能夠保證及時付款成功,AI算力也是功不可沒。

……

最後,回到最初的那個問題:

中國出的這套「AI試卷」,即ALPerf,英偉達、谷歌等老牌算力大廠又會有怎樣的表現?

「超級算力大會」

一切的謎底,均將在《第二屆中國超級算力大會ChinaSC》中揭曉。

在這場大會中,將匯聚國內外院士、知名學者和產業大咖,圍繞超級計算、新基建、雲計算、大數據、人工智慧、區塊鏈等新一代信息技術前沿技術進展。

當然,重頭戲,將發布兩大重磅榜單:

此外,還有一系列精彩內容值得關注:

2020年業內知名院士和專家前沿技術分析和解讀

2020中國超級計算產業趨勢分析和預測

2020中國大數據與智能計算產業領軍企業頒獎

《2020中國超大規模雲數據中心考察報告》

是騾子是馬,到時候看看。

11月15日,北京麗亭華苑大酒店,這場算力盛,你值得關注。

論文地址:
https://arxiv.org/pdf/2008.07141.pdf

論文作者:
Zhixiang Ren,Yongheng Liu,Tianhui Shi,Lei Xie,Yue Zhou,Jidong Zhai,Youhui Zhang,Yunquan Zhang,Wenguang Chen

本文系網易新聞•網易號特色內容激勵計劃籤約帳號【量子位】原創內容,未經帳號授權,禁止隨意轉載。

「2020中國人工智慧年度評選」報名中!評選將從公司、人物、產品、社區四大維度共7個獎項尋找優秀的AI企業,歡迎大家掃碼報名參與。 評選報名截止於11.20,並將於12月16日揭曉,也期待與百萬從業者們,共同見證這些優秀企業的榮譽!

一鍵三連「分享」、「點讚」和「在看」

科技前沿進展日日相見~


相關焦點

  • 英偉達「黃氏定律」:AI晶片性能每年翻倍|硬核時間
    超越英特爾成為「全球最聰明公司(市值最高的晶片設計公司)」之後,英偉達在「為一切裝上大腦」的道路上越跑越快。今天的 GTC 計算大會,英偉達依然秀出了強勁的AI肌肉。不僅聲稱「吊打」了華為、谷歌、英特爾、賽靈思等半導體巨擘,還公布了一系列聽起來堪稱科幻的黑科技,包括每瓦 100TOPS 的超高能耗比晶片,以及高達 800Gbps 的光子網絡等。吊打華為谷歌英特爾?
  • 華為搜尋引擎面世:用不了谷歌,試試「花瓣搜索」?
    自 2019 年 5 月以來,在美國政府的「禁令」之下,谷歌宣布停止與華為合作,尤其是不再提供谷歌移動服務(GMS)。這就迫使海外市場用戶在購買華為手機時不得不考慮不能使用谷歌移動服務所造成的影響,也為華為手機的海外銷售造成一定影響。
  • 微軟和谷歌的人工智慧,在SuperGLUE基準測試中超越了人類
    基於一年前推出的GLUE基準,SuperGLUE包含了一系列更難理解的語言挑戰、改進的資源和公開的排行榜。當SuperGLUE剛被推出時,排行榜上表現最佳的模式和人類表現之間有近20個百分點的差距。但截至1月初,有兩個模型:微軟的DeBERTa和谷歌的T5 + Meena——已經成為第一個超越人類基線的模型。
  • 史上評分最高的谷歌 App,「Files Go」中國特別版正式發布
    去年年底,谷歌在海外發布了一款文件管理器「Files Go」,除了整理文件和清理空間之外,它還支持類似 AirDrop 的功能,極客公園也第一時間做了推薦。這款 App 無論是在顏值、體驗還是功能上,都可以說是頂尖的文件管理工具,滿分推薦。而今天,這款 App 推出了針對中國用戶的版本。
  • 動態基準測試Dynabench已發布,Facebook想用人類來「審問」人工智慧
    準確的比較是驗證新模型確實優於該領域現有模型的先決條件這個過程被稱為「基準測試」,即Benchmark。研究人員可以利用人工智慧進行對比測試,看看它到底有多先進。例如,ImageNet,一個由1400萬張圖像組成的公共數據集,為圖像識別設定了目標。
  • 「史上最強」再進一步,英偉達發布科研級 GPU
    這使得數據可以快速傳輸到全球最快的數據中心 GPU A100 上,使研究人員能夠更快地加速其應用,處理最大規模的模型和數據集。NVIDIA 應用深度學習研究副總裁 Bryan Catanzaro 表示:「若想獲得 HPC 和 AI 的最新研究成果,則需要構建最大的模型,而這需要比以往更大的內存容量和更高的帶寬。
  • 在「古板遲緩」的晶片產業,一群「寒武紀」們誕生的意義與挑戰
    而這正是為何從英偉達、英特爾等老牌半導體巨頭,再到 Cerebras Systems、Wave Computing 等明星AI 晶片初創公司,都在競相開發供 AI 算法專用的晶片。從某種意義上,這些晶片能夠根本改變計算機的製造方式。而在這些恰逢其時出現的idea與創業公司中,就包括最近風頭正勁的全球第一家晶片獨角獸——中國創業公司「寒武紀」。
  • 蘇姿豐發布RDNA2架構RX 6000系列新顯卡,與英偉達RTX 3000決戰...
    新卡在遊戲性能上實現了和英偉達「並駕齊驅」,價格也極具誘惑力最低579美元。顯卡的競爭或許只是晶片大戰的冰山一角,蘇姿豐將帶領AMD和英偉達在更多行業晶片領域上演「終極之戰」。 AMD新卡堪稱性價比之王,遇上老牌霸主能否並駕齊驅? 剛剛,AMD 召開了本月最後一次發布會。
  • 用正確方法對度量學習算法進行基準測試
    這樣,我們可以確定是新算法提高了性能,而不是一個無關的參數提高了性能。但是在基準度量學習論文中並非如此:1.網絡架構並沒有保持不變。有些論文用 GoogleNet,而最近的許多論文都在使用 BN-Inception,有時被稱為 batch 標準化的開端「Inception with Batch Normalization」。
  • Bengio 團隊力作:GNN 對比基準橫空出世,圖神經網絡的「ImageNet...
    對於其中的兩個計算機視覺數據集,作者將經典的 MNIST 和 CIFAR10 數據集中的每張圖片使用「super-pixel」技術轉換為圖的形式(詳見原文第 5.2 節)。接下來的任務就是對這些圖進行分類。表1:已提出的基準數據集統計表「PATTERN」和「CLUSTER」數據集是根據隨機分塊模型生成的(詳見原文第 5.4 節)。
  • AI性能暴漲7倍,AMD昨夜發布Instinct MI100新卡,英偉達也祭出百億...
    它提供超過每秒2 terabytes的內存帶寬,這使得系統能夠更快地將數據提供給 GPU。  「超級計算已經發生了深刻的變化,從專注於模擬擴展到人工智慧超級計算,數據驅動的方法現在正在補充傳統的模擬,」 Kharya 說,他還補充說道,「Nvidia 的端到端的超級計算方法,從模擬的工作流到人工智慧,是必要的保持進步」。
  • 永久免費使用谷歌GPU?英偉達可能要發布專用於挖礦的GPU
    Colab的使用不需要設置,甚至不需要登錄(只要已經登錄谷歌帳號)。最棒的是,Colab提供無限量12小時連續訪問k80 GPU,這是非常強大的。(12小時候連接會被斷開,但你可以無限次使用。)初創公司Rare Technologies最近發布了一個超大規模機器學習基準,聚焦GPU,從配置到訓練時間、精度、價格等各方面對比了AWS、谷歌雲、IBM等6家GPU硬體平臺,這幾家在機器學習成本、易用性、穩定性、可擴展性和性能等方面的性能如下:
  • 「深度」谷歌再次聲明實現量子霸權,IBM:我不服!
    當前實現量子霸權絕非易事,而且,實現量子霸權也只是一個開始,離實現實際的量子計算機尚有很大距離。自 2011 年 John Preskill 教授在一次演講中提出「量子霸權」的概念,IBM、Google、Intel、微軟,以及一些創業公司就開始加大對量子計算的投資和研發;該領域的競爭也越來越激烈。中國最先開啟量子霸權標準的研究。
  • 歐盟對谷歌處以 43.4 億歐元的反壟斷罰款;谷歌 CEO 抗議歐盟罰單...
    (來源:鳳凰網科技)英偉達、Oculus、微軟、AMD 和 Valve 聯盟推出統一 USB-C VR 單線纜連接標準由 AMD、英偉達、Oculus、Valve 和微軟等公司組成的聯盟 VirtualLink 日前宣布推出 PC VR 的開放式行業連接標準,VR 頭戴式設備與 PC 之間的連接線將統一為單根
  • ACL 2019 論文:谷歌提出增強神經網絡機器翻譯魯棒性的新方法
    結果表明,該方法提高了 NMT 模型在標準基準上的性能。在本文中,作者 Yong Cheng、 Lu Jiang 和 Wolfgang Macherey 對其在 ACL 2019 上發表的《具有雙對抗性輸入的魯棒神經機器翻譯》論文進行了介紹。
  • 用AI「馴服」人類幼崽:這個奶爸找到了硬核帶娃的樂趣
    為了能安心看幾集 Netflix 劇,技術宅奶爸都做了些什麼……長期以來,「奶爸」+「萌娃」一直是一個不被看好的組合,甚至有人說,「父愛如山體滑坡」。不信的話,以下都是證據:眾所周知,人類幼崽似乎是臺永動機,在一天 24 小時任何時間段裡都有可能向你發難。你能讓自己睡個安穩覺的方法看來是在白天消耗他們的精力,因此人們想出了各種各樣的方法。
  • 「2020中國AI算力報告」重磅出爐:中國怎麼解決GPT-3的算力難題?
    我們可以用petaflops/s-day這個單位來衡量算力,可以玩「變臉」的生成對抗網絡(GAN)大概需要3petaflop,目前全球第一快的超級計算機日本的富嶽Fugaku ,每秒550petaflop;而GPT-3計算需求居然達到了3640petaflop。
  • 日報| 英偉達發布兩款基於Pascal的深度學習晶片
    英偉達發布兩款基於Pascal的深度學習晶片9 月 13 日,NVIDIA(英偉達)在北京國際飯店會議中心召開 GTC China 2016 大會。Udacity聯合英偉達與奔馳,推出「無人駕駛車」課程在最新的 TechCrunch Disrupt 2016 大會上,優達學城(Udacity)正式對外發布了「無人駕駛工程師」的納米學位,這也是全球首門可以在線學習的無人駕駛車工程師培訓項目,由優達學城(Udacity)聯合梅賽德斯-奔馳、NVIDIA 以及剛被 Uber 收購的 Otto
  • 英偉達開源Imaginaire:九大圖像及視頻合成方法,你學fei了嗎?
    近幾年,英偉達提出了 SPADE、MUNIT 等多個圖像及視頻合成模型。近日,英偉達又開源了一個新的 PyTorch 庫「Imaginaire」,共包含 9 種英偉達開發的圖像及視頻合成方法。SPADE/GauGAN在 GTC 2019 上,英偉達展示了一款交互應用「GauGAN」。它可以輕鬆地將粗糙的塗鴉變成逼真的傑作,令人嘆為觀止,效果堪比真人攝影師作品。GauGAN 應用主要使用的技術,就是英偉達的 SPADE。
  • 谷歌發布地圖「時光機」:100年前,你家街道長啥樣?
    △大谷Spitzer現在,除了用AI修復老影像資料,谷歌還發布了新的「時光旅行」方案。就像這樣,用3D視角,一覽1890年到1970年曼哈頓切爾西區的建築變化。這樣一臺「時光機器」的引擎,是谷歌推出的基於瀏覽器的工具集rǝ(音return),主要由3部分組成:一個眾包平臺。用戶可以上傳城市歷史地圖,將其與現實世界的坐標進行匹配,完成地理修正,並將其矢量化。 一個時空地圖伺服器。能顯示城市地圖是如何隨時間變化的。 一個3D體驗平臺。運行在rǝ地圖伺服器之上,利用深度學習,根據有限的歷史圖片和地圖數據重建3D建築,創造3D體驗。