Google第四代TPU 細節曝光!MLPerf榜單決戰英偉達A100

2020-12-03 新智元

【新智元導讀】Google 今天分享了第四代 TPU 晶片的細節,據官方介紹,該晶片主要用於訓練人工智慧模型,平均性能是上一代的2.7倍。

2018年,谷歌在其年度 I/O 開發者大會上宣布了第三代產品,在今天上午剛剛揭開了第四代TPU產品的神秘面紗,該產品目前尚處於研發階段。

MLPerf 最新發布的一套人工智慧性能基準指標顯示,第四代 TPU集群大幅超越了第三代 TPU的能力,甚至在目標檢測、圖像分類、自然語言處理、機器翻譯和推薦基準等方面,部分能力超越了英偉達最新發布的 A100。

MLPerf是致力於機器學習硬體、軟體和服務的訓練和推理性能測試的組織,在AI業界頗受晶片巨頭的關注。MLPerf組織囊括了該行業中的70多個知名企業和機構,包括英特爾、英偉達、Google、亞馬遜、阿里巴巴和百度、微軟、史丹福大學在內。

谷歌第四代 TPU 的平均性能是上一代2.7 倍

沒有最強,只有更強!

谷歌稱其第四代 TPU 提供的每秒浮點運算次數是第三代 TPU 的兩倍多,第三代 TPU 的每秒矩陣乘法相當於1萬億次浮點運算。

在內存帶寬方面,也表現出了「顯著」的增長,晶片從內存中獲取數據進行處理的速度、執行專門計算的能力都有所提高。谷歌表示,總體而言,第四代 TPU 的性能在去年的 MLPerf 基準測試中比第三代 TPU 的性能平均提高了2.7倍。

TPU是谷歌在2015年推出的神經網絡專用晶片,為優化自身的TensorFlow機器學習框架而打造,跟GPU不同,谷歌TPU是一種ASIC晶片方案,屬於專門定製的晶片,研發成本極高。

谷歌的處理器是專門為加速人工智慧而開發的應用集成電路(asic)。它們是液體冷卻的,可以插入伺服器機架; 可以提供高達100petaflops 的計算能力; 還可以支持谷歌產品,如谷歌搜索、谷歌照片、谷歌翻譯、谷歌助理、谷歌郵箱和谷歌雲計算人工智慧API。

谷歌人工智慧軟體工程師 Naveen Kumar 在一篇博客文章中寫道: 「這表明我們致力於推進機器學習研究和工程的規模化,並通過谷歌開源軟體、谷歌產品和谷歌雲將這些進步傳遞給用戶」。

「機器學習模型的快速訓練對於研究和工程團隊來說至關重要,意味著團隊可以提供以前無法實現的新產品、服務和研究突破。」

ImageNet圖像分類任務,256個TPU1.82分鐘完成訓練

今年的 MLPerf 結果顯示,谷歌的第四代TPU幾乎無可挑剔。在一個圖像分類任務中,用 ImageNet 數據集訓練ResNet-50 v1.5達到75.90% 的準確率,256個第四代 TPUs 可以在1.82分鐘內完成。

這個速度是什麼概念,幾乎相當於768個英偉達 A100顯卡和192 個AMD Epyc 7742 CPU 內核(1.06分鐘)和512個華為 ai 優化的 ascen910晶片與128個英特爾至強鉑金8168內核(1.56分鐘)的速度。

第四代TPU的訓練時間為0.48分鐘,打敗了第三代TPU,但這或許只是因為第三代是4096個TPU串聯的原因。

第四代 TPU 在運行 Mask R-CNN 模型時獲得了最強的效果,Mask R-CNN 模型是用於自動駕駛等領域的圖像分割 AI,其訓練速度是第三代TPU的 3.7 倍。

目標檢測任務四代TPU略微領先

在 MLPerf 的「重量級」目標檢測類別中,第四代 TPU略微領先。一個參考模型(Mask R-CNN)用 COCO 語料庫在256個第四代TPU上進行9.95分鐘的訓練,接近512個第三代TPU的時間(8.13分鐘)。

在WMT 英德翻譯數據集上訓練 Transformer 模型,256個第四代 TPU 在0.78分鐘內完成。4,096個第三代 TPU要發花費 0.35分鐘,480個 Nvidia A100(外加256個 AMD Epyc 7742 CPU 內核)要花費0.62分鐘。

第四代TPU在維基百科等大型語料庫上訓練 BERT 模型時也表現良好。使用256個第四代 TPU的訓練時間為1.82分鐘,僅比使用4096個第三代 TPUs 的0.39分鐘稍慢。同時,使用 Nvidia 硬體0.81分鐘就能完成訓練,但需要2048塊 A100卡和512塊 AMD Epyc 7742 CPU 內核。

最新的 MLPerf ,包括新的和修改過的基準測試--推薦系統和強化學習,對於 TPU來說是喜憂參半。

由64個第四代 TPU 組成的集群在推薦任務中表現良好,花了1.12分鐘在 Criteo AI 實驗室的 1TB 點擊率日誌數據集訓練了一個模型,而八塊 Nvidia A100卡和兩塊 AMD Epyc 7742 CPU 核心用了3.33分鐘才完成訓練。

但英偉達在強化學習方向上取得了領先,用256塊 A100卡和64塊 AMD Epyc 7742 CPU 核心,用了29.7分鐘,成功訓練了一款簡化版圍棋模型,獲勝率達到50% ,而256個第四代 TPU一共花了150.95分鐘。

需要注意的一點是,Nvidia 的硬體基準是 Facebook 的 PyTorch 框架和 Nvidia 自己的框架,而不是 Google 的 TensorFlow,第三代和第四代的 TPU 都使用了 TensorFlow、 JAX 和 Lingvo。雖然這可能對結果有些影響,但在基準測試中還是能看出第四代 TPU 有著明顯優勢。

參考連結:

https://venturebeat.com/2020/07/29/google-claims-its-new-tpus-are-2-7-times-faster-than-the-previous-generation/

相關焦點

  • 谷歌訓練BERT僅23秒,英偉達A100破八項AI性能紀錄,最新MLPerf榜單
    英偉達 A100 在 MLPerf 單卡性能名列前茅的全部八項測試,最新的 MLPerf 榜單中還有華為昇騰 910 的成績。英偉達 GPU 性能的提升不僅來自硬體。谷歌還在最新的博客中透露了一些關於第四代 TPU 的信息。新一代 TPU 的矩陣乘法 TFLOPs 是上一代的兩倍還多,內存帶寬顯著提高,還採用了新的互連技術。與 TPU v3 相比,TPU V4 在晶片數量類似情況下的表現平均提高了 1.7 倍。最後,一些從業者也對深度學習框架在模型訓練速度上的貢獻表示感嘆。
  • 谷歌訓練BERT只用23秒,英偉達A100打破八項AI性能紀錄,最新MLPerf...
    英偉達 A100 在 MLPerf 單卡性能名列前茅的全部八項測試,最新的 MLPerf 榜單中還有華為昇騰 910 的成績。英偉達 GPU 性能的提升不僅來自硬體。測試結果顯示,相較於首輪 MLPerf 訓練測試中使用的基於 V100 GPU 的系統,如今的 DGX A100 系統能夠以相同的吞吐率,實現高達 4 倍的性能提升。
  • 英偉達商用GPU和谷歌超算霸榜!MLPerf最新晶片跑分榜單還能看出啥?
    英偉達與谷歌霸榜 英偉達憑藉其 5 月份新發布 A100 Tensor Core GPU 和 HDR InfiniBand 架構方案,實現了八項測試的性能大幅增長。與去年的 V100 相比,A100 的訓練速度提升了 1.5 到 2.5 倍。
  • 谷歌TPU訓練BERT只要23秒,華為AI晶片超英偉達V100,MLPerf出爐
    英偉達剛發布的A100 GPU、谷歌即將推出的TPUv4,兩個冤家的AI晶片性能孰強孰弱,在這份榜單裡都能看到。除了兩家AI巨頭相爭,此次也是中國晶片首次在榜單中亮相,來自華為的昇騰910晶片實測成績曝光,性能一度超越了英偉達同類產品。MLPerf測試內容隨著AI技術的進步,今年的測試基準進一步加大了難度。
  • 英偉達GPU「屠榜」,谷歌TPU「退賽」,MLPerf最新推理榜單出爐
    在數據中心分類下,英偉達2年前的推理卡T4依然能「大殺特殺」,7月推出的A100毫無意外佔據榜單第一名。英偉達表示A100在數據中心推薦系統測試中,其表現出的性能比英特爾Cooper Lake CPU高237倍,即使是T4也比CPU高出28倍。
  • 谷歌TPU訓練BERT只要23秒,華為AI晶片達國際領先水平,MLPerf v0.7...
    英偉達剛發布的A100 GPU、谷歌即將推出的TPUv4,兩個冤家的AI晶片性能孰強孰弱,在這份榜單裡都能看到。除了兩家AI巨頭相爭,此次也是中國晶片首次在榜單中亮相,來自華為的昇騰910晶片實測成績曝光,性能一度超越了英偉達同類產品。
  • Google PerfTools 2.0 發布
    <google-perftools@googlegroups.com> * gperftools: version 2.0 * Renamed the project from google-perftools to gperftools (csilvers) * Renamed the .deb/.rpm packagse from google-perftools to gperftools
  • 谷歌第四代TPU性能首曝光,NVIDIA A100破8項AI性能...
    谷歌第四代TPU晶片性能也首次披露,得益於硬體創新及軟體優化,TPU v4的性能較TPU v3平均提升2.7倍 谷歌在此次測試中使用的是其第三代、第四代張量處理單元(TPU)以及谷歌最快的機器學習(ML)訓練超級計算機。 在最新MLPerf基準測試中,我們也看到了基於華為昇騰910晶片的兩項提交測試結果。
  • MLPerf最新AI晶片跑分:谷歌TPU和英偉達Tesla V100打破記錄
    最新一輪的訓練基準測試由英特爾、谷歌和英偉達提交。據最終測試結果顯示,英偉達的Tesla V100 Tensor Core GPU使用了英偉達DGX SuperPOD,在80秒內完成了圖像分類的ResNet-50模型內部訓練。相比之下,2017年英偉達使用DGX-1工作站來進行相同任務時,則需要8小時才能完成模擬訓練。英偉達在訓練基準結果記錄上的突破,主要來自於軟體的進步。
  • 谷歌這個大殺器要讓英偉達慌了,實戰評測:TPU相比GPU又快又省
    [1] https://www.tensorflow.org/api_docs/python/tf/contrib/tpu/TPUEstimator一旦完成所有設置,就能像普通情況一樣運行TensorFlow代碼。TPU將在啟動過程中被發現,然後計算圖被編譯並傳輸到TPU。有意思的是,TPU還可以直接從雲存儲中讀取和寫入,存儲檢查點或者事件摘要。
  • 博通與Google打造第四代TPU,傳採用7納米製程
    集微網消息 據DigiTimes消息,Google和博通繼攜手打造前三代高速定製機器學習晶片(Tensor Processing Units,TPU)處理器之後,最新消息稱第四代和第五代也將延續合作關係
  • 博通與Google打造第四代TPU,傳採用7納米製程
    集微網消息 據DigiTimes消息,Google和博通繼攜手打造前三代高速定製機器學習晶片(Tensor Processing Units,TPU)處理器之後,最新消息稱第四代和第五代也將延續合作關係,有望為博通晶片事業加注可觀成長動能
  • 谷歌第四代TPU性能首曝,NVIDIA A100破性能記錄
    谷歌第四代TPU晶片性能也首次披露,得益於硬體創新及軟體優化,TPU v4的性能較TPU v3平均提升2.7倍,此外基於TPU v3的谷歌最強ML訓練超算峰值性能超430 PFLOPs。谷歌在此次測試中使用的是其第三代、第四代張量處理單元(TPU)以及谷歌最快的機器學習(ML)訓練超級計算機。在最新MLPerf基準測試中,我們也看到了基於華為昇騰910晶片的兩項提交測試結果。
  • 英偉達A100 GPU推理性能最高達CPU的237倍!臨界點到來?
    在單數據流(Singel-Stream)測試中,A100對比英偉達T4和面向邊緣終端的英偉達Jetson AGX Xavier有幾倍到十幾倍的性能優勢。在多數據流(Multi-Stream)測試中,A100對比另外兩款自家產品在不同AI模型中有幾倍到二十多倍的性能優勢。
  • TPU
    sudo apt-get updatesudo apt-get install python3-pycoral如下載不了pythonpip3 install https:sudo apt-get dist-upgrade            run demoedgetpu_demo
  • 索尼a100單眼相機怎麼樣
    而索尼a100是索尼第一款單反數位相機,接下來我們就來看看索尼a100單眼相機怎麼樣。索尼a100單眼相機是基於柯美的a-5d製造出來的,在5d的基礎上做了一定的改進,保留了CCD防抖功能,同時增加了CCD除塵系統。
  • 7年斬獲15金,最高全球第8:英偉達數據科學家分享Kaggle競賽經驗
    機器之心專欄機器之心經授權轉載這是 Kaggle 你問我答 (AMA) 的第二期活動,本期請到的嘉賓是 Jiwei Liu,他博士畢業於匹茲堡大學,目前是英偉達的一名高級數據科學家。截至目前共斬獲 15 金 28 銀 11 銅,kaggle 最高排名全球第 8。以下是本期活動的問答集錦:Q1: 比賽初始階段,需要做一個長期的計劃嗎,比賽期間時間如何分配?A1: 我其實是很沒計劃的一個人,對於比賽我基本上是選對自己最有利的參加,一般看中的條件有:1. 數據量特別大;2.
  • Perf-性能測試和優化工具
    先整體看看該程序運行時各種統計事件的大概,再針對某些方向深入細節。而不要一下子扎進瑣碎細節,會一葉障目的。IPC:是 Instructions/Cycles 的比值,該值越大越好,說明程序充分利用了處理器的特性。branches:待查branch misses:待查perf top 命令可查看系統的實時信息例如系統中最耗時的內核函數或某個用戶進程:
  • 第四代雷克薩斯IS效果圖曝光,運動範,更狂野
    近日,外媒發布了第四代雷克薩斯IS的效果圖。新車基於第三代車型採用的New N平臺打造,外觀上採用最新的家族式設計語言,或將於2021年正式亮相。從曝光的效果圖來看,全新第四代雷克薩斯IS外觀受到了雷克薩斯最新車型的影響,保持了霸氣十足的家族式紡錘體前格柵,並且使用了蜂窩狀中網,比雷克薩斯ES的豎直瀑布格柵更加運動。