【新智元導讀】Google 今天分享了第四代 TPU 晶片的細節,據官方介紹,該晶片主要用於訓練人工智慧模型,平均性能是上一代的2.7倍。
2018年,谷歌在其年度 I/O 開發者大會上宣布了第三代產品,在今天上午剛剛揭開了第四代TPU產品的神秘面紗,該產品目前尚處於研發階段。
MLPerf 最新發布的一套人工智慧性能基準指標顯示,第四代 TPU集群大幅超越了第三代 TPU的能力,甚至在目標檢測、圖像分類、自然語言處理、機器翻譯和推薦基準等方面,部分能力超越了英偉達最新發布的 A100。
MLPerf是致力於機器學習硬體、軟體和服務的訓練和推理性能測試的組織,在AI業界頗受晶片巨頭的關注。MLPerf組織囊括了該行業中的70多個知名企業和機構,包括英特爾、英偉達、Google、亞馬遜、阿里巴巴和百度、微軟、史丹福大學在內。
谷歌第四代 TPU 的平均性能是上一代2.7 倍
沒有最強,只有更強!
谷歌稱其第四代 TPU 提供的每秒浮點運算次數是第三代 TPU 的兩倍多,第三代 TPU 的每秒矩陣乘法相當於1萬億次浮點運算。
在內存帶寬方面,也表現出了「顯著」的增長,晶片從內存中獲取數據進行處理的速度、執行專門計算的能力都有所提高。谷歌表示,總體而言,第四代 TPU 的性能在去年的 MLPerf 基準測試中比第三代 TPU 的性能平均提高了2.7倍。
TPU是谷歌在2015年推出的神經網絡專用晶片,為優化自身的TensorFlow機器學習框架而打造,跟GPU不同,谷歌TPU是一種ASIC晶片方案,屬於專門定製的晶片,研發成本極高。
谷歌的處理器是專門為加速人工智慧而開發的應用集成電路(asic)。它們是液體冷卻的,可以插入伺服器機架; 可以提供高達100petaflops 的計算能力; 還可以支持谷歌產品,如谷歌搜索、谷歌照片、谷歌翻譯、谷歌助理、谷歌郵箱和谷歌雲計算人工智慧API。
谷歌人工智慧軟體工程師 Naveen Kumar 在一篇博客文章中寫道: 「這表明我們致力於推進機器學習研究和工程的規模化,並通過谷歌開源軟體、谷歌產品和谷歌雲將這些進步傳遞給用戶」。
「機器學習模型的快速訓練對於研究和工程團隊來說至關重要,意味著團隊可以提供以前無法實現的新產品、服務和研究突破。」
ImageNet圖像分類任務,256個TPU1.82分鐘完成訓練
今年的 MLPerf 結果顯示,谷歌的第四代TPU幾乎無可挑剔。在一個圖像分類任務中,用 ImageNet 數據集訓練ResNet-50 v1.5達到75.90% 的準確率,256個第四代 TPUs 可以在1.82分鐘內完成。
這個速度是什麼概念,幾乎相當於768個英偉達 A100顯卡和192 個AMD Epyc 7742 CPU 內核(1.06分鐘)和512個華為 ai 優化的 ascen910晶片與128個英特爾至強鉑金8168內核(1.56分鐘)的速度。
第四代TPU的訓練時間為0.48分鐘,打敗了第三代TPU,但這或許只是因為第三代是4096個TPU串聯的原因。
第四代 TPU 在運行 Mask R-CNN 模型時獲得了最強的效果,Mask R-CNN 模型是用於自動駕駛等領域的圖像分割 AI,其訓練速度是第三代TPU的 3.7 倍。
目標檢測任務四代TPU略微領先
在 MLPerf 的「重量級」目標檢測類別中,第四代 TPU略微領先。一個參考模型(Mask R-CNN)用 COCO 語料庫在256個第四代TPU上進行9.95分鐘的訓練,接近512個第三代TPU的時間(8.13分鐘)。
在WMT 英德翻譯數據集上訓練 Transformer 模型,256個第四代 TPU 在0.78分鐘內完成。4,096個第三代 TPU要發花費 0.35分鐘,480個 Nvidia A100(外加256個 AMD Epyc 7742 CPU 內核)要花費0.62分鐘。
第四代TPU在維基百科等大型語料庫上訓練 BERT 模型時也表現良好。使用256個第四代 TPU的訓練時間為1.82分鐘,僅比使用4096個第三代 TPUs 的0.39分鐘稍慢。同時,使用 Nvidia 硬體0.81分鐘就能完成訓練,但需要2048塊 A100卡和512塊 AMD Epyc 7742 CPU 內核。
最新的 MLPerf ,包括新的和修改過的基準測試--推薦系統和強化學習,對於 TPU來說是喜憂參半。
由64個第四代 TPU 組成的集群在推薦任務中表現良好,花了1.12分鐘在 Criteo AI 實驗室的 1TB 點擊率日誌數據集訓練了一個模型,而八塊 Nvidia A100卡和兩塊 AMD Epyc 7742 CPU 核心用了3.33分鐘才完成訓練。
但英偉達在強化學習方向上取得了領先,用256塊 A100卡和64塊 AMD Epyc 7742 CPU 核心,用了29.7分鐘,成功訓練了一款簡化版圍棋模型,獲勝率達到50% ,而256個第四代 TPU一共花了150.95分鐘。
需要注意的一點是,Nvidia 的硬體基準是 Facebook 的 PyTorch 框架和 Nvidia 自己的框架,而不是 Google 的 TensorFlow,第三代和第四代的 TPU 都使用了 TensorFlow、 JAX 和 Lingvo。雖然這可能對結果有些影響,但在基準測試中還是能看出第四代 TPU 有著明顯優勢。
參考連結:
https://venturebeat.com/2020/07/29/google-claims-its-new-tpus-are-2-7-times-faster-than-the-previous-generation/