谷歌發布了一系列內部設計的硬體加速器,以加速公司雲平臺上的某些機器學習工作負載。Google的新Cloud Tensor處理單元(TPU)將於本周開始用於Beta評估。每個TPU包含四個專用集成電路(ASIC)。單個TPU在單個板上可以提供多達180 teraflops的性能和高達64 GB的高帶寬內存。
根據Google產品經理John Barrus和Zak Stone的說法,這些板可以以獨立方式使用,也可以通過專用網絡連接連結在一起以形成所謂的TPU吊艙,該TPU吊艙基本上是用於運行機器學習應用程式的多個petaflop級超級計算機。兩位產品經理在2月12日的博客中表示,谷歌將從今年晚些時候開始向雲平臺客戶提供更大的超級計算機。
Barrus和Stone表示,Google的Cloud TPU旨在為使用TensorFlow開源軟體庫編程的目標機器學習工作負載提供更高的性價比。該技術將使機器學習研究人員和工程師能夠比使用當前技術更快地訓練,運行和構建他們的機器學習模型。
兩位工程師說,例如,機器學習工程師不必等待共享的計算資源可用,而現在可以通過可自定義的Google Compute Engine虛擬機獲得對專用Google Cloud TPU的專有訪問權限。
同樣,新的TPU消除了機器學習研究人員花費數天甚至數周時間訓練業務關鍵模型的需求。Stone和Barrus表示:「您可以在一整夜的Cloud TPU上訓練相同模型的多個變體,並在第二天將最精確的訓練模型部署到生產中。」
他們補充說,Google還使組織對新的Cloud TPU進行編程成為可能,而無需處理超級計算機和定製ASIC時通常需要的高度專業技能。Google為TensorFlow提供了幾種高級API,組織可以立即使用它們。
Google還向開源發布了一組模型實現,公司可以將其用作構建利用新Cloud TPU的程序的參考。這些參考模型包括用於圖像分類的模型,例如ResNet-50和Densenet,一種用於對象檢測(稱為RetinaNet),一種用於語言建模和機器翻譯。
「雲TPU還可簡化對[機器學習]計算資源的規劃和管理,」 Barrus和Stone說道。雲託管,緊密集成的機器學習計算集群消除了組織在其內部維護一個集群的需要。對於組織內部開發,部署和維護而言,這樣的基礎架構可能會非常昂貴。
Google產品經理指出,由雲託管的基礎架構還使企業能夠在需要時擴展其需求,並在不再需要時將其縮減。