Google發布了用於機器學習應用程式的硬體加速器

2020-11-28 新華能網

谷歌發布了一系列內部設計的硬體加速器,以加速公司雲平臺上的某些機器學習工作負載。Google的新Cloud Tensor處理單元(TPU)將於本周開始用於Beta評估。每個TPU包含四個專用集成電路(ASIC)。單個TPU在單個板上可以提供多達180 teraflops的性能和高達64 GB的高帶寬內存。

根據Google產品經理John Barrus和Zak Stone的說法,這些板可以以獨立方式使用,也可以通過專用網絡連接連結在一起以形成所謂的TPU吊艙,該TPU吊艙基本上是用於運行機器學習應用程式的多個petaflop級超級計算機。兩位產品經理在2月12日的博客中表示,谷歌將從今年晚些時候開始向雲平臺客戶提供更大的超級計算機。

Barrus和Stone表示,Google的Cloud TPU旨在為使用TensorFlow開源軟體庫編程的目標機器學習工作負載提供更高的性價比。該技術將使機器學習研究人員和工程師能夠比使用當前技術更快地訓練,運行和構建他們的機器學習模型。

兩位工程師說,例如,機器學習工程師不必等待共享的計算資源可用,而現在可以通過可自定義的Google Compute Engine虛擬機獲得對專用Google Cloud TPU的專有訪問權限。

同樣,新的TPU消除​​了機器學習研究人員花費數天甚至數周時間訓練業務關鍵模型的需求。Stone和Barrus表示:「您可以在一整夜的Cloud TPU上訓練相同模​​型的多個變體,並在第二天將最精確的訓練模型部署到生產中。」

他們補充說,Google還使組織對新的Cloud TPU進行編程成為可能,而無需處理超級計算機和定製ASIC時通常需要的高度專業技能。Google為TensorFlow提供了幾種高級API,組織可以立即使用它們。

Google還向開源發布了一組模型實現,公司可以將其用作構建利用新Cloud TPU的程序的參考。這些參考模型包括用於圖像分類的模型,例如ResNet-50和Densenet,一種用於對象檢測(稱為RetinaNet),一種用於語言建模和機器翻譯。

「雲TPU還可簡化對[機器學習]計算資源的規劃和管理,」 Barrus和Stone說道。雲託管,緊密集成的機器學習計算集群消除了組織在其內部維護一個集群的需要。對於組織內部開發,部署和維護而言,這樣的基礎架構可能會非常昂貴。

Google產品經理指出,由雲託管的基礎架構還使企業能夠在需要時擴展其需求,並在不再需要時將其縮減。

相關焦點

  • 谷歌正使得開發量子機器學習應用程式變得更加容易
    TensorFlow是使機器學習變得更容易訪問的眾多工具之一,它簡化了深度神經網絡,並提供可重用代碼,這樣新的機器學習應用程式就不必從頭開始編寫。TensorFlow Quantum也將對量子機器學習進行同樣的設置。它將如何工作?
  • 自動生成硬體優化內核:陳天奇等人發布深度學習編譯器TVM
    本文由機器之心編輯,「機器之心」專注生產人工智慧專業性內容,適合開發者和從業者閱讀參考。點擊右上角即刻關注。有了 TVM,業界與學界開發者們可以快速、輕鬆地在各個系統(包括手機、嵌入式設備與低功耗晶片)上部署深度學習應用程式,同時無須擔心資源與速度的限制。「TVM 作為神經網絡和硬體後端之間的共同層,消除了為每類設備或伺服器優化各自基礎架構的需要。」
  • AutoML構建加速器優化首嘗試,谷歌發布EfficientNet-EdgeTPU
    但隨著縮小電晶體尺寸變得越來越困難,業界將重點放在了開發硬體加速器這樣的特定於域的體系架構上面,從而繼續提升計算能力。機器學習領域尤為如此,需要創建用於神經網絡加速的專門架構。但諷刺的是,雖然這些架構在數據中心和邊緣計算平臺上取得了穩步擴展,但依託它們運行的神經網絡卻很少定製化從而充分利用底層硬體。
  • 「Movidius發布最新一代VPU」集成DNN加速器,每秒超過1萬億次運算
    Movidius是晶片巨頭英特爾的子公司,專注開發視覺晶片,為機器和PC增強視覺功能。Movidius最新的這款VPU是Myriad X系統級晶片,配備了專門的神經計算引擎,能夠支持邊緣設備的深度學習推理(inferences)。Myriad X專為高速和低功耗運行深度神經網絡而設計。英特爾方面表示,這款深度神經網絡加速器可以讓DNN推理實現每秒超過1萬億次運算。
  • 谷歌全面開源 MLIR 及生態聯盟,全球 95% 的加速器硬體都在使用
    MLIR 開放的意義機器學習現在的使用範圍非常廣泛,它可以在從包含 GPU 和 TPU 的雲基礎設施到行動電話,甚至是最小的硬體(例如為智能設備供電的微控制器)上運行。正是因為將硬體和開源軟體框架(如:TensorFlow)的優勢相結合,今天我們才能看到所有令人難以置信的 AI 應用成為可能。
  • 人工智慧大顯神通,實現用機器學習算法:簡化粒子加速器的操作!
    每年來自世界各地的很多科學家都會訪問能源部SLAC國家加速器實驗室,在直線加速器相干光源(LCLS)X射線雷射器上進行數百項化學、材料科學、生物和能源研究的實驗。直線加速器相干光源從巨型線性粒子加速器產生的高能電子束中產生超亮X射線。直線加速器相干光源的實驗日以繼夜地進行,每天有兩個12小時的輪班。
  • 光學卷積神經網絡加速器:通過光學實現更強大的人工智慧
    最先進的電子硬體,如圖形處理單元和張量處理單元加速器,有助於緩解這一問題,但受到了串行數據處理的內在挑戰,因為串行數據處理需要迭代數據處理,還會遇到布線和電路限制所造成的延遲。電子硬體的光學替代品可以通過非迭代的方式簡化信息處理,幫助加快機器學習進程。然而,基於光子的機器學習通常受制於光子集成電路上可放置的元件數量,限制了互連性,而自由空間的空間光調製器則受制於較慢的編程速度。
  • oneAPI介紹說明:一個統一的、簡化的編程模型將定義未來應用程式...
    相對於今天的基於單個廠商的封閉式編程環境,oneAPI為開發者提供了極富競爭力、也更先進的可替代選擇,幫助他們在保留現有軟體投資的基礎上,搭建一座無縫連接的橋梁,從而為未來的多架構世界創造更多豐富的應用程式。為什麼英特爾能夠應對這項挑戰?英特爾已經深入開發者生態領域超過20年。
  • Xilinx與Silicon開啟硬體圖像處理機器視覺應用大門
    Software公司現場展示Silicon Software公司的VisualApplets軟體平臺,以及該平臺如何顛覆傳統的嵌入式機器視覺系統設計方法,為那些從事和尋找先進的、高性能機器視覺解決方案的嵌入式系統架構師、軟體工程師、硬體工程師帶來前所未有的嵌入式設計體驗。
  • 光學卷積神經網絡加速器:通過光學實現更強大的人工智慧!
    導讀據美國喬治·華盛頓大學官網近日報導,該校和加州大學洛杉磯分校的研究人員與深度科技創業公司 Optelligence LLC 共同開發出一種光學卷積神經網絡加速器,每秒能夠處理拍字節(1拍字節=2^50位元組)級的大量信息。
  • 粒子加速器是一種機器,一種什麼樣的機器呢?為什麼我們需要它?
    概況粒子加速器是一種能夠將基本粒子(如電子或質子)加速到非常高的能量機器。有兩種主要類型的粒子加速器:線性加速器和循環加速器。線性加速器是粒子沿著光束的線性或直線移動,而循環加速器是粒子在圓形路徑周圍移動;線性加速器用於固定目標實驗,而圓形加速器可用于波束碰撞和固定目標實驗。
  • 充分利用數位訊號處理器上的片內FIR和IIR硬體加速器
    本文引用地址:http://www.eepw.com.cn/article/202006/414545.htm摘要有限脈衝響應(FIR)和無限脈衝響應(IIR)濾波器都是常用的數位訊號處理算法---尤其適用於音頻處理應用
  • 從星際2深度學習環境到神經機器翻譯,上手機器學習這些開源項目必...
    機器學習是用數據來學習、概括、預測的研究。近幾年,隨著數據的開發、算法的改進以及硬體計算能力的提升,機器學習技術得以快速發展,不斷延伸至新的領域。從模式識別到電子遊戲,開發者們通過訓練 AI 算法實現了各種各樣好玩的應用:MarI/O 源碼地址:https://pastebin.com/ZZmSNaHX一段用神經網絡和遺傳算法寫的程序,可以玩「超級馬裡奧世界」。
  • 完全硬體指南:教你 DIY 一套自己的深度學習機器
    當然,要想自己也能玩玩人工智慧,你需要一套合適的硬體。如何才能搭建一套合適的人工智慧,尤其是當今最火的深度學習的硬體呢?為了幫助大家避免一些硬體配置的坑,深度學習的資深玩家Tim Dettmers將自己的經驗教訓總結成了這篇深度學習的完全硬體指南,供各位玩家參考。深度學習是一項非常耗算力的工作,所以你得有一個帶很多內核的CPU,對吧?或者買高速CPU也許是浪費?
  • Quora是如何使用機器學習的?
    從那時起,在Quora上使用機器學習發展的越來越快,我們不僅為現有的機器學習應用程式開發了更大更好的模型,而且還擴展了我們使用機器學習的領域。在這個答案中,我將給出一個藍圖,來描繪出在2017年Quora是如何使用機器學習的。機器學習使用實例我將介紹產品的各個不同組成部分,並討論如何在其中使用機器學習。1.
  • 攜手國際AI領袖制定AI硬體全球標準OAI,百度發布超級AI計算平臺
    由於 AI 硬體系統設計的技術難度和複雜性,其研發周期通常長達一年,並且需要投入大量的研發資源,這嚴重阻礙了新 AI 加速晶片的落地和應用。OCP 開放計算項目,是由 Facebook 攜手英特爾、Rackspace 等公司於2011年成立的一個非營利組織,也是全球雲計算基礎硬體技術領域覆蓋面最廣、最有影響力的開源組織。
  • Qeexo發布基於邊緣傳感器數據的全自動機器學習平臺AutoML
    來源:TechWeb.com.cn【TechWeb】12月3日,Qeexo奇手公司今日發布了全新的AutoML產品,這是一款一鍵式全自動化平臺,讓用戶能夠快速在邊緣設備上使用傳感器數據構建機器學習解決方案。
  • 如何評價Google神經機器翻譯(GNMT)系統?
    幾年前,Google開始使用循環神經網絡來直接學習一個輸入序列(如一種語言的一個句子)到一個輸出序列(另一種語言的同一個句子)的映射。其中基於短語的機器學習(PBMT)將輸入句子分解成詞和短語,然後對它們的大部分進行獨立翻譯,而神經網絡機器翻譯(NMT)則將整個輸入句子視作翻譯的基本單元。
  • 人工智慧、機器學習及認知計算初學者指南
    較早期的研究主要專注於強人工智慧,但在這一時期所引入的概念構成了當今所有機器學習與深度學習算法的基礎概念。出現最早的 AI 即搜索示例之一是國際跳棋程序的開發。Arthur Samuel 在 IBM 701 電子數據處理機上構建了第一款此類程序,對被稱作「貝塔剪枝算法」的決策樹實施了優化。該程序還能夠記錄特定下法的獎勵,使得應用能夠從每次棋局中進行學習(該程序也因此成為首個能夠自學習的程序)。
  • 英特爾聚焦全棧量子研究:發布多項重磅量子計算研究成果
    這些研究成果展示了量子計算在這些領域的重要進展,對於構建可運行應用程式、可擴展的商業級量子系統至關重要。值得一提的是,英特爾在此次大會上發布的《利用深度強化學習設計高保真多量子比特門》但是,由於量子計算是一種全新的計算範例,因此它需要新的硬體、軟體和算法堆棧,才能實現一個可運行應用程式的商業級量子系統。使用模擬有助於全面了解構建完整量子堆棧的所有組件,並可以提前考慮構建到實際量子系統的工作負載。在當前進行量子計算的全棧研究(涉及硬體、軟體和算法)是非常有必要的,因為隨著硬體成熟,應用程式已經準備好在小型的量子計算機上運行。