【論文】谷歌硬體工程師:數據中心的 TPU 性能分析

2020-12-17 OFweek維科網


表2:谷歌 TPU 與英特爾 Haswell E5-2699 v3、英偉達Tesla K80 的性能對比。E5 有 18 個核,K80 有 13 個 SMX 處理器。圖 10 已經測量了功率。低功率 TPU 比高功率 GPU 能夠更好地匹配機架(rack)級密度。每個 TPU 的 8 GiB DRAM 是權重內存(Weight Memory)。這裡沒有使用 GPU Boost 模式。SECDEC 和非 Boost 模式把 K80 帶寬從 240 降至 160。非 Boost 模式和單裸片 vs 雙裸片性能把 K80 峰值 TOPS 從 8.7 降至 2.8(*TPU 壓模小於等於半個 Haswell 壓模大小)。

圖5:TPU (die) roofline。 其脊點位於所獲權重內存每字節運行 1350 次的地方,距離右邊還比較遠。

表格3:TPU 在神經網絡工作載荷中性能受到限制的因素,根據硬體性能計數器顯示的結果。1,4,5,6行,總共100%,以矩陣單元活動的測量結果為基礎。2,3行進一步分解為64K權重的部分,我們的計數器無法準確解釋矩陣單元何時會停頓在第6行中;7、8行展示了計數器結果,可能有兩個原因,包括RAW管道危害,PCIe輸入停止。9行(TOPS)是以產品代碼的測量結果為基礎的,其他列是以性能計數器的測量結果為基礎的,因此,他們並不是那麼完美保持一致。這裡並未包括頂部主伺服器。MLP以及LSTM內存帶寬有限,但是CNN不是。CNN1的測試結果會在文中加以分析。

圖 9:GPU 伺服器(藍條)對比 CPU、TPU 伺服器(紅條)對比 CPU、TPU 伺服器對比 GPU(橘黃)的相對性能表現/Watt(TDP)。TPU' 是改進版的 TPU(Sec.7)。綠條顯示了對比 CPU 伺服器的比例,淡紫色顯示了與 GPU 伺服器的關係。整體包括了主伺服器的能耗,但不包括增量(incremental)。GM 和 WM 分別是幾何學圖形與加權平均值。

圖10:CNN0 平臺的單位功耗對比,其中紅色和橙色線是 GPU 加 CPU 系統的功率。藍色是英特爾 E5-2699 v3 Haswell CPU 的功率,綠色是英偉達 Tesla K80 的功率,紫色為谷歌 TPU。每個伺服器通常有多個晶片組,以上所有數字都已被整除成單晶片功率。

圖11:加權平均 TPU 性能作為度量單元,從 0.25 倍擴展到了 4 倍:內存帶寬,時鐘頻率+累加器,時鐘頻率,矩陣單元維度+累加器,以及矩陣單元維度。加權均值使得我們很難看出單個 DNN 的貢獻,但是,MLP 以及 LSTM 提升了 3 倍到 4 倍的內存帶寬,但是,更高的時鐘頻率並沒帶來任何效果。對於 CNN 來說,結果反之亦然;4 倍的時鐘率,2 倍的效果。但是,更快的內存並沒帶來什麼好處。一個更大的矩陣乘法單元並不能對任何 DNN 有幫助。

相關焦點

  • TPU加AutoML:50美元快速訓練高效的ImageNet圖像分類網絡
    谷歌上個月其實已經介紹了這種網絡,詳細內容前查看:進化算法 + AutoML,谷歌提出新型神經網絡架構搜索方法。AmoebaNet在 ICML 2017 大會中展示的論文《Large-Scale Evolution of Image Classifiers》中,谷歌用簡單的構建模塊和常用的初始條件設置了一個進化過程。
  • 寒武紀創始人陳天石:如何評價Google最新AI計算高性能專用硬體TPU
    吳恩達 據媒體報導,谷歌為了滿足自身運算量的需求,並沒有去建立更多的運算中心,而是開發了適用於AI計算的高性能專用硬體—TPU。谷歌在一篇論文中提到,其自主研發的TPU在性能上一點不輸英特爾,甚至在某些性能上還有所超越。 近年來與人工智慧相關的產品如雨後春筍般冒出來,從谷歌、百度這樣的大公司,到像寒武紀這樣的初創公司,都在積極開發與人工智慧相關的產品,那麼,目前各家人工智慧的產品究竟怎麼樣? 對此,科工力量日前專訪了寒武紀科技創始人、執行長陳天石教授。
  • SIGHPC傑出博士論文獎公布,谷歌工程師Patrick Flick獲獎
    SIGHPC 表示這篇論文對「保護大規模 HPC 應用免受『軟錯誤』(即硬體瞬時故障)影響方面做出了卓越的貢獻」。ACM SIGHPC 2020 傑出博士論文獎論文地址:https://smartech.gatech.edu/bitstream/handle/1853/61257/FLICK-DISSERTATION-2019.pdf這篇論文展示了一個可用於構建後綴樹分布式表徵的分布式存儲並行算法,相比之前的分布式存儲算法,它在理論複雜度和實際性能方面都更加優秀
  • 作為一名合格的硬體工程師要學這麼多知識?
    一個優秀的硬體工程師應該能夠在沒有參考方案的前提下設計出一個在成本和性能上更加優秀的產品,靠現有的方案,也要進行適當的可行性裁剪,但不是胡亂的來,我遇到一個工程師把方案中的5V變1.8V的DC晶片,直接更換成LDO,有時就會把CPU燒上幾個。
  • 精度延遲兩不誤,移動端性能新SOTA,谷歌TF開源輕量級EfficientNet...
    EfficientNet-Lite 為邊緣設備帶來了 EfficientNet 上強大的性能,並且提供五個不同版本,讓用戶能夠根據自己的應用場景靈活地在低延遲與高精度之間選擇。項目地址:https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet/lite即便是 EfficientNet-Lite4 這個計算量最大的版本,在 ImageNet top-1 上達到 80.4% 分類精度的同時,也能夠實時(30ms
  • 是你的數據還不夠強!谷歌大腦「數據增強」開源,大神QuocLe出品
    谷歌大腦去年提出了自動數據增強方法(AutoAugment),確實對圖像分類和目標檢測等任務帶來了益處。但缺點也是明顯的:1、大規模採用這樣的方法會增加訓練複雜性、加大計算成本;2、無法根據模型或數據集大小調整正則化強度。於是乎,谷歌大腦團隊又提出了一種數據增強的方法——RandAugment。這個方法有多好?
  • 硬體工程師的發展前途是怎麼樣的?
    我和我的小夥伴們也去找了相關老師和學長學姐了解了情況,他們實驗室畢業有做算法工程師的,有直接做了碼農。從學長學姐畢業情況來看,大多都能去很不錯的公司。當然相比做項目,他們更多地在科研,研究算法,發論文。我對這兩個方向,都不反感,但是我更喜歡硬體的那種,可以做出來實物的樂趣。當然我自己本科前三年也沒做過什麼科研,可能對科研也缺乏一些認識。
  • 電子工程師:做硬體、軟體哪個好?
    本人從事電子工程師工作已有七八年,設計硬體也編寫過軟體,包括單片機、DSP、ARM等系統軟體編寫,以及HIM人機互動軟體。本人嘗試分析一下這個問題吧。其實,以目前來看,做硬體和軟體都非常有前途的,硬體更需要專業的理論知識和經驗積累相結合,入門較難,需要掌握的知識較多,不單需要電路、模電、數電等理論知識,還需要掌握結構、工藝、元器件的參數性能、材料、廠家、標準、線路等知識,很多都需要多年的經驗積累,一個優秀的硬體工程師可以為公司節約很多成本,包括設計成本、時間成本等,在市場上也很搶手。
  • 谷歌開源硬體傳感器延時計時器 Walt
    (原標題:谷歌開源硬體傳感器延時計時器 Walt)
  • 「矽谷教父」亨尼斯、谷歌工程師帕特森獲今年圖靈獎
    他們的研究也促使人們將研究方向從尋求單純的性能提升轉向設計架構時考慮能耗、散熱,以及片外通信等問題。ACM官網稱,這本書具有開創性意義,因為它是第一本提供分析和科學框架的文本,為工程師和設計者評估微處理器設計的價值提供了方法和思路。
  • 谷歌工程師:Chrome 70% 的安全漏洞是內存安全問題,Rust 又成備選...
    近日,有谷歌工程師分析了自 2015 年以來在 Chrome 穩定版分支中修復的 912 個安全錯誤。
  • tpu是什麼材料有毒嗎 tpu生產廠家
    tpu是什麼材料有毒嗎 tpu生產廠家 2017-04-21 10:59:37 來源:全球紡織網 tpu是什麼材料有毒嗎?
  • 從GPU、TPU到FPGA及其它:一文讀懂神經網絡硬體平臺戰局
    在如今深度學習大爆發的時代,相關的硬體平臺也在百花齊放,既有英偉達和谷歌這樣的科技巨頭,也有地平線機器人和 Graphcore 等創業公司——它們都各自提出了自己的解決方案。近日,多家公司的技術顧問 Matt Hurd 在其博客上發表了一篇全面評點各種神經網絡硬體平臺的長文,機器之心對本文進行了編譯介紹。
  • 這100篇論文,使您成大數據高手……
    Hill教授主編的一個論文集式的圖書,在這本圖書中,收集了很多有關數據倉庫大規模計算的論文(註:將數據中心視為一臺計算機,與傳統的高性能計算機有很大不同。計算中心的實例將以虛擬機或者容器的形式存在,計算資源的配置對於用戶而言是透明的,這樣就大幅降低系統部署的複雜度、並提高資源使用的靈活性)。
  • 什麼是tpu材質 tpu有哪些特點
    什麼是tpu材質 tpu有哪些特點 2019-06-24 15:37:12 來源:全球紡織網 今天小編跟大家分享的內容是什麼是tpu材質。
  • 讀完這100篇論文,你就能成大數據高手!
    Hill教授主編的一個論文集式的圖書,在這本圖書中,收集了很多有關數據倉庫大規模計算的論文(註:將數據中心視為一臺計算機,與傳統的高性能計算機有很大不同。計算中心的實例將以虛擬機或者容器的形式存在,計算資源的配置對於用戶而言是透明的,這樣就大幅降低系統部署的複雜度、並提高資源使用的靈活性)。
  • 數據中心能源效率90%,谷歌、浪潮都在布局的開放計算是什麼?
    毫無疑問,OCP正是Facebook眼中的數據中心減少能耗成本、提高運維效率的理想模式:邀請伺服器產業鏈上的CPU、電源、存儲廠商加入到OCP中,共同探討開源硬體的生產標準,讓伺服器更加節能、高效。
  • 如何降低超大規模數據中心IT硬體能耗和成本
    但是,隨著本地超大規模應用程式和業務模型的激增,數據中心空間爆炸式增長對環境的影響也越來越大。 實際上,數據中心設施在其使用前期就消耗了其生命周期75%的能源:採購原材料和製造IT硬體消耗了大量能源。為了最大限度地實現可持續性,超大規模數據中心的用戶和運營商需要圍繞循環經濟實施模型,以最大限度地延長IT硬體的使用壽命,並減少整體的能源消耗。
  • SIGHPC傑出博士論文獎公布,谷歌工程師獲獎,武大畢業生獲榮譽提名
    這一獎項對全球各地以 HPC 為博士論文核心研究主題的學生開放。今年,該獎項由喬治亞理工學院 2019 屆博士畢業生、現谷歌軟體工程師 Patrick Flick 奪得,旨在表彰其研究對基於分布式存儲並行計算機的並行字符串算法所做的傑出貢獻,及其在計算生物學領域的應用。
  • SIGHPC傑出博士論文獎公布,谷歌工程師獲獎,武大畢業生獲榮譽提名
    今年,該獎項由喬治亞理工學院 2019 屆博士畢業生、現谷歌軟體工程師 Patrick Flick 奪得,旨在表彰其研究對基於分布式存儲並行計算機的並行字符串算法所做的傑出貢獻,及其在計算生物學領域的應用。此外,博士畢業於不列顛哥倫比亞大學、現美國太平洋西北國家實驗室博士後研究員 Bo Fang 獲得今年的 SIGHPC 傑出博士論文提名獎。