分析 AGI 紋理數據並提升 GPU 性能

2021-03-06 谷歌開發者

Android GPU Inspector (AGI) 能夠幫助我們洞悉 Android 設備上的 GPU 內部運行情況。對 GPU 來說，最具挑戰性的任務之一就是在著色器中獲取和過濾紋理數據。通過採集帶寬、緩存行為、濾鏡渲染三個方面的數據，我們就可以使用 AGI 監視與紋理相關的 GPU 工作負載。
我常常從觀察紋理帶寬入手，因為它表明了每幀畫面中有多少紋理數據輸入到了 GPU，進而可以快速定位潛在的性能問題。就紋理帶寬來說，一個很好的經驗法則就是確保紋理讀取帶寬 (Texture Read Bandwidth) 均值不高於 1GB/s，而峰值遠低於 5GB/s。

比如這個遊戲，它就消耗了大量的紋理帶寬，因為平均帶寬達到了 4GB/s，而到了幀結尾的部分，峰值已超過 6GB/s。

後續渲染步驟 (Post Processing steps) 對紋理帶寬需求較高是可以理解的，也許您可以在渲染的後序階段把部分帶寬使用於一些特殊的效果處理上面，比如實現光暈和色調映射。但是如果您的遊戲存在很高的紋理讀取帶寬峰值，那麼就需要注意潛在的性能問題了。

對於這個遊戲來說，紋理帶寬的消耗非常高，需要進一步分析。

要分析潛在的紋理帶寬問題，首先我會檢查紋理緩存情況。我的關注點在於紋理的停滯比例，L1 和 L2 緩存未命中的比例。當 L1 緩存未命中所需的紋理數據時，請求會轉向 L2 緩存，然後會再轉向系統內存。每一步都會增加延遲並且提高功耗。L1 的平均未命中比例不應該超過 10%，未命中的峰值比例不應該超過 50%。

這個遊戲在 GPU 系統的數據採集顯示 L1 緩存的平均未命中比例超過了 20%，而峰值已經達到 80% 甚至更高。

可見這些數據的確非常高了。

對於紋理停滯比例較高的典型原因是紋理未壓縮、複雜的過濾操作 (如非等向性過濾)，以及紋理未經 mipmap 處理。

為了分析造成紋理緩存未命中的潛在原因，我會觀察非等向性過濾 (anisotropic filtering) 的紋理獲取比例 (屬於移動終端上的耗時操作) 和非基礎級別紋理 (Non Base Level) 的獲取比例。

獲取非基礎級別紋理的比例是對 mipmap 紋理獲取效率的初略估計。當該數字為 0 時，它意味著 GPU 常常訪問最頂級的 mipmap 紋理數據，也就是紋理的 mipmap 鏈中最大的一片或者未進行 mipmap 處理的紋理。

雖然在 2D 遊戲中基本上可以接受這樣的處理，但是在 3D 遊戲中，這就算是問題了。

當渲染 GUI 或者 PostProcessing 期間訪問未經 mipmap 處理的紋理是可以的。但是在其它場景下，這樣的操作會帶來很大的性能損失，也是導致較差數據緩存效果的原因。

事實上，獲取紋理會消耗大量的系統帶寬，同時可能會造成延遲、電池壽命縮短，甚至引起過熱問題進而導致進一步的性能下降。分析紋理行為相關的 GPU 計數數據並解決所發現的問題，能夠更輕易、更大幅度地提升用戶體驗。

要發現該類型和紋理相關的 GPU 性能問題，可以使用 Android GPU Inspector 採樣您的遊戲數據，然後依據這裡為大家介紹的內容比較分析 GPU 計數器的數據和變化趨勢。https://gpuinspector.dev/ 點擊屏末 | 閱讀原文 | 使用 Android GPU Inspector 採樣您的遊戲數據

相關焦點

乾貨|使用並行裝載助力Kingbase FlySync提升數據入庫性能

Kingbase FlySync是什麼 Kingbase FlySync 是人大金倉面向異地容災、數據集中共享與分發、數據分析平臺建設、雲遷移等場景，推出的在異構數據平臺間實現實時、增量數據同步的產品，主要採用物理日誌解析技術，幫助用戶實現數據在不同數據平臺間可任意方向實時移動流轉的問題
蘋果A14性能曝光:CPU與GPU對比上代,提升有多少?

而消息傳出這麼久，也沒有一個具體的跑分數據來證明該晶片的實力，近日就有國外的報料人士給出A14晶片的具體數據，與A13對比，A14晶片CPU運算性能足足提升了40%，GPU處理能力更是提升了足足50%。
NVIDIA將推氫彈級7nm安培GPU 性能提升100%不是夢

這件事讓很多玩家極為關注，3月份的GTC大會是最有可能的，不過首發的基本上確定是數據中心級安培顯卡了。日前美國印第安納大學的新一代超算Big Red 200中揭示了下代NVIDIA GPU的性能，據說能提升70-75%的性能。
蘋果A14處理器性能曝光:CPU與GPU對比上代,提升有多少?

而消息傳出這麼久，也沒有一個具體的跑分數據來證明該晶片的實力，近日就有國外的報料人士給出A14晶片的具體數據，與A13對比，A14晶片CPU運算性能足足提升了40%，GPU處理能力更是提升了足足50%。
NTF分析在提升整車NVH性能中的應用

本文針對商用車NVH測試中發現的噪聲峰值問題，利用HyperWorks前後處理軟體和NASTRAN求解器進行NTF對比計算分析，快速找出問題原因，並與試驗部門一起進行試驗驗證，提供整改方案，為商用車NVH性能持續提升提供支持。
李沐:一起「剁手」之GPU購買指南

企業用戶卡通常使用被動散熱和增加了內存校驗從而更加適合數據中心。但計算能力上兩者相當。企業卡通常要貴上10倍，因此個人用戶通常選用GTX系列。 Nvidia一般每一兩年會更新一次大版本，例如目前最新的是1000系列。每個系列裡面會有數個不同型號，對應不同的性能。
深度分析英特爾Xe GPU戰略

比如，高並行的GPU能為人工智慧、深度學習（DL）/機器學習（ ML）應用程式提供支持，但往往需要在傳統的遊戲和ProViz數據格式之外，獲取額外的數據格式支持。雲端遊戲顯卡和伺服器端圖形渲染應用專為遊戲打造，但是這類顯卡並非數據中心的最佳選擇。若想成為顯卡領跑者，英特爾必須開發全系列的顯卡，涵蓋傳統用途、HPC和新興應用場景。而這項任務的艱巨性無需多言。
小米11首發驍龍888晶片或有GPU超頻網曝素皮版售價4499元起

這款處理器在性能以及網絡上都有著非常大的提升，而且也是國內廠商，目前唯一可以選擇的一款五納米工藝處理器，所以在這款處理器發布之後，許多廠商也都紛紛宣布將會推出搭載這款處理器的手機。其中小米的小米11系列手機就是這其中之一，並且會對這款處理器一定的獨佔期。目前小米方面已經對這款手機進行了預熱。近期在外媒的跑分網站上也出現了小米11系列手機的跑分成績。
微軟Surface Pro 8配置曝光 GPU性能顯著提升

據Windows Latest透露，微軟Surface Pro 8將搭載Intel Iris Xe核顯，其基於Intel Xe-LP架構，有望帶來更強悍的性能，同時功耗會更低
蘋果瘋狂提升A14晶片性能:相比A13晶片CPU提升40%,GPU提升50%

今天有消息人士Komiya爆料iPhone 12搭載的A14晶片的性能，相比於A13性能大幅提升，CPU提升40%、GPU提升50%。據悉，今年iPhone 12採用的A14仿生晶片是採用5nm工藝製程，已經於4月開始量產。
AIOps |數據流量可視化分析

，對數據中心數據流進行智能分析，通過健康5步走的過程幫助運維部門實現主動運維。　　學習:通過智能機器學習，呈現數據中心業務畫像及性能基線。　　定位:當問題發生時快速鎖定故障域縮短問題處理時間。預警:智能隱患分析將隱患消滅在萌芽中，避免重大事故發生。　　優化:為數據中心業務性能優化提供有力的數據支撐。
逸迅科技入選《愛分析 · 中國數據智能應用趨勢報告》,解碼數據...

隨著油價的持續攀升和航空業競爭的不斷加劇,某航空公司迫切需要通在保障飛行安全的前提下,基於大數據進行運行分析和數據挖掘,從而降低燃油消耗、節省運行成本,以達到符合R5最低燃油標準的精細化運行管理的目的,提升航司綜合競爭力。
蘋果瘋狂提升A14性能:5nm製程的CPU/GPU均領先A13約50%

眾所周知，每一代製程工藝提升後，在其基礎上打造的晶片處理能力都會大幅攀升。那麼，蘋果的A14會在5nm製程上表現如何呢？近日，國外爆料大神給出了最新消息，相比上代A13，蘋果在A14上的性能拉升是簡單粗暴的，CPU提升了40%，而GPU直接提高了50%。
二代IPU性能超GPU,未來聚焦數據中心的AI訓練和推理部署

溝通會上，Graphcore 解讀了其於本月公布的大規模系統級產品 IPU-M2000 的應用測試數據。公布數據顯示，在典型 CV 模型 ResNet、基於分組卷積的 ResNeXt、EfficientNet、語音模型、BERT-Large 等自然語言處理模型以及 MCMC 等傳統機器學習模型中，IPU-M2000 在吞吐量、訓練時間和學習結果生成時間方面都有較好表現。
用NVIDIA DALI 加速PyTorch:訓練速度提升 4 倍

特別是，V100 已經具備足夠的性能。能夠以每秒數千幅圖像的速度訓練神經網絡。這使得在 ImageNet 數據集上的單一 GPU 訓練時間減少到幾個小時。而在 202 年，在 ImageNet 上訓練 AlexNet 模型花了 5 天時間！如此強大的 gpu 使數據預處理管道變得緊張。
新疆軍區某師:訓練數據常態更新「數據共享」提升訓練效益

原標題：新疆軍區某師探索建立訓練數據常態更新機制「數據共享」提升訓練效益前不久，新疆軍區某師在高原組織實彈射擊訓練，某型速射炮炮手談有凱發射6枚炮彈，同時，該型裝備最新的一組高原訓練數據，被數據採集員上傳至師信息採集中心，經過專業分析審核後，分享至全師相關戰位。今年以來，類似情景在該師高原演訓場頻頻上演，多組訓練數據常態化更新共享，促進了部隊實戰能力提升。「作為一名年輕射手，談有凱打出這樣的好成績並非偶然。」
高通驍龍660性能到底提升了多少?數據證明已接近旗艦水準

從上表可以看出驍龍660相比驍龍652/653有著全方位的提升，尤其是在製程工藝方面，直接從28nm工藝升級到了14nm FinFet工藝，理論上在功耗控制上有有較大幅度的提升。前代驍龍652採用的是公版A72架構，驍龍660轉而採用半定製的Kryo 260架構，最高主頻2.2GHz，而在內存帶寬方面，驍龍660趕上了旗艦晶片的水準，29.9GB/s的帶寬相比驍龍652翻了一番。
英偉達八代GPU史上的超級大飛躍較前一代圖靈架構性能提升20倍

近日，英偉達 CEO 黃仁勳正式發布了新一代 GPU 架構 Ampere 安培，這是英偉達推出的第八代 GPU 架構，較前一代 2018 年發布的圖靈架構性能提升高達 20 倍。據悉，英偉達每代顯卡架構均以頂級科學家命名，這一次以法國物理學家安培命名。
【技術乾貨】汽車內飾裝飾件紋理分析——木紋&科技紋

木材呈灰褐色至灰紅色，紋理交錯，質輕而較硬，花紋圖案優良，易加工，油漆塗裝性能好，膠合性強。楓木中最為著名的品種產自於北美的糖槭和黑槭，木材硬度適中，木質緊密，花紋美麗，光澤良好，而且木紋中常現雀眼狀或虎背狀花紋，「雀眼楓木」多被運用到高檔家具與高檔汽車內飾裝飾之中，是體現產品價值和品質的良材。
性能大幅提升!Arm發布全新CPU、GPU及AI內核!華為或將無緣?

具體性能表現上，Cortex-A77擁有比Cortex-A76設備高出20%的IPC性能提升，並且可以帶來先進的ML與AR/VR體驗。Arm表示，通過硬體與軟體的優化組合，Cortex-A77的整體機器學習性能，相比Cortex-A55已經提升了35倍。

分析 AGI 紋理數據並提升 GPU 性能

相關焦點

乾貨|使用並行裝載助力Kingbase FlySync提升數據入庫性能

蘋果A14性能曝光:CPU與GPU對比上代,提升有多少?

NVIDIA將推氫彈級7nm安培GPU 性能提升100%不是夢

蘋果A14處理器性能曝光:CPU與GPU對比上代,提升有多少?

NTF分析在提升整車NVH性能中的應用

李沐:一起「剁手」之GPU購買指南

深度分析英特爾Xe GPU戰略

小米11首發驍龍888晶片或有GPU超頻 網曝素皮版售價4499元起

微軟Surface Pro 8配置曝光 GPU性能顯著提升

蘋果瘋狂提升A14晶片性能:相比A13晶片CPU提升40%,GPU提升50%

AIOps |數據流量可視化分析

逸迅科技入選《愛分析 · 中國數據智能應用趨勢報告》,解碼數據...

蘋果瘋狂提升A14性能:5nm製程的CPU/GPU均領先A13約50%

二代IPU性能超GPU,未來聚焦數據中心的AI訓練和推理部署

用NVIDIA DALI 加速PyTorch:訓練速度提升 4 倍

新疆軍區某師:訓練數據常態更新 「數據共享」提升訓練效益

高通驍龍660性能到底提升了多少?數據證明已接近旗艦水準

英偉達八代GPU史上的超級大飛躍 較前一代圖靈架構性能提升20倍

【技術乾貨】汽車內飾裝飾件紋理分析——木紋&科技紋

性能大幅提升!Arm發布全新CPU、GPU及AI內核!華為或將無緣?

小米11首發驍龍888晶片或有GPU超頻網曝素皮版售價4499元起

新疆軍區某師:訓練數據常態更新「數據共享」提升訓練效益

英偉達八代GPU史上的超級大飛躍較前一代圖靈架構性能提升20倍