賈浩楠 發自 凹非寺
量子位 報導 | 公眾號 QbitAI
還記得那個引來巨大爭議,最後把LeCun逼退推特的低解析度圖像還原算法PULSE嗎?
PULSE是針對低解析度圖像進行還原的,而就在PULSE問世不久後,一個針對模糊視頻進行實時高解析度渲染的算法問世了。
前幾天,Facebook公布了一項在即將舉行的SIGGRAPH 2020會議上展示的新論文,提出了一種新的神經網絡算法神經超採樣。
新算法實現了低解析度視頻的4*4的實時渲染,也就是說能把大部分視頻解析度提升16倍,直接變成4K視頻!
而1080p的視頻渲染延遲更是控制到24.4ms!
除了超低延遲,這種算法的巨大進步在於擺脫了特定硬體和技術的束縛(如虛幻引擎的TAAU和英偉達的DSSL),在PC上就可以實現。
高糊騎兵視頻馬上變4K!
話不多說,直接上實時渲染效果實測。
下圖由上至下,分別是低解析度輸入視頻、神經超採樣算法(解析度提高16倍)渲染結果、離線渲染目標視頻截圖。
可以看出,「神經超採樣」算法的實時渲染輸出,視頻細節的精度已經高度接近目標渲染視頻。
這樣的優秀表現引來網友一片驚嘆,儘管Facebook方面認為這項技術未來主要用於遊戲開發和實時VR技術,但網友們紛紛喊話FB,希望看到這項技術用在早年的3D遊戲重置上,比如三角洲部隊、放逐等等。
儘管有些遊戲已經有了重製版,但這個算法可以實現自動渲染,極大提升效率。
那麼,這種高性能的實時渲染算法到底怎麼實現的呢?
秒變4K是如何實現的
神經超採樣實時渲染(Neural-Supersampling for realtime rendering)算法構造主要有4個不同功能模塊。
首先是特徵提取模塊,包含3層卷積神經網絡。這個子網絡單獨處理每個輸入幀, 並在除當前幀外的所有幀中共享權重。
對於每一幀,特徵提取模塊將顏色和深度作為輸入,並生成8個通道的學習特徵,然後與輸入的顏色和深度進行連接,從而獲得總共12個通道的特徵。網絡如下圖表示。
其次,為了降低重建網絡的複雜性,算法應用了時空重投影,通過使用渲染的運動矢量,將前一幀的像素樣本和學習的特徵投射到當前。
為了充分利用低層像素後向運動矢量,需要在目標(高)解析度空間進行時空重投影。首先,將輸入(低)解析度空間的像素樣本投影到高解析度空間,採用零上採樣的方式,即把每個輸入像素分配到其對應的高解析度像素上,並將其周圍所有缺失的像素作為零。
每個輸入像素的位置平均落在高解析度中的��像素之間,其中��為上採樣比。之所以選擇零上採樣,一是為了提高效率,二是為了給網絡提供哪些樣本有效或無效的信息。
然後,利用運動矢量的片狀平滑特性,簡單地通過雙線性上採樣將渲染的低解析度運動矢量圖調整為高解析度。雖然這種簡單的方法會給上採樣的運動矢量帶來誤差,但能夠通過這種方法實現對運動矢量的控制。
接下來,進行無採樣前幀的後向扭曲,這一步驟使用了向上採樣向量,對前一幀進行零向上採樣。在翹曲過程中則採用雙線插值。
第三部分是特徵重新加權。
渲染的運動矢量不反映動態不協調或陰影幀之間的變化。因此,扭曲的幀會包含偽影,如在遮擋區域的陰影和在不一致的陰影區域不匹配的像素。
為了解決這個問題,研究人員引入了一個特徵重新加權方法模塊,以屏蔽掉這些不匹配的樣本。
特徵重新加權模塊是一個3層卷積神經網絡。它將當前幀的零上採樣的RGB-D、零上採樣、扭曲的前一幀同時作為輸入,為之前的每一幀生成一個像素加權圖,權重值在0到10之間,其中10是一個超參數。
超參數的設置是為了讓學習到的地圖不僅能衰減,而且還能也會放大每個像素的特徵。
最後將每個加權圖乘以對應前一幀的所有特徵。
第四部分是重建,將當前幀的特徵和重新加權的先前幀的特徵連接起來,並反饋給重建網絡,該網絡會輸出恢復的高解析度圖像。重建子模塊採用3級、10層的U-Net,並帶有跳過連接。
實驗結果
團隊的實驗條件是英偉達Titan V卡,並使用了Nvidia TensorRT對算法進行了16bit優化。
下圖是算法渲染不同解析度視頻所需的運行時間(提升16倍解析度),單位為ms。其中Ours為基礎算法,Ours-Fast是經過簡化的快速版本。
這張表表示的是渲染目標為1080p解析度時,算法不同步驟的運算時間。
與現行的同功能算法相比,4*4超神經採樣算法在各個指標都領先。這些結果是在常用的4個視頻上經過10次測試得出的。
網友吐槽:不能在通用CPU上運行的實時都不叫實時
儘管4*4超神經採樣算法在低解析度視頻實時渲染上有很好的表現,而Facebook官方也宣稱這個算法突破了特殊硬體和技術的限制,在PC上就能運行。
但網友們依然吐槽,要達到實驗結果展示的「實時」渲染表現,一塊英偉達Titan V是必須的。
而現在一塊Titan V官方售價3000美元左右,經過不同廠商優化過的,更是價格高昂。
難道「實時」只是有錢人的特權嗎?
Reddit網友呼籲,應該建立一個標準,只有在通用CPU上能實現到實時的,才能叫真實時。
那麼,你認為這個實時渲染高解析度算法的價值有多少呢?你願意付出一塊Titan V的成本來實現這一算法嗎?
論文地址
https://research.fb.com/publications/neural-supersampling-for-real-time-rendering/
成果演示
https://research.fb.com/blog/2020/07/introducing-neural-supersampling-for-real-time-rendering/
本文系網易新聞•網易號特色內容激勵計劃籤約帳號【量子位】原創內容,未經帳號授權,禁止隨意轉載。
— 完 —
原標題:《高糊視頻秒變4K!Facebook發布低解析度視頻實時渲染算法,網友:是好東西,但是玩不起》
閱讀原文