神經渲染最新進展與算法(一):語義圖像合成

2022-02-03 壁仞科技研究院

語義圖像合成是神經渲染技術的重要分支。在生成對抗網絡等深度學習方法基礎上,語義圖像合成近兩年取得了許多令人印象深刻的進展,比如GauGAN等。本文簡單介紹了神經渲染,著重分析了語義圖像合成的一些最新應用。本文還分析了語義圖像合成的最新算法實現結構、新型算子及計算特徵。通過深入理解神經渲染相關技術,我們也期望能借鑑和吸收其中的創新思路,應用到物理仿真等AI融合科學計算領域。我們將持續關注這一領域的發展,並不定期分享我們的認識。

傳統計算機圖形學技術經過幾十年的發展,主要技術路線已經相對穩定。隨著深度學習技術的發展,新興的神經渲染技術給計算機圖形學帶來了新的機遇,受到了學界和工業界的廣泛關注。在近幾年的計算機視覺和圖形學頂會上,我們都可以看到各種令人耳目一新的神經渲染應用。業界領導者如Nvidia、Intel也都提出了融合神經渲染的新型渲染pipeline和專利創新。Nvidia已經將深度超解析度方法(DLSS)加入了新一代的圖形渲染引擎,而Intel也提出了面向神經渲染的計算機圖形硬體架構[1]。

此外,計算機圖形學和科學計算中的物理仿真有著天然的聯繫。我們也希望通過深入理解神經渲染的技術和算法,借鑑和吸收其創新思路,從而推動融合深度學習的物理仿真的進一步發展。

神經渲染是深度網絡合成圖像的各類方法的總稱。神經渲染通過數據驅動而非物理定律獲得渲染函數,其函數一般用深度神經網絡通過學習構建。結合新興的可微渲染方法,神經渲染可以和傳統渲染方法融合為完整的渲染流程。

2020年歐洲圖形學大會的一篇綜述[2]給出了一個較為完整的定義:

(神經渲染是) Deep image or video generation approaches that enable explicit or implicit control of scene properties such as illumination, camera parameters, pose, geometry, appearance, and semantic structure.

報告[2]進一步將神經渲染的各種技術被歸納為照片語義合成、新視角圖像合成、光照調整、自由視角視頻以及面部和身體重演等幾個應用領域。

此外,我們也可以從計算機圖形的任務實現層次對神經渲染相關技術總結分類。計算機圖形的任務可以簡單理解為由內容產生真實感圖像或視頻。進一步細分,圖形渲染的整個流水線可以大致分為兩個環節:根據內容定義物體與場景的網格化和材質(3D建模);在模型上添加紋理、光照等形成真實感圖像(渲染)。各類神經渲染的目標是實現其中全部或部分的功能。

根據上述理解,我們可以把現有神經渲染技術分為如下幾種類型:語義圖像合成(Semantic Image Synthesis)、場景和物體等圖形建模(CG Modeling)、紋理與光線等圖形渲染(CG Rendering)圖像重渲染(Rerendering)。本文將側重分析神經渲染中語義圖像合成應用的發展,以及支撐這些應用的深度學習模型架構與計算特點。

(Semantic Image Synthesis)

語義圖像合成是當前進展較多的神經渲染領域。Semantic image synthesis可以簡單理解為計算機圖形的全流程實現,即由語義圖直接產生真實感(photo-realistic)圖像。

語義圖用簡單的幾何形狀表達場景內容。語義圖可以來自於已有自然圖像的語義分割,也可以手工合成或編輯而得。語義圖像合成技術再根據給定的語義圖產生新的真實感圖像。本文重點介紹了三個最新的語義圖像合成工作:GauGAN[3],Infinite Future[4]和GANcraft[5]。其中後兩者利用了GauGAN的方法,並都收錄於今年的ICCV2021。

語義圖像合成方法中,GauGAN是影響較大的工作[3]。自2019年發布以來,GauGAN在學界引起很大反響,許多後續工作借鑑和利用了它的算法。

GauGAN方法整體上是一種生成對抗網絡,用語義圖和自然圖像訓練網絡。訓練中自然圖像由 encoder生成隱空間變量,與語義圖一起在生成器產生真實感圖像,並在判別器比較。訓練好的生成器可以根據輸入的語義圖產生真實感圖像。

模型架構:

GauGAN的整體架構如下。

圖3 GauGAN整體架構(來源:文獻[3],圖15)

 

其中Image Encode是一個卷積網絡,包括6層stride-2卷積和兩層線性層,輸出為代表輸入圖像隱空間分布的均值和方差。

在對抗網絡中, Generator由輸入的語義和隱空間採樣點生成真實感圖像。Generator是一個包含了多層殘差模塊 SPADE ResBlk的卷積網絡,也稱為SPADE網絡。SPADE模塊集成了特殊定義的Batch Norm算子spatial adaptive normalization(SPADE) 。SPADE算子是GauGAN方法的重要創新點,因此SPADE也被用於指代GauGAN模型。我們會在後文詳細分析SPADE模塊。

對抗網絡的判別器是基於patch的多層卷積模型,用於對比語義圖和生成的真實感圖像。判別器結構中卷積層激活的歸一化採用了Instance Norm(IN),以避免一個batch中其它樣本的影響。IN算子常常用於生成對抗網絡中。

語義圖像合成技術的一個有趣的進展是2020年底提出的「Infinite Nature」[4]。該方法利用了SPADE模型,可以從單張圖像及對應的視差圖產生視角連續變化的視頻。連續視頻通過如下的渲染-優化的兩步迭代過程來實現。

首先在渲染階段,該方法根據輸入的自然圖像和視差圖,可微渲染器產生一組渲染圖像,包括:另一視角的紋理映射圖,新的視差圖及視差mask。Infinite Nature中的可微渲染器是一個在可微框架上實現的傳統三維網格渲染器[6]。

 

其次在優化步驟,將第一步生成的新紋理圖、視差及mask作為輸入,該方法用SPADE模型產生下一幀真實感圖像及視差圖。

上述過程反覆迭代就可以產生視頻序列。讀者們可以在網站上看到更多的視頻:

https://infinite-nature.github.io/

GANcraft是2021年上半年提出的一項有影響力的工作[5]。它以MineCraft風格的語義像素塊作為輸入,輸出的不僅僅是對應的單張真實感圖像,而是任意視角的真實感圖像。

嚴格來講,GANcraft是一種重渲染技術。神經重新渲染是將已經渲染的圖像根據要求重新再渲染的技術。這類技術依靠深度神經網絡來恢復渲染圖像中丟失的細節。Nvidia已經集成到現有渲染流水的超解析度模型DLSS可以看作是一個成功應用。GANcraft整合了神經渲染多個方向的最新進展,將神經重渲染推進了一大步。

 

圖5 由MineCraft圖到真實感圖(來源:文獻[5],圖1)

 

除了對神經渲染最新技術的整合,GANcraft的一個創新點是構建偽真實圖作為訓練標籤。由於是從MineCraft的虛擬圖來產生真實感圖像, GANcraft訓練的一個問題是難以獲得實際的ground truth。GANcraft 從minecraft圖產生的分割蒙版作為語義圖,再用預訓練SPADE產生真實感圖像作為偽ground truth。這樣就解決了真實圖的來源問題。也就是說,GANcraft將預訓練的SPADE作為了真實圖像的來源。

GANcraft的實現結構

GANcraft對輸入的minecraft圖像的每個塊中都分配一個風格標籤,例如土、草或水等,進而構建 3D 世界的容積函數,從任意給定角度渲染與方塊世界場景一致的真實感圖像。

整個方法實現框架如圖6所示。其中,MLP用於從體素模型構建3D Neural radiance filed,根據視角參數產生二維feature map,由CNN渲染器產生任意視角真實感圖像。而神經渲染的風格特徵由SPADE生成偽真實圖像後經由style encoder 和network產生的。

圖6 GANcraft架構(來源:文獻[5],圖3)

三維容積信息構建

GANcraft模型的場景volume信息由MLP模型表徵。通過訓練該MLP構建了包含場景的神經輻射場(Neural radiance filed),用於場景投影圖像產生。由於該容積場不能表現極遠處的天空。因此 GANcraft單獨訓練了一個天空渲染的MLP模型。神經容積表徵也是神經渲染的一個重要研究方向。篇幅所限,不再展開。

CNN渲染器

用於輸出最終圖像的渲染器是一個深度卷積網絡。其輸入是由MLP產生的圖像feature map和風格編碼器產生的風格特徵。

風格Encoder

風格Encoder產生用於渲染器的圖像風格特徵。這是一個兩步的網絡。首先SPADE產生風格編碼,即由分割map得到的隱空間統計特徵值。該編碼經過一個風格網絡產生風格特徵。

判別器

與GauGAN不同,GANcraft的判別器是基於多級語義特徵的Unet結構模型。基於語義特徵可實現minecraft和真實感圖像間的對比。

圖8 feature pyramid semantics-embedding (FPSE) 判別器(來源:文獻[5],圖11)

 

由上可見,GANcraft巧妙的利用了神經輻射場、SPADE和StyleGAN等最新神經渲染方法,最終取得令人印象深刻的效果。有興趣的讀者可在如下網站看到更多介紹:

https://nvlabs.github.io/GANcraft/

GauGAN的生成器採用了SPADE算子對卷積層激活做歸一化。SPADE算子的提出是為了克服BN後語義信息丟失問題。SPADE算子中batch norm的控制參數與對應的語義圖特徵相關:

其中,m是語義圖,i是網絡層,h為輸入feature,c,y,x為feature通道及二維坐標。由公式可知,歸一化計算中控制變量γ和β是空間坐標和特徵通道的函數,需要根據輸入的語義圖由卷積網絡計算而得。

圖9 SPADE算子(來源:文獻[3],圖2和圖10)

 

將經典卷積殘差模塊中的BN用SPADE算子代替,則可以構建出SPADE Residual Block並用於GauGAN生成器網路。

圖10 SPADE ResBlk(來源:文獻[3],圖11)

 

與許多GAN實現一樣,GauGAN使用了對網絡權重的Spectral Norm來保證收斂。具體來看,GauGAN方法對Generator和BatchNorm中的卷積算子都作了Spectral Norm處理。Spectral Norm操作將卷積核矩陣權重除以該矩陣最大奇異值來歸一化。

矩陣奇異值一般需要通過矩陣奇異值分解獲得。這是一個計算代價很大的過程。因為Spectral Norm僅需計算最大奇異值,我們可以通過冪迭代近似來計算,該操作通過多次矩陣乘迭代來逼近結果,減少了計算量。

語義圖像合成是神經渲染的重要技術領域,當前各種新的算法與應用層出不窮。語義圖像合成的進步推動了神經渲染的應用發展,其技術在遊戲、電影工業等領域已經得到了初步應用。

語義圖像合成的發展也推動了深度學習技術的創新,比如生成對抗網絡的Spectral Norm以及SPADE歸一化算子等。相信通過借鑑神經渲染的新思路,AI的其它應用領域如融合深度學習的物理仿真等方向也會得到推動和促進。這些發展無疑會對深度學習軟硬體實現提出更多需求,從而推動整個AI生態的發展與革新。

[1] Labbre et al.,Graphics Architecture Including aNeural Network Pipeline, US20200051309。

[2] A. Tewari, et. al., State of the Art on NeuralRendering, EUROGRAPHICS 2020.

[3] T.Park et.al., Semantic Image Synthesis with Spatially-AdaptiveNormalization, arXiv:1903.07291v2

[4] A. Liu, Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image, arXiv:2012.09855v2

[5] Z. Hao, et.al., GANcraft: Unsupervised 3D NeuralRendering of Minecraft Worlds, arXiv:2104.07659

[6] Olano and Greer, "Triangle ScanConversion using 2D Homogeneous Coordinates," HWWS 1997.

相關焦點

  • 9102年了,語義分割的入坑指南和最新進展都是什麼樣的
    在這篇文章中,作者介紹了近來優秀的語義分割思想與解決方案,它可以稱得上是 2019 語義分割指南了。我們可以認為語義分割是像素級別的圖像分類。例如,在一幅有很多輛車的圖像中,分割模型將會把所有的物體(車)標記為車輛。但是,另一種被稱為實例分割的模型能夠將出現在圖像中的獨立物體標記為獨立的實例。這種分割在被用在統計物體數量的應用中是很有用的(例如,統計商城中的客流量)。
  • 深度圖像識別ISDA-深層網絡的隱式語義數據擴增方法
    算法一直是最基礎和底層的,而深度圖像識別算法在當今的AI中更是被不斷的研究,本文是清華大學&北京航空航天大學的作者提出的ISDA:隱式語義數據增廣新方法,漲點明顯!可提高分類、目標檢測、實例分割等任務性能,代碼現已開源!
  • 合成逼真圖像,試試港中大&英特爾的半參數方法 | CVPR 2018 oral
    CG要達到這樣真實的效果,目前主流的做法是先手動建模,把物體的表面結構搭建出來,然後再貼圖、定材質、上燈光,最後渲染。深度神經網絡的出現,給CG帶來一道曙光。根據大致的草圖框架(也稱語義布局法),深度神經網絡現在可以直接合成真實效果的圖片。不過,主流圖像合成所用的模型大多是參數模型(parametric models)。
  • 照片秒變卡通風,小視科技AI團隊開源人臉卡通化算法模型
    ,同時保持原照片的語義內容和紋理細節。現有的圖像卡通風格渲染的方法主要分成兩大類:一是利用傳統圖像處理技術的方法。該方法只能處理紋理內容簡單的圖片,因為這些方法本質上是圖像濾波和邊緣增強的結合,效果受圖像內容的影響很大,泛化能力較差。二是基於深度神經網絡的方法。
  • 今日Paper | 物體渲染;圖像和諧化;無偏數據處理方法;面部偽造檢測...
    文章提出了一種基於學習的圖像引導的渲染技術,該技術將基於圖像的渲染和基於GAN的圖像合成相結合,可以生成重建對象的高真實感渲染結果。文章技術的核心是如何處理視角相關的視覺效果,為了解決這個問題作者首先訓練了一個基於特定對象的深度神經網絡來合成目標對象與視角無關的外觀。
  • Facebook在CVPR2020分享最新AR/VR研究成果
    對於今年的CVPR大會,Facebook AI將介紹在計算機視覺眾多重要領域的最新進展,包括核心分割任務,架構搜索,轉移學習和多模態學習。團隊同時將分享多項以新方法解釋在常規二維圖像顯示的三維對象的論文等。這家公司指出:「新研究可以幫助我們解鎖虛擬實境和增強現實的創新,以及其他未來體驗。」
  • CVPR | 讓合成圖像更真實,上交大提出基於域驗證的圖像和諧化
    圖像合成 (image composition) 是圖像處理的常用操作,把前景從一張圖上剪貼下來粘貼到另一張圖上,獲得一張合成圖。合成圖可以用來獲取感興趣的目標圖像,也可以用於數據增廣,有著廣泛的應用的前景。
  • 語義圖像背後的萬千妍麗 ——pix2pixHD視頻解說中文字幕首發
    再來一張親媽都不認識的人臉語義圖像在這個項目中,pix2pixHD能夠利用抽象語義標註圖還原接近真實的現實世界圖像,例如街景圖、人臉圖像等,這是從虛擬走向現實的又一次有趣的嘗試。並且只需簡單的操作即可調整局部,實時生成新圖像。從作者發布的視頻介紹中,可以看到,可以選擇更換街景中車輛的顏色和型號,給街景圖增加一些樹木,或者改變街道類型(例如將水泥路變成十字路)。
  • 從文本合成圖像栩栩如生,仿佛擁有...
    那就來一個多模態『圖像版GPT-3』。今天,OpenAI重磅推出了最新語言模型—DALL·E,它是GPT-3的120億參數版本,可以魔法一般按照自然語言文字描述直接生成對應圖片!Keras創始人Franois Chollet特意發文稱:這看起來非常酷,尤其是「圖像生成」的部分。從原理上來看,它應該就是GPT-3在文本合成圖像方向上的擴展版本。AI大神吳恩達也第一時間轉推點讚,還順帶挑選了一張滿意的藍色襯衫 + 黑色長褲的AI 生成圖。
  • 入選AAAI 2020,全新視頻語義分割和光流聯合學習算法問世
    視頻標註不如圖像標註那樣每一幀都會標註,一個視頻片段往往只標註一幀,現有方法難以利用全部的數據,導致分割的準確率較低。效率低。由於對前後幀之間進行信息交互往往為模型引入額外的模塊,導致視頻分割效率低。商湯在研究中改進了這些不足,提出了一個光流和語義分割聯合學習的框架。
  • MIT提出精細到頭髮絲的語義分割技術,打造效果驚豔的特效電影
    但是在一篇新論文中,Aksoy 和他在 MIT CSAIL 的同事展示了一種方法,使用機器學習來自動化照片編輯過程中的多個步驟,並且稱這種方法也可用於運動圖像。該方法允許他們自動將輸入圖像分解成一組不同的層,這些層被層之間的一系列「軟過渡」分隔開。
  • AAAI 2020論文:商湯科技發布新視頻語義分割和光流聯合學習算法
    在這篇文章中,作者提出了一個新穎的光流和語義分割聯合學習方案。語義分割為光流和遮擋估計提供了更豐富的語義信息,而非遮擋的光流保證了語義分割的像素級別的時序一致性。作者提出的語義分割方案不僅可以利用視頻中的所有圖像幀,而且在測試階段不增加額外的計算量。
  • 單像素成像的四個圖像智能處理算法
    為解決這一問題,可以考慮一個基本的物理定律——運動的相對性,物體在運動,投影圖案是靜止的,等效於物體是靜止的,而投影圖案在反方向運動。物體從左到右運動,相當於投影圖案從右到左運動;物體順時針轉動,相當於投影圖案逆時針轉動。通過搜索估算物體的平移或者轉動速度,對投影圖案做相應的反向變換,然後計算時使用變換後的投影圖案替代原本的投影圖案,重建出的物體圖像就會清晰很多,質量得到明顯提升[3]。
  • 谷歌新研究用深度學習合成運動模糊效果,手抖也能拍出攝影師級照片
    最近,谷歌兩名研究員開發了一種新算法,能夠使用兩張清晰圖像合成運動模糊效果。該技術也可用來合成訓練去模糊算法所需的訓練數據。谷歌的研究人員最近開發了一種新技術,使用連續拍攝的一對非模糊圖像,能夠合成運動模糊圖像。在發表在arXiv上的預印版論文中,研究人員概述了他們的方法,並與幾種基線方法對比,對其進行了評估。
  • 香港理工最新GAN綜述論文;小鵬汽車判別式多模態語音識別
    最後,研究者根據得出的見解提出了這一快速發展領域中的有前途研究方向。2014 至 2018 年,GAN 在圖像生成領域展現出來的能力取得了長足進步。GAN 的基本架構圖。本研究中提出的新的分類法。Garbin、Jamie Shotton 等論文連結:https://arxiv.org/pdf/2005.02671v2.pdf摘要:在本文中,來自微軟的研究者提出了一種神經人臉模型 ConfigNet,通過語義上有意義的方式控制輸出圖像的各個方面,從而朝著精細控制神經渲染邁出重要一步。
  • AI合成主播
    2020年5月搜狗聯合新華社推出的全球首個3D AI合成主播「新小微」正式亮相,為全國觀眾帶來最新的兩會新聞資訊報導。它以新華社記者趙琬微為原型,通過超寫實 3D 數字人建模、多模態識別及生成、實時面部動作生成及驅動、深度學習等技術煉就而成。
  • 一騎絕塵 商湯科技44篇論文入選CVPR 2018
    給定一幅行人圖像,行人再識別要求跨不同攝像頭,對同一行人基於其視覺外觀進行準確匹配和識別。現有深度學習算法通常使用過於局部的約束損失函數進行行人特徵學習,因而不能精確的學習行人圖像之間的視覺相似度。本文針對該問題提出一種新穎的組一致性約束條件,並通過連續條件隨機場對該約束條件進行建模。將該連續條件隨機場加入深度神經網絡,從而實現該深度模型的端對端訓練。
  • 迪士尼研發深度語義面部模型,讓表情更豐富
    近期,迪士尼和麻省理工學院的研究人員合作研發了一種基於深度神經網絡的語義面部模型,用於快速製造多個具有細節特徵的人物頭像,該論文《深度語義面部模型(Semantic Deep Face Models)》發表至3D視覺國際會議。
  • 圖像處理算法有哪些_圖像處理十大經典算法
    其中很大一部分是圖像,圖像可以把事物生動地呈現在我們面前,讓我們更直觀地接受信息。同時,計算機已經作為一種人們普遍使用的工具為人們的生產生活服務。圖像處理概況圖像處理,是對圖像進行分析、加工、和處理,使其滿足視覺、心理以及其他要求的技術。圖像處理是信號處理在圖像域上的一個應用。
  • 圖注意力網絡一作:圖表徵學習在算法推理領域的研究進展
    這個演講的主題是,如何利用目前圖表徵學習的最新研究來支撐並增強算法推理類型的任務,同時討論從長遠來看這對神經網絡框架會帶來哪些益處。這個演講和 Veličković 的博士論文互為補充,可以幫你了解更多關於圖神經網絡的內容。