英偉達、UC伯克利聯合研究:條件GAN高解析度圖像合成與語義編輯pix2pixHD(論文+代碼)

2021-01-14 新智元


新智元AI World 2017世界人工智慧大會開場視頻


中國人工智慧資訊智庫社交主平臺新智元主辦的 AI WORLD 2017 世界人工智慧大會11月8日在北京國家會議中心舉行,大會以「AI 新萬象,中國智能+」為主題,上百位AI領袖作了覆蓋技術、學術和產業最前沿的報告和討論,2000多名業內人士參會。新智元創始人兼CEO楊靜在會上發布全球首個AI專家互動資訊平臺「新智元V享圈」。


全程回顧新智元AI World 2017世界人工智慧大會盛況:


新華網圖文回顧
http://www.xinhuanet.com/money/jrzb20171108/index.htm

愛奇藝
上午:http://www.iqiyi.com/v_19rrdp002w.html

下午:http://www.iqiyi.com/v_19rrdozo4c.html

阿里云云棲社區
https://yq.aliyun.com/webinar/play/316?spm=5176.8067841.wnnow.14.ZrBcrm







  新智元編譯  

來源:arxiv.org

編譯:馬文


【新智元導讀】英偉達和UC Berkeley的研究者最近公開一個名為pix2pixHD的項目,並公開了論文和代碼。pix2pixHD能夠利用條件GAN進行2048x1024解析度的圖像合成和處理,輸入語義標註圖生成接近真實的現實世界圖像,例如街景圖、人臉圖像等,並且只需簡單的操作即可修改和搭配圖像,效果優於pix2pix和CRN等先前的方法。

英偉達和UC Berkeley的研究者最近公開一個名為pix2pixHD的「用條件GAN進行2048x1024解析度的圖像合成和處理」項目,並公開了論文和代碼。pix2pixHD能夠利用語義標註圖還原接近真實的現實世界圖像,例如街景圖、人臉圖像等,並且只需簡單的操作即可修改和搭配圖像。


圖:上方是輸入的語義地圖,下方是pix2pixHD合成圖像


作者發布的視頻介紹中,可以看到,你可以選擇更換街景中車輛的顏色和型號,給街景圖增加一些樹木,或者改變街道類型(例如將水泥路變成十字路)。類似地,利用語義標註圖合成人臉時,給定語義標註的人臉圖像,你可以選擇組合人的五官,調整大小膚色,添加鬍子等。


圖:左下角是人臉的語義標註圖,pix2pixHD合成各種不同五官、接近真實的人臉圖像。


視頻介紹:




論文:High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

作者:Ting-Chun Wang¹, Ming-Yu Liu¹, Jun-Yan Zhu², Andrew Tao¹, Jan Kautz¹, Bryan Catanzaro¹

¹NVIDIA Corporation  ²UC Berkeley


摘要


本文提出了一種利用條件生成對抗網絡(conditional GANs)來合成高解析度、照片級真實的圖像的新方法。條件GAN已經實現了各種各樣的應用,但是結果往往是低解析度的,而且也缺乏真實感。在這項工作中,我們的方法生成了2048x1024解析度的視覺上非常棒的效果,利用新的對抗損失,以及新的多尺度生成器和判別器架構。此外,我們還將我們的框架擴展到具有兩個附加特徵的交互式可視化操作。首先,我們合併了對象實例分割信息,這些信息支持對象操作,例如刪除/添加某個對象或更改對象類別。其次,我們提出了一種方法,可以在給定相同輸入條件下生成不同的結果,允許用戶交互式地編輯對象的外觀。人類意見研究(human opinion study)表明,我們的方法顯著優於現有的方法,既提高了圖像的質量,也提高了圖像合成和編輯的解析度。


圖1:我們提出了一個利用語義標註圖(上圖(a)的左下角)合成2048×1024解析度圖像的生成對抗框架。與以前的工作相比,我們的結果表現出更自然的紋理和細節。(b)我們可以在原始標籤地圖上改變標籤來創建新的場景,例如用建築物替換樹木。(c)我們的框架還允許用戶編輯場景中單個對象的外觀,例如改變汽車的顏色或道路的紋理。請訪問網站進行更多的對比和交互式編輯演示。


圖2:生成器的網絡架構。我們首先在較低解析度的圖像上訓練一個殘差網絡G₁。 然後,將另一個殘差網絡G₂附加到G₁,然後兩個網絡在高解析度圖像上進行聯合訓練。具體來說,G₂中的殘差塊的輸入是來自G₂的特徵映射和來自G₁的最後一個特徵映射的元素和。


圖3:使用實例圖(instance map):(a)一個典型的語義標籤圖。請注意,所有汽車都有相同的標籤,這使得它們很難區分開來。(b)提取的實例邊界圖。有了這些信息,更容易區分不同的對象。


圖4:沒有實例映射(instance map)和帶有實例映射的結果之間的比較。可以看出,當添加實例邊界信息時,相鄰車輛的邊界更加清晰。


圖5:除了用於生成圖像的標籤之外,還使用 instance-wise特徵。



表1:Cityscapes 數據集上不同方法得出的結果的語義分割得分。我們的結果大大優於其他方法,並且非常接近原始圖像的準確率(即Oracle)。


圖7:在Cityscapes數據集上的比較(語義標註圖顯示在(a)的左下角)。對於有VGG損失和沒有VGG損失,我們的結果比其他兩種方法更接近真實。可以放大圖片查看更多細節。


圖8:在NYU數據集上的比較。我們的方法比其他方法生成的圖像更加逼真、色彩更豐富。



本研究的結果表明,條件GAN(conditional GAN)能夠合成高解析度、照片級逼真的圖像,而不需要任何手工損失或預訓練的網絡。我們已經觀察到,引入perceptual loss可以稍微改善結果。我們的方法可以實現許多應用,並且可能對需要高解析度結果,但是預訓練的網絡不可用的領域有潛在的用處,例如醫學成像和生物學領域。


本研究還表明,可以擴展圖像-圖像的合成流程以產生不同的輸出,並且在給定適當的訓練輸入 - 輸出對(例如本例中的實例圖)的情況下實現交互式圖像處理。我們的模型從未被告知什麼是「紋理」,但能學習將不同的對象風格化,這也可以推廣到其他數據集(即,使用一個數據集中的紋理來合成另一個數據集中的圖像)。我們相信這些貢獻拓寬了圖像合成的領域,並可以應用於許多其他相關的研究領域。


論文:https://arxiv.org/pdf/1711.11585.pdf

代碼:https://github.com/NVIDIA/pix2pixHD

歡迎讀者朋友加入新智元讀者群一起交流探討,請加微信(備註名字+學校/企業+研究/關注領域):aiera2015

備註(名字+學校/企業+視覺),加入計算機視覺討論群。


相關焦點

  • 英偉達開源Imaginaire:九大圖像及視頻合成方法,你學fei了嗎?
    機器之心報導作者:蛋醬、小舟圖像 / 視頻合成領域的集大成者,就在這一篇了。圖像和視頻等視覺數據的生成是機器學習和計算機視覺領域重要的研究問題之一。近幾年,英偉達提出了 SPADE、MUNIT 等多個圖像及視頻合成模型。近日,英偉達又開源了一個新的 PyTorch 庫「Imaginaire」,共包含 9 種英偉達開發的圖像及視頻合成方法。
  • 港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南
    生成對抗網絡(GAN)在圖像合成領域的應用已經十分廣泛。近期的一些研究表明,在學習合成圖像時,GAN 會自發地在潛在空間中表示出多種可解釋屬性,如用於人臉合成的性別特徵、用於場景合成的光照條件。這種變換實際上過濾了潛在空間中一些不重要的方向,從而突出了圖像合成的關鍵方向。能夠識別這些重要的潛在方向,我們就能夠控制圖像生成過程,即編輯合成圖像的語義。在這篇論文中,研究者提出了一種新穎而簡單的閉式方法「SeFa」,可用於 GAN 的潛在語義分解。
  • GAN快速入門資料推薦:17種變體的Keras開原始碼,附相關論文
    在這類GAN變體中,生成器生成的每張圖像,都帶有一個類別標籤,鑑別器也會同時針對來源和類別標籤給出兩個概率分布。論文中描述的模型,可以生成符合1000個ImageNet類別的128×128圖像。在論文中,研究人員給出了用MNIST和多倫多人臉數據集 (TFD)訓練的模型所生成的樣本。
  • 除了實時光線追蹤,英偉達圖靈架構還有這些AI圖像處理能力
    據悉,這些新GPU依靠自身的一個特殊部分來快速呈現高解析度圖形,完成圖像的大部分成像工作後,使用人工智慧技術來猜測未完成的像素。雷鋒網了解到,除了即時光線追蹤外,英偉達的GPU還支持多種AI圖像處理能力,可謂是開了掛。
  • 2018最具突破性計算機視覺論文Top 10
    原始碼和其他結果可在https://github.com/NVIDIA/FastPhotoStyle獲得。概要總結英偉達(NVIDIA)和加州大學默塞德分校的研究團隊提出了一種新的解決照片級圖像風格化的方法——FastPhotoStyle。該方法包括兩個步驟:風格化和平滑化。大量的實驗表明,該方法生成的圖像比以前的最先進的方法更真實、更引人注目。
  • 圖像合成神器MSG-GAN入選CVPR2020,超越最先進GAN
    今天分享一篇被CVPR 2020接收的論文,這篇論文與生成對抗GAN相關,題目為「MSG-GAN: Multi-Scale Gradient GAN for Stable Image Synthesis」(MSG-GAN:用於穩定圖像合成的多尺度梯度GAN)。
  • 超全的GAN PyTorch+Keras實現集合
    在本論文中,作者介紹了一種用於提升 GAN 在圖像合成方面訓練效果的新方法。他們構建了一種採用標籤條件(label conditioning)的 GAN 變體,這種方法可以生成 128×128 解析度的圖像樣本,且能展現出全局一致性。該論文擴展了以前的圖像質量評估工作,以提供兩個新的分析來評估類別條件(class-conditional)圖像合成模型中樣本的辨識度和多樣性。
  • 2018 年最棒的三篇 GAN 論文
    《基於樣式的生成式對抗網絡生成器架構》(A Style-Based Generator Architecture for Generative Adversarial Networks)——英偉達的研究團隊經常能提出開創性的概念(2018 年很棒的圖像修復論文:https://www.youtube.com/watch?
  • 2019 語義分割指南
    圖源:http://www.cs.toronto.edu/~tingwuwang/semantic_segmentation.pdf我們來看看一些涵蓋最先進的構建語義分割模型方法的研究論文,即:Weakly- and Semi-Supervised Learning
  • 十個生成模型(GANs)的最佳案例和原理 | 代碼+論文
    然而,在伯克利大學的一篇論文中,作者Jun-Yan Zhu提出了一種利用生成對抗網絡直接從數據中學習自然圖像流形的方法。該模型能自動調整輸出以保持所有編輯儘可能地逼真,以及所有操作都是用約束優化來表示的,處理過程近乎實時。所提出的這種方法可進一步用於圖像生成研究,或是基於個人塗鴉完整地產生新奇圖像的研究中。
  • 谷歌開源語義圖像分割模型:該領域當前最優模型
    GitHub 地址:https://github.com/tensorflow/models/tree/master/research/deeplab語義圖像分割任務是指將語義標籤(例如「道路」、「天空」、「人」、「狗」)分配給圖像中的每一個像素,這種技術有很多新應用,例如,Pixel 2 和 Pixel 2 XL 智慧型手機中肖像模式的合成淺景深效應,以及行動裝置的實時語義分割等
  • UC伯克利拿下EMNLP最佳論文,復旦黃萱菁當選下一屆程序主席
    除此之外,比較遺憾的是,今年的最佳短論文暫未頒發。作為國際語言學會(ACL)下屬的 SIGDAT 小組主辦的自然語言處理領域的頂級國際會議。EMNLP每年舉辦一次,去年則與 IJCNLP 聯合在香港舉辦,今年由於疫情轉為線上舉辦。EMNLP 2020 共收到3677篇投稿,有效投稿為3359 篇,總接收論文752 篇,包括602篇長論文、150篇短論文。
  • 9102年了,語義分割的入坑指南和最新進展都是什麼樣的
    在這篇論文結合了深度卷積網絡和全連接條件隨機場。論文地址:https://arxiv.org/pdf/1502.02734.pdf在 PASCAL VOC 的分割基準測試中,這個模型高於 70% 的交並比(IOU)這篇論文的主要貢獻如下:為邊界框或圖像級別的訓練引入 EM 算法,這可以用在弱監督和半監督環境中。
  • 用Keras搭建GAN:圖像去模糊中的應用(附代碼)
    這篇文章主要介紹在Keras中搭建GAN實現圖像去模糊。所有的Keras代碼可點擊這裡。可點擊查看原始出版文章和Pytorch實現。快速回憶生成對抗網絡GAN中兩個網絡的訓練相互競爭。生成器( generator) 合成具有說服力的假輸入來誤導判別器(discriminator ),而判別器則是來識別這個輸入是真的還是假的。
  • CVPR 2018 中國論文分享會之 「GAN 與合成」
    雷鋒網 AI 科技評論按:2018 年 5 月 11 日,由微軟亞洲研究院、清華大學媒體與網絡技術教育部-微軟重點實驗室、商湯科技、中國計算機學會計算機視覺專委會、中國圖象圖形學會視覺大數據專委會合作舉辦了 CVPR 2018 中國論文宣講研討會,數十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術觀點。
  • 生成式對抗網絡GAN的高級議題
    本文現在將討論GAN的一些最酷的應用程式,然後再討論一些更高級的主題,以及GAN的代碼演練,旨在生成名人面孔和動漫角色。GAN應用程式在本節中,本文將簡要介紹一下在數據科學研究過程中發現的一些最有趣的GAN應用。最常見的主題是:(有條件)合成 - 包括字體生成,Text2Image以及3D對象生成。
  • 一個模型擊潰12種AI造假,各種GAN與Deepfake都陣亡
    這就是Adobe和UC伯克利的科學家們發表的新成果。有網友表示,如果他們把這項研究用來參加Kaggle的假臉識別大賽,那麼將有可能獲得最高50萬美元獎金。然而他們並沒有,而是先在ArXiv公布了預印本,並且還被CVPR 2020收錄。最近,他們甚至將論文代碼在GitHub上開源,還提供了訓練後的權重供讀者下載。
  • 朱俊彥團隊提出GAN壓縮算法:計算量減少20倍,GPU、CPU統統能加速
    論文已入選CVPR 2020,代碼也已開源。作者團隊也星光璀璨,一作是來自上海交通大學ACM班的本科生李沐陽,CycleGAN的作者朱俊彥則親身參與、指導。GAN壓縮算法壓縮GAN,並不像壓縮其他CNN模型那樣容易。