5個最新圖像合成GAN架構解讀:核心理念、關鍵成就、商業化路徑

2021-02-20 新智元

來源：topbots

編輯：元子

【新智元導讀】本文總結了5個最近推出的用於圖像合成的GAN架構，對論文從核心理念、關鍵成就、社區價值、未來商業化及可能的落地應用方向對論文進行解讀。

本文總結了5個最近推出的用於圖像合成的GAN架構，對論文從核心理念、關鍵成就、社區價值、未來商業化及可能的落地應用方向對論文進行解讀，對創業者、開發者、工程師、學者均有非常高的價值。

多域圖像到圖像翻譯的統一生成網絡。作者YUNJEY CHOI，MINJE CHOI，MUNYOUNG KIM，JUNG-WOO HA，SUNGHUN KIM，JAEGUL CHOO。論文地址：

https://arxiv.org/abs/1711.09020

論文摘要

最近的研究表明，兩個領域的圖像到圖像轉換取得了顯著的成功。然而，現有方法在處理兩個以上的域時，可擴展性和魯棒性的比較有限，因為需要為每對圖像域獨立地構建不同的模型。

StarGAN的出現就是為了解決這一問題。研究人員提出了一種新穎且可擴展的方法，可以實現僅靠單個模型就能對多個域執行圖像到圖像的轉換。

StarGAN這種統一模型架構，允許在單個網絡內同時訓練具有不同域的多個數據集。與現有模型相比，StarGAN有著更高的圖像轉化質量，以及將輸入圖像靈活地轉換為任何所需目標域的新穎功能。

我們憑經驗證明了我們的方法在面部屬性轉移，和面部表情綜合任務方面的有效性。

核心理念

StarGAN是一種可擴展的圖像到圖像轉換模型，可以使用單個網絡從多個域中學習：

StarGAN還可以從包含不同類型標籤的多個數據集中學習：

關鍵成就

定性和定量評估表明，StarGAN在面部屬性轉移和面部表情綜合方面優於基準模型：

社區評價

該研究論文在計算機視覺的重要會議CVPR 2018 oral上被接受。

未來的研究領域

探索進一步改善生成圖像的視覺質量的方法。

可能的商業應用

圖像到圖像轉換可以降低用於廣告和電子商務用途的媒體創意的成本。

源碼

https://github.com/yunjey/stargan

用細緻的文字生成圖像，作者TAO XU, PENGCHUAN ZHANG, QIUYUAN HUANG, HAN ZHANG, ZHE GAN, XIAOLEI HUANG, XIAODONG HE。論文地址：

https://arxiv.org/abs/1711.10485

論文摘要

在論文中，我們提出了一種Attentional生成對抗網絡（AttnGAN）。它允許注意力驅動的多階段細化，以實現細粒度粒度的文本到圖像的生成。

通過新穎的注意力生成網絡，AttnGAN可以通過關注自然語言描述中的相關單詞，來合成圖像的不同子區域的細粒度細節。此外，提出了一種深度attentional多模態相似度模型，來計算用於訓練生成器的細粒度圖像文本匹配損失。

AttnGAN明顯優於當前最先進的技術水平，在CUB數據集上提升了14.14％的最佳報告得分，在更具挑戰性的COCO數據集上得到170.25％的提升。同時還通過可視化AttnGAN的注意力層來執行詳細分析。它首次表明分層注意力GAN能夠自動選擇單詞級別的條件，以生成圖像的不同部分。

核心理念

可以通過多階（例如，單詞級和句子級）調節來實現細粒度的高質量圖像生成。因此，研究人員提出了一種體系結構，其中生成網絡通過這些子區域最相關的單詞來繪製圖像。

Attentional Generative Adversarial Network有兩個新穎的組件：Attentional generative network和深度Attentional多模態相似度模型（DAMSM）。

Attentional generative network包括以下2個方面

而深度Attentional多模態相似度模型（DAMSM），用於計算生成的圖像和文本描述之間的相似性，為訓練生成器提供額外的細粒度圖文匹配損失。

關鍵成就

社區評價

該論文在計算機視覺的重要會議2018年CVPR上發表。

未來的研究領域

探索使模型更好地捕獲全局相干結構的方法；增加生成圖像的照片真實感。

可能的商業應用

根據文本描述自動生成圖像，可以提高計算機輔助設計和藝術品的生產效率。

源碼

GitHub上提供了AttnGAN的PyTorch實現。

3. 通過條件生成式GAN獲得高解析度圖像合成及語義操作

作者TING-CHUN WANG, MING-YU LIU, JUN-YAN ZHU, ANDREW TAO, JAN KAUTZ, BRYAN CATANZARO。論文地址：

https://arxiv.org/abs/1711.11585

論文摘要

Conditional GAN已有很多應用案例，但通常僅限於低解析度圖像，且遠未達到以假亂真的地步。NVIDIA引入了一個新的方法，可以從語義標籤貼圖中合成高解析度（2048×1024）、照片級的逼真圖像。

他們的方法基於新的強大對抗性學習目標，以及新的多尺度生成器和鑑別器架構。這種新方法在語義分割和照片真實性的準確性方面，總體上優於以前的方法。此外，研究人員還擴展其框架以支持交互式語義操作，合併了對象實例分割信息，似的它可以實現對象操作，例如更改對象類別、添加/刪除對象或更改對象的顏色和紋理。

人類裁判經過肉眼比對後表示，此方法明顯優於現有方法。

核心理念

稱為pix2pixHD（基於pix2pix方法）的新框架合成高解析度圖像，有幾處改進：

該框架還允許交互式對象編輯，這要歸功於添加額外的低維特徵通道作為生成器網絡的輸入。

關鍵成就

引入的pix2pixHD方法在以下方面的表現優於最先進的方法：

社區評價

在計算機視覺的重要會議CVPR 2018上 Oral上，深度學習研究員Denny Britz對此評價：「這些GAN結果令人印象深刻。如果你現在正在用Photoshop修圖來謀生，那麼可能是時候另謀出路了。「

可能的商業應用

該方法為更高級別的圖像編輯提供了新工具，例如添加/刪除對象或更改現有對象的外觀。可以用在修圖工具中，或者創建新的修圖工具。

源碼

https://github.com/NVIDIA/pix2pixHD

作者ANDREW BROCK，JEFF DONAHUE和KAREN SIMONYAN，論文地址：

https://arxiv.org/abs/1809.11096

論文摘要

DeepMind團隊發現，儘管最近在生成圖像建模方面取得了進展，但是從像ImageNet這樣的複雜數據集中成功生成高解析度、多樣化的樣本仍然是一個難以實現的目標。

經過對GAN進行了最大規模的訓練嘗試，並研究了這種規模特有的不穩定性後，發現將正交正則化應用於生成器可以使得它適合於簡單的「截斷技巧」，允許通過截斷潛在空間來精確控制樣本保真度和變化之間的權衡。

這樣的改動導致模型在類條件圖像合成中達到了新的技術高度，當在ImageNet上以128×128解析度進行訓練時，模型（BigGAN）的Inception Score（IS）達到了166.3；Frechet Inception Distance（FID）為9.6。而之前的最佳IS為52.52，FID為18.65。

該論文表明，如果GAN以非常大的規模進行訓練，例如用兩倍到四倍的參數和八倍於之前的批量大小，就可以生成看起來非常逼真的圖像。這些大規模的GAN（即BigGAN）是類條件圖像合成中最先進的新技術。

核心理念

關鍵成就

社區評價

該文件正在被評審是否錄取為下一屆ICLR 2019。

在BigGAN發生器登上TF Hub後，來自世界各地的AI研究人員用BigGAN來生成狗，手錶，比基尼圖像，蒙娜麗莎，海濱等等，玩的不亦樂乎

未來的研究領域

遷移到更大的數據集以緩解GAN穩定性問題

探索減少GAN產生的奇怪樣本數量的可能性

可能的商業應用

替代廣告和電商成本較高的手動媒體創建。

源碼

作者TERO KARRAS，SAMULI LAINE，TIMO AILA，論文地址：

https://arxiv.org/abs/1812.04948

論文摘要

NVIDIA團隊推出了一種新的生成器架構StyleGAN，借鑑了風格轉移文獻。在這項研究中，他們解決了對傳統GAN架構生成的圖像進行非常有限的控制的問題。

StyleGAN中的生成器自動學習分離圖像的不同方面，而無需任何人為監督，從而可以多種不同方式組合這些方面。例如，我們可以從一個人那裡獲取性別，年齡，頭髮長度，眼鏡和姿勢，而從另一個人那裡獲取所有其他方面。由此產生的圖像在質量和真實性方面優於先前的技術水平。

核心理念

StyleGAN基於漸進式GAN設置，其中假定網絡的每個層控制圖像的不同視覺特徵，層越低，其影響的特徵越粗糙：

對應於粗糙空間解析度（4×4 - 8×8）的層使得能夠控制姿勢、一般髮型、面部形狀等

中間層（16×16 - 32×32）影響較小規模的面部特徵，如髮型、睜眼/閉眼等

細粒度解析度（64×64 - 1024×1024）的層主要帶來顏色方案和微結構

受風格轉移文獻的推動，NVIDIA團隊引入了一種生成器架構，可以通過新穎的方式控制圖像合成過程

關鍵成就

在CelebA-HQ數據集上得到5.06的Frèchet inception distance（FID）得分，在Flickr-Faces-HQ數據集上獲得4,40得分

呈現人臉Flickr-Faces-HQ的新數據集，其具有比現有高解析度數據集更高的圖像質量和更寬的變化

社區評價

Uber的軟體工程師Philip Wang創建了一個網站

thispersondoesnotexist.com

可以在其中找到使用StyleGAN生成的面孔。這個網站形成了病毒式傳播

未來的研究領域

探索在訓練過程中直接塑造中間潛在空間的方法

可能的商業應用

由於StyleGAN方法的靈活性和高質量的圖像，它可以替代廣告和電子商務中昂貴的手工媒體創作。

源碼

https://github.com/NVlabs/stylegan

參考連結：

https://www.topbots.com/ai-research-generative-adversarial-network-images/

【2019新智元 AI 技術峰會倒計時10天】

2019年的3月27日，新智元再匯AI之力，在北京泰富酒店舉辦AI開年盛典——2019新智元AI技術峰會。峰會以「智能雲•芯世界「為主題，聚焦智能雲和AI晶片的發展，重塑未來AI世界格局。

同時，新智元將在峰會現場權威發布若干AI白皮書，聚焦產業鏈的創新活躍，評述華人AI學者的影響力，助力中國在世界級的AI競爭中實現超越。

購票二維碼

活動行購票連結：http://hdxu.cn/9Lb5U

點擊文末「閱讀原文」，馬上參會！

5個最新圖像合成GAN架構解讀:核心理念、關鍵成就、商業化路徑

相關焦點

圖像合成神器MSG-GAN入選CVPR2020,超越最先進GAN

圖像合成神器 MSG-GAN入選CVPR2020,超越最先進GAN,穩定多尺度高...

圖像合成神器 MSG-GAN入選CVPR2020,超越最先進GAN,穩定多尺度高解析度

資源 | NIPS 2017 Spotlight論文Bayesian GAN的TensorFlow實現

智能汽車時代的核心,電子架構系統深度解讀

科普 | 生成對抗網絡(GAN)的發展史

20000餘字、76頁PPT,百度架構調整後首度披露AI技術商業化進展

能生成Deepfake也能診斷癌症,GAN與惡的距離

從DCGAN到SELF-MOD:GAN的模型架構發展一覽

教程 | 在Keras上實現GAN:構建消除圖片模糊的應用

【專知薈萃11】GAN生成式對抗網絡知識資料全集(理論/報告/教程/綜述/代碼等)

Im2Mesh GAN:從一張RGB圖像中恢復3D手部網格

GAN生成式對抗網絡及應用詳解

100個深度圖像分割算法,紐約大學UCLA等最新綜述論文

5分鐘入門GANS:原理解釋和keras代碼實現

塗鴉塗出攝影大片:英偉達「高更」GAN讓簡筆畫秒變逼真圖像

在圖像生成領域裡,GAN這一大家族是如何生根發芽的

圖像分區域合成,這個新方法實現了人臉的「精準整容」

IBM以現代基礎架構,成就技術商業時代

解讀架構師的核心工作內容

5個最新圖像合成GAN架構解讀:核心理念、關鍵成就、商業化路徑

相關焦點

圖像合成神器MSG-GAN入選CVPR2020,超越最先進GAN

圖像合成神器 MSG-GAN入選CVPR2020,超越最先進GAN,穩定多尺度高...

圖像合成神器 MSG-GAN入選CVPR2020,超越最先進GAN,穩定多尺度高解析度

資源 | NIPS 2017 Spotlight論文Bayesian GAN的TensorFlow實現

智能汽車時代的核心,電子架構系統深度解讀

科普 | ​生成對抗網絡(GAN)的發展史

20000餘字、76頁PPT,百度架構調整後首度披露AI技術商業化進展

能生成Deepfake也能診斷癌症,GAN與惡的距離

從DCGAN到SELF-MOD:GAN的模型架構發展一覽

教程 | 在Keras上實現GAN:構建消除圖片模糊的應用

【專知薈萃11】GAN生成式對抗網絡知識資料全集(理論/報告/教程/綜述/代碼等)

Im2Mesh GAN:從一張RGB圖像中恢復3D手部網格

GAN生成式對抗網絡及應用詳解

100個深度圖像分割算法,紐約大學UCLA等最新綜述論文

5分鐘入門GANS:原理解釋和keras代碼實現

塗鴉塗出攝影大片:英偉達「高更」GAN讓簡筆畫秒變逼真圖像

在圖像生成領域裡,GAN這一大家族是如何生根發芽的

圖像分區域合成,這個新方法實現了人臉的「精準整容」

IBM以現代基礎架構,成就技術商業時代

解讀架構師的核心工作內容

科普 | 生成對抗網絡(GAN)的發展史