5個最新圖像合成GAN架構解讀:核心理念、關鍵成就、商業化路徑

2021-02-20 新智元


來源:topbots

編輯:元子

【新智元導讀】本文總結了5個最近推出的用於圖像合成的GAN架構,對論文從核心理念、關鍵成就、社區價值、未來商業化及可能的落地應用方向對論文進行解讀。

 

本文總結了5個最近推出的用於圖像合成的GAN架構,對論文從核心理念、關鍵成就、社區價值、未來商業化及可能的落地應用方向對論文進行解讀,對創業者、開發者、工程師、學者均有非常高的價值。

多域圖像到圖像翻譯的統一生成網絡。作者YUNJEY CHOI,MINJE CHOI,MUNYOUNG KIM,JUNG-WOO HA,SUNGHUN KIM,JAEGUL CHOO。論文地址:

https://arxiv.org/abs/1711.09020

論文摘要

最近的研究表明,兩個領域的圖像到圖像轉換取得了顯著的成功。然而,現有方法在處理兩個以上的域時,可擴展性和魯棒性的比較有限,因為需要為每對圖像域獨立地構建不同的模型。

StarGAN的出現就是為了解決這一問題。研究人員提出了一種新穎且可擴展的方法,可以實現僅靠單個模型就能對多個域執行圖像到圖像的轉換。

StarGAN這種統一模型架構,允許在單個網絡內同時訓練具有不同域的多個數據集。與現有模型相比,StarGAN有著更高的圖像轉化質量,以及將輸入圖像靈活地轉換為任何所需目標域的新穎功能。

我們憑經驗證明了我們的方法在面部屬性轉移,和面部表情綜合任務方面的有效性。

核心理念

StarGAN是一種可擴展的圖像到圖像轉換模型,可以使用單個網絡從多個域中學習:

StarGAN還可以從包含不同類型標籤的多個數據集中學習:

關鍵成就

定性和定量評估表明,StarGAN在面部屬性轉移和面部表情綜合方面優於基準模型:

社區評價

該研究論文在計算機視覺的重要會議CVPR 2018 oral上被接受。

未來的研究領域

探索進一步改善生成圖像的視覺質量的方法。

可能的商業應用

圖像到圖像轉換可以降低用於廣告和電子商務用途的媒體創意的成本。


源碼

https://github.com/yunjey/stargan

用細緻的文字生成圖像,作者TAO XU, PENGCHUAN ZHANG, QIUYUAN HUANG, HAN ZHANG, ZHE GAN, XIAOLEI HUANG, XIAODONG HE。論文地址:

https://arxiv.org/abs/1711.10485

論文摘要

在論文中,我們提出了一種Attentional生成對抗網絡(AttnGAN)。它允許注意力驅動的多階段細化,以實現細粒度粒度的文本到圖像的生成。

通過新穎的注意力生成網絡,AttnGAN可以通過關注自然語言描述中的相關單詞,來合成圖像的不同子區域的細粒度細節。此外,提出了一種深度attentional多模態相似度模型,來計算用於訓練生成器的細粒度圖像文本匹配損失。

AttnGAN明顯優於當前最先進的技術水平,在CUB數據集上提升了14.14%的最佳報告得分,在更具挑戰性的COCO數據集上得到170.25%的提升。同時還通過可視化AttnGAN的注意力層來執行詳細分析。它首次表明分層注意力GAN能夠自動選擇單詞級別的條件,以生成圖像的不同部分。


核心理念

可以通過多階(例如,單詞級和句子級)調節來實現細粒度的高質量圖像生成。因此,研究人員提出了一種體系結構,其中生成網絡通過這些子區域最相關的單詞來繪製圖像。

Attentional Generative Adversarial Network有兩個新穎的組件:Attentional generative network和深度Attentional多模態相似度模型(DAMSM)。

 

Attentional generative network包括以下2個方面

而深度Attentional多模態相似度模型(DAMSM),用於計算生成的圖像和文本描述之間的相似性,為訓練生成器提供額外的細粒度圖文匹配損失。

關鍵成就

社區評價

該論文在計算機視覺的重要會議2018年CVPR上發表。


未來的研究領域

探索使模型更好地捕獲全局相干結構的方法;增加生成圖像的照片真實感。


可能的商業應用

根據文本描述自動生成圖像,可以提高計算機輔助設計和藝術品的生產效率。


源碼


GitHub上提供了AttnGAN的PyTorch實現。

3. 通過條件生成式GAN獲得高解析度圖像合成及語義操作

作者TING-CHUN WANG, MING-YU LIU, JUN-YAN ZHU, ANDREW TAO, JAN KAUTZ, BRYAN CATANZARO。論文地址:

https://arxiv.org/abs/1711.11585

論文摘要

Conditional GAN已有很多應用案例,但通常僅限於低解析度圖像,且遠未達到以假亂真的地步。NVIDIA引入了一個新的方法,可以從語義標籤貼圖中合成高解析度(2048×1024)、照片級的逼真圖像。

他們的方法基於新的強大對抗性學習目標,以及新的多尺度生成器和鑑別器架構。這種新方法在語義分割和照片真實性的準確性方面,總體上優於以前的方法。此外,研究人員還擴展其框架以支持交互式語義操作,合併了對象實例分割信息,似的它可以實現對象操作,例如更改對象類別、添加/刪除對象或更改對象的顏色和紋理。

人類裁判經過肉眼比對後表示,此方法明顯優於現有方法。

核心理念

稱為pix2pixHD(基於pix2pix方法)的新框架合成高解析度圖像,有幾處改進:

該框架還允許交互式對象編輯,這要歸功於添加額外的低維特徵通道作為生成器網絡的輸入。

關鍵成就

引入的pix2pixHD方法在以下方面的表現優於最先進的方法:

社區評價

在計算機視覺的重要會議CVPR 2018上 Oral上,深度學習研究員Denny Britz對此評價:「這些GAN結果令人印象深刻。 如果你現在正在用Photoshop修圖來謀生,那麼可能是時候另謀出路了。「

可能的商業應用

該方法為更高級別的圖像編輯提供了新工具,例如添加/刪除對象或更改現有對象的外觀。可以用在修圖工具中,或者創建新的修圖工具。

源碼

https://github.com/NVIDIA/pix2pixHD

作者ANDREW BROCK,JEFF DONAHUE和KAREN SIMONYAN,論文地址:

https://arxiv.org/abs/1809.11096


論文摘要

DeepMind團隊發現,儘管最近在生成圖像建模方面取得了進展,但是從像ImageNet這樣的複雜數據集中成功生成高解析度、多樣化的樣本仍然是一個難以實現的目標。

經過對GAN進行了最大規模的訓練嘗試,並研究了這種規模特有的不穩定性後,發現將正交正則化應用於生成器可以使得它適合於簡單的「截斷技巧」,允許通過截斷潛在空間來精確控制樣本保真度和變化之間的權衡。

這樣的改動導致模型在類條件圖像合成中達到了新的技術高度,當在ImageNet上以128×128解析度進行訓練時,模型(BigGAN)的Inception Score(IS)達到了166.3;Frechet Inception Distance(FID)為9.6。而之前的最佳IS為52.52,FID為18.65。

該論文表明,如果GAN以非常大的規模進行訓練,例如用兩倍到四倍的參數和八倍於之前的批量大小,就可以生成看起來非常逼真的圖像。這些大規模的GAN(即BigGAN)是類條件圖像合成中最先進的新技術。


核心理念

關鍵成就


社區評價

該文件正在被評審是否錄取為下一屆ICLR 2019。

在BigGAN發生器登上TF Hub後,來自世界各地的AI研究人員用BigGAN來生成狗,手錶,比基尼圖像,蒙娜麗莎,海濱等等,玩的不亦樂乎

未來的研究領域

遷移到更大的數據集以緩解GAN穩定性問題

探索減少GAN產生的奇怪樣本數量的可能性

可能的商業應用

替代廣告和電商成本較高的手動媒體創建。

源碼

作者TERO KARRAS,SAMULI LAINE,TIMO AILA,論文地址:

https://arxiv.org/abs/1812.04948

論文摘要

NVIDIA團隊推出了一種新的生成器架構StyleGAN,借鑑了風格轉移文獻。在這項研究中,他們解決了對傳統GAN架構生成的圖像進行非常有限的控制的問題。

StyleGAN中的生成器自動學習分離圖像的不同方面,而無需任何人為監督,從而可以多種不同方式組合這些方面。例如,我們可以從一個人那裡獲取性別,年齡,頭髮長度,眼鏡和姿勢,而從另一個人那裡獲取所有其他方面。由此產生的圖像在質量和真實性方面優於先前的技術水平。


核心理念

StyleGAN基於漸進式GAN設置,其中假定網絡的每個層控制圖像的不同視覺特徵,層越低,其影響的特徵越粗糙:

對應於粗糙空間解析度(4×4 - 8×8)的層使得能夠控制姿勢、一般髮型、面部形狀等

中間層(16×16 - 32×32)影響較小規模的面部特徵,如髮型、睜眼/閉眼等

細粒度解析度(64×64 - 1024×1024)的層主要帶來顏色方案和微結構

受風格轉移文獻的推動,NVIDIA團隊引入了一種生成器架構,可以通過新穎的方式控制圖像合成過程

關鍵成就

在CelebA-HQ數據集上得到5.06的Frèchet inception distance(FID)得分,在Flickr-Faces-HQ數據集上獲得4,40得分

呈現人臉Flickr-Faces-HQ的新數據集,其具有比現有高解析度數據集更高的圖像質量和更寬的變化

社區評價

Uber的軟體工程師Philip Wang創建了一個網站

thispersondoesnotexist.com

可以在其中找到使用StyleGAN生成的面孔。這個網站形成了病毒式傳播

未來的研究領域

探索在訓練過程中直接塑造中間潛在空間的方法

可能的商業應用

由於StyleGAN方法的靈活性和高質量的圖像,它可以替代廣告和電子商務中昂貴的手工媒體創作。

源碼

https://github.com/NVlabs/stylegan

參考連結:

https://www.topbots.com/ai-research-generative-adversarial-network-images/

【2019新智元 AI 技術峰會倒計時10天】

 2019年的3月27日,新智元再匯AI之力,在北京泰富酒店舉辦AI開年盛典——2019新智元AI技術峰會。峰會以「智能雲•芯世界「為主題,聚焦智能雲和AI晶片的發展,重塑未來AI世界格局。

同時,新智元將在峰會現場權威發布若干AI白皮書,聚焦產業鏈的創新活躍,評述華人AI學者的影響力,助力中國在世界級的AI競爭中實現超越。

購票二維碼

活動行購票連結:http://hdxu.cn/9Lb5U

點擊文末「閱讀原文」,馬上參會!


相關焦點

  • 圖像合成神器MSG-GAN入選CVPR2020,超越最先進GAN
    儘管基於流量的模型允許直接使用最大似然估計(顯式和隱式)訓練生成模型,但生成圖像的保真度並未能夠與最新的GAN模型相匹配。但是,GAN訓練存在兩個比較嚴重的缺陷:(1)模式崩潰問題和(2)訓練的不穩定性。當發生器網絡僅能夠捕獲數據分布中存在的方差子集時,就會發生模式崩潰的問題。儘管很多論述試圖解決這個問題,目前這仍是一個開放的研究領域。但在此項研究中,我們解決了訓練不穩定的問題。
  • 圖像合成神器 MSG-GAN入選CVPR2020,超越最先進GAN,穩定多尺度高...
    儘管基於流量的模型允許直接使用最大似然估計(顯式和隱式)訓練生成模型,但生成圖像的保真度並未能夠與最新的GAN模型相匹配。但是,GAN訓練存在兩個比較嚴重的缺陷:(1)模式崩潰問題和(2)訓練的不穩定性。  當發生器網絡僅能夠捕獲數據分布中存在的方差子集時,就會發生模式崩潰的問題。儘管很多論述試圖解決這個問題,目前這仍是一個開放的研究領域。但在此項研究中,我們解決了訓練不穩定的問題。
  • 圖像合成神器 MSG-GAN入選CVPR2020,超越最先進GAN,穩定多尺度高解析度
    儘管基於流量的模型允許直接使用最大似然估計(顯式和隱式)訓練生成模型,但生成圖像的保真度並未能夠與最新的GAN模型相匹配。但是,GAN訓練存在兩個比較嚴重的缺陷:(1)模式崩潰問題和(2)訓練的不穩定性。當發生器網絡僅能夠捕獲數據分布中存在的方差子集時,就會發生模式崩潰的問題。儘管很多論述試圖解決這個問題,目前這仍是一個開放的研究領域。
  • 資源 | NIPS 2017 Spotlight論文Bayesian GAN的TensorFlow實現
    (explicit likelihood)建模的圖像、音頻和數據的豐富分布。--out_dir:文件夾路徑,用於存儲輸出--n_save: 每 n_save 次迭代存儲的樣本和權重;默認值 100--z_dim: 生成器 z 向量的維度;默認值 100--data_path:數據路徑;具體討論詳見 https://github.com/andrewgordonwilson/bayesgan/#data-preparation
  • 智能汽車時代的核心,電子架構系統深度解讀
    通過昨天的分享,我們可以知道整個「智能汽車」的核心就是汽車電子電氣架構的革命性改變,今天就來分享這部分內容。 一,汽車 E/E 架構 汽車電子電氣架構(又稱 E/E 架構)是指整車電子電氣系統的總布置方案,即將汽車裡的各類傳感器、處理器、線束連接、電子電氣分配系統和軟硬體整合在一起,以實現整車的功能、運算、動力及能量的分配。電子電氣架構的關鍵變化主要體現在硬體架構、軟體架構、通信架構三個方面。
  • 科普 | ​生成對抗網絡(GAN)的發展史
    生成器網絡將該噪聲矢量轉換為圖像。然後將生成的圖像發送到鑑別器網絡以進行分類。鑑別器網絡不斷地從真實數據集和由發生器網絡生成的圖像獲得圖像。它的工作是區分真實和虛假的圖像。所有GAN架構都遵循這樣的設計。青春期在青春期,GAN產生了許多流行的架構,如DCGAN,StyleGAN,BigGAN,StackGAN,Pix2pix,Age-cGAN,CycleGAN等。
  • 20000餘字、76頁PPT,百度架構調整後首度披露AI技術商業化進展
    報告基於AI與產業融合的視角,植入了大量案例,20000餘字、76頁PPT,如此長篇幅,重度探討了AI技術發展近況、如何商業化落地、如何與智慧城市等產業結合——鑑於百度現在是All in AI的大戰略,這也算得上是百度與清華大學共同針對AI課題的最新研究與成果展示了。
  • 能生成Deepfake也能診斷癌症,GAN與惡的距離
    2014年以來GANs不斷進行改進才有了如今的成就,但是要一項一項來回顧這個過程,就像是要重新看一遍長達八季的「權力的遊戲」,非常漫長。所以,在此我將僅僅重溫這些年來GAN研究中一些酷炫成果背後的關鍵思想。
  • 從DCGAN到SELF-MOD:GAN的模型架構發展一覽
    話在前面當然,從廣義上來講,圖像領域的分類模型的任何進展,也算是判別器的進展(因為都是分類器,相關的技術都可能用到判別器中),而圖像分類模型本質上從 ResNet 之後就沒有質的變化,這也說明 ResNet 結構對判別器基本上是最優選擇了。但是生成器不一樣,雖然從 DCGAN 之後 GAN 的生成器也形成了一些相對標準的架構設計,但遠說不上定型,也說不上最優。
  • 教程 | 在Keras上實現GAN:構建消除圖片模糊的應用
    GAN 訓練流程訓練過程中有三個關鍵步驟:請注意,判別器的權重在第三步中被凍結。對兩個網絡進行連接的原因是不存在單獨對生成器輸出的反饋。我們唯一的衡量標準是判別器是否能接受生成的樣本。以上,我們簡要介紹了 GAN 的架構。
  • 【專知薈萃11】GAN生成式對抗網絡知識資料全集(理論/報告/教程/綜述/代碼等)
    NIPS2016也有最新的關於訓練GAN模型的總結參考連結:[https://github.com/soumith/ganhacks]The GAN Zoo千奇百怪的生成對抗網絡,都在這裡了。://github.com/musyoku/adversarial-autoencoder]利用ThoughtVectors 實現文本到圖像的合成參考連結:[https://github.com/paarthneekhara/text-to-image]對抗樣本生成器(Adversarialexample generator)參考連結:[https
  • Im2Mesh GAN:從一張RGB圖像中恢復3D手部網格
    小白決心每天為大家帶來經典或者最新論文的解讀和分享,旨在幫助各位讀者快速了解論文內容。個人能力有限,理解難免出現偏差,建議對文章內容感興趣的讀者,一定要下載原文,了解具體內容。我們試驗了兩種方法,其中一種可以獲得圖像的地面真相數據可用性和相應的網格相結合的好處,而另一種則解決了在沒有相應地面真相的情況下進行網格估計的更具有挑戰性的問題。通過廣泛的評估,我們證明所提出的方法優於最先進的。重要的是,通過將網格解釋為圖,我們可以利用圖神經網絡(GNNs)的最新進展來支持生成器和鑑別器網絡中的網格處理。
  • GAN生成式對抗網絡及應用詳解
    其核心方法是在訓練生成器的同時,也對鑑別器進行訓練,以達到改進後者的目的。同樣的方法可以應用於圖像處理的不同領域中。Yann LeCun(深度學習創始人之一)提出的 GAN 已經被認為是過去的 10 年裡在 ML、領域中最有吸引力的想法。GAN 可以學習如何再現看似真實的合成數據。例如,計算機可以學習如何繪畫和創造逼真的圖像。
  • 100個深度圖像分割算法,紐約大學UCLA等最新綜述論文
    它涉及到將圖像(或視頻幀)分割成多個段或對象[1]。分割在[2]的廣泛應用中起著核心作用,包括醫學圖像分析(如腫瘤邊界提取和組織體積測量),自動駕駛車輛(如可導航的表面和行人檢測),視頻監控,增強現實等。
  • 5分鐘入門GANS:原理解釋和keras代碼實現
    它是一種可替代的自適應變分編碼器(VAEs)學習圖像的潛在空間,以生成合成圖像。它的目的是創造逼真的人工圖像,幾乎無法與真實的圖像區分。GAN的直觀解釋生成器和鑑別器網絡:生成器網絡的目的是將隨機圖像初始化並解碼成一個合成圖像。
  • 塗鴉塗出攝影大片:英偉達「高更」GAN讓簡筆畫秒變逼真圖像
    Catanzaro 表示,「然後神經網絡就能根據它對真實圖像的了解,填充所有的細節和紋理,以及反射、陰影和顏色……該技術不僅可以整合其他圖像或切割、粘合圖像紋理,實際上還可以合成新的圖像,這與畫家的繪畫方式非常相似。」據介紹,GauGAN 主要使用了英偉達最新推出的 SPADE 技術,相關研究已被 CVPR 2019 接收為 oral 論文。
  • 在圖像生成領域裡,GAN這一大家族是如何生根發芽的
    機器之心原創作者:思源生成對抗網絡這一 ML 新成員目前已經枝繁葉茂了,截止今年 5 月份,目前 GAN 至少有 300+的論文與變體。而本文嘗試藉助機器之心 SOTA 項目梳理生成對抗網絡的架構與損失函數發展路徑,看看 GAN 這一大家族都有什麼樣的重要歷程。
  • 圖像分區域合成,這個新方法實現了人臉的「精準整容」
    ,只為能合成出更具真實感的圖像。第一,SPADE 僅使用一種風格代碼來控制一張圖像的整體風格,這不足以實現高質量的合成或對細節的控制。此外,SPADE 不允許在分割掩碼的不同區域使用不同風格的輸入圖像。因此,第一個改進方案是實現對每個區域的單獨控制,即新提出的架構每個區域(即每個區域實例)都能使用一種風格圖像作為輸入。
  • IBM以現代基礎架構,成就技術商業時代
    在微服務的實踐中,容器化是一個很關鍵的實踐技術,它可以最小化地對硬體資源進行調配,將各種各樣的應用進行封裝,統一編排、調度和管理,使之快速上線。微服務和容器化結合的核心,就是IBM和Red Hat的OpenShift。
  • 解讀架構師的核心工作內容
    很多做軟體開發同學的夢想都是成為一名架構師,而架構師的核心工作就是做好軟體設計。軟體設計是軟體開發過程中的一個重要環節,那麼如何進行軟體設計,其輸出標準又是什麼呢?軟體設計過程中,如何和各個相關方溝通,使軟體設計能同時滿足用戶的功能需求和非功能需求,並降低公司的開發成本?