[CVPR 2020] StarGAN v2: 多域風格圖像合成,效果驚人,史上最強!

2021-01-18 小樣本學習與智能前沿



文章提出了StarGAN v2,這是一種可以同時解決生成圖像多樣性和多域擴展性的單一框架。相比於了baselines,它取得了明顯的提升。文章對StarGAN 取得的視覺質量、多樣性以及可擴展性都進行了驗證。


paper: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9157662 

code: https://github.com/clovaai/stargan-v2

cite: @inproceedings{DBLP:conf/cvpr/ChoiUYH20, author = {Yunjey Choi and Youngjung Uh and Jaejun Yoo and Jung{-}Woo Ha}, title = {StarGAN v2: Diverse Image Synthesis for Multiple Domains}, booktitle = , pages = {8185–8194}, publisher = , year = {2020} }

全文共計5245字,預計閱讀時間14分鐘。

關注公眾號,後臺回復『StarGAN2』,即可獲取論文電子資源。




domain :a set of images that can be grouped as a visually distinctive category

style: each image has a unique appearance, which we call style

例如,我們可以用性別作為不同的域,則風格就是妝容、鬍子和髮型等(圖1的上部分)。

An ideal image-to-image translation method :should be able to synthesize images considering the diverse styles in each domain.

現有的方法:只考慮的兩個域之間的映射,當域數量增加的時候,他們不具備擴展性。

StarGAN [6]:one of the earliest models, which learns the mappings between all available domains using a single generator。

生成器將域標籤作為附加的輸入,學習圖像到對應域的轉換。然而,StarGAN仍然學習每個域的確定性映射,該映射沒有捕獲數據分布的多模式本質。

StarGAN v2: a scalable approach that can generate diverse images across multiple domains.

基於StarGAN,並用我們提出的域特定風格代碼取代掉了StarGAN的域標籤,這個域特定風格代碼可以表示特定域的不同風格。為此,我們引入了兩個模塊,一個映射網絡(mapping network),一個風格編碼器(style encoder)。

mapping network :learns to transform random Gaussian noise into a style code

學習如何將隨機高斯噪聲轉換為風格編碼

style encoder: the encoder learns to extract the style code from a given reference image.

而編碼器則學習從給定的參考圖像中提取風格編碼。

在多個域的情況下,這兩個模塊都擁有多個輸出分支,每一個都為特定域提供了風格編碼。最終,使用這些風格編碼,生成器就可以成功地學習在多個域下合成風格圖像。


我們用X 和Y來分別表示圖像和域的集合,給定x屬於X 和任意域y屬於Y,我們的目標是訓練一個單一的生成器G ,使它能夠根據x針對每一個域y生成多樣化的圖像。我們在每個域學習到的風格空間中生成域特定的風格向量,並且訓練G來表達這個風格向量。圖2 闡釋了我們框架的概述, 其中包含了如下的四個模塊。

Generator (Figure 2a)

生成器G(x,s)需要輸入圖像x和特定風格編碼s,s由映射網絡F或者風格編碼器E提供。我們使用adaptive instance normalization(AdaIN)來注入s到G中。s被設計為表示特定域y的風格,從而消除了向G提供y的必要性,並允許G合成所有域的圖像。

Mapping network (Figure 2b)

給定一個潛在編碼z和一個域y,映射網絡F生成風格編碼s=Fy(z)s=Fy(z),其中Fy(⋅)Fy(⋅) 表示F對應於域y的輸出。F由帶有多個輸出分支的MLP組成,用來為所有可用域提供風格編碼。F 通過隨機採樣潛在向量z和域y來提供多樣化風格編碼。我們的多任務架構允許F高效地學習所有域的風格表達。

Style encoder(Figure 2c)

給定圖像x和它對應的域y,編碼器E提取風格編碼s=Ey(x)s=Ey(x). 其中Ey(⋅)Ey(⋅)表示編碼器特定域域y的輸出。和F類似,風格編碼器E也受益於多任務學習設置。
E可以使用不同參考圖片生成多樣化風格編碼。這允許G合成反映參考圖像x的風格s的輸出圖像。

Discriminator (Figure 2d)

判別器D是一個多任務判別器,由多個輸出分支組成。每個分支DyDy 學習一個二進位分類決定輸入圖像x是否是它對應域y的真實圖像,或者是由G產生的假圖像G(x,s)


給定一張圖像x和它對應的原始域y。

Adversarial objective

對抗目標:我們隨機採樣潛在編碼z和目標域y,並且生成目標風格編碼 ~s=F~y(z)s~=Fy~(z). 編碼器G 將圖像x和~ss~ 作為輸入,並通過對抗損失學習生成輸出圖像G(x,~s)G(x,s~)

Style reconstruction.

風格重建:為了增強生成器 來在生成圖像G(x,~s)G(x,s~)的時候,使用風格編碼~ss~, 我們採用風格重建損失:在測試時,我們學習的編碼器E允許G變換輸入圖像,以反映參考圖像的風格。

Style diversification.

風格多樣化:為了進一步增強生成器G來產生多樣化圖像,我們用多樣性敏感損失來調整G。其中目標風格編碼~s1s~1 和~s2s~2由F根據兩個隨機潛在編碼z1z1和z2z2產生。最大化正則項會迫使G探索圖像空間並發現有意義的風格特徵,以生成各種圖像。我們刪除了分母部分,並設計了一個新的方程來進行穩定的訓練,但要保持直覺。

Preserving source characteristics.

保留原始特徵:

為了保證生成的圖像適當地保留輸入圖像x域無關特徵(例如,姿勢),我們採用了循環一致性損失:其中,^s=Ey(x)s^=Ey(x) 是輸入圖像x的估計風格編碼,y是x的原始域。通過鼓勵生成器G 重新構造帶有估計風格編碼^ss^的輸入圖像x, G學習在改變風格的同時保留x的原始特徵。

Full objective.

我們還以與上述目標相同的方式訓練模型,在生成風格編碼時使用參考圖像而不是潛在向量。我們在附錄中提供了訓練詳細信息。


在訓練階段,所有實驗均使用看不見的圖像進行 baselines:

MUNIT [13]

DRIT [22]

MSGAN[27]

StarGAN [6]

All the baselines are trained using the implementations provided by the authors.

datasets:

評估策略:

Frechét inception distance (FID) [11]

learned perceptual image patch similarity (LPIPS) [38].


3.1. Analysis of individual components


We evaluate individual components that are added to our baseline StarGAN using CelebA-HQ.

FID 表示真實和生成圖像的分布之間的距離,越小越好,LPIPS表示生成圖像的多樣性,越大越好

3.1. Analysis of individual

一個輸入圖像在不同配置情況下的相應生成圖像如圖3所示。baseline 配置(A)就相當於是StarGAN。如圖3a所示,StarGAN程序只通過在輸入圖像上進行了妝容的局部改變。配置(F)對應著我們提出的方法 StarGAN v2

圖4展示了StarGAN v2 可以合成參照包括髮型、妝容和鬍鬚在內的反應多樣化風格的圖像,同時,還沒有破壞原有的特徵。

學習了妝容、髮型、鬍鬚等風格,保留了姿勢和身份。


3.2. Comparison on diverse image synthesis‍‍‍‍‍‍‍‍‍‍‍‍

In this section, we evaluate StarGAN v2 on diverse image synthesis from two perspectives: latent-guided synthesis and reference-guided synthesis.

Latent-guided synthesis.

潛在引導合成

圖5提供了質量的比較。For both CelebA-HQ and AFHQ, our method achieves FIDs of 13.8 and 16.3, respectively, which are more than two times improvement over the previous leading method.

Reference-guided synthesis.

參考引導合成Here, MUNIT and DRIT suffer from mode-collapse in AFHQ, which results in lower LPIPS and higher FID than other methods.

Human evaluation.

For each comparison, we randomly generate 100 questions, and each question is answered by 10 workers. We also ask each worker a few simple questions to detect unworthy workers. The number of total valid workers is 76.

These results show that StarGAN v2 better extracts and renders the styles onto the input image than the other baselines.



We discuss several reasons why StarGAN v2 can successfully synthesize images of diverse styles over multiple domains.

our style code is separately generated per domain by the multi-head mapping network and style encoder.

our style space is produced by learned transformations

our modules benefit from fully exploiting training data from multiple domains

To show that our model generalizes over the unseen images, we test a few samples from FFHQ [18] with our model trained on CelebA-HQ (Figure 7). Here, StarGAN v2 successfully captures styles of references and renders these styles correctly to the source images.


我們提出來 StarGAN v2,解決了兩個image-to-image轉化的主要挑戰,轉換一個域的單張圖像到目標域的多張不同風格的圖像,以及支持多目標域。 實驗結果表明,我們的模型可以跨多個域中生成豐富的風格圖像,並且超過了此前的領先方法 [13, 22, 27]。 我們還發布了一個新的動物臉集(AFHQ)數據集,用來在大規模域內域間變化設置中評估各種方法。




喜歡就點個在看再走吧

相關焦點

  • 生成「貓狗版」川普,造假臉工具StarGANv2被玩壞,算法已開源
    結果川普的臉轉換成貓就成了這樣:與狗臉合成又成了這樣,模型甚至給狗穿上了西服。安裝使用這麼有趣的模型,如何安裝呢?好在StarGANv2的開發團隊提供了完整的代碼和預訓練模型。先將項目克隆到本地:git clone https://github.com/clovaai/stargan-v2.git cd stargan-v2/安裝依賴項:conda create -n stargan-v2 python=3.6.7conda activate stargan-v2 conda install
  • 升級版StarGAN來襲!你想要的多目標域多風格圖像變換它都有
    設計了 Mapping Network 用於生成風格編碼,擺脫了標籤的束縛;用風格編碼器指導 Mapping Network 進行目標風格學習,可以實現目標域下多風格圖像的轉換,而判別器則為了區分生成的目標域圖像是否是真實來源於真實目標域。從大方向上捋了一下 StarGAN v2 的結構,是不是有幾個問題要問,為什麼設計了映射網絡就能實現由源域圖像轉換到目標域下多幅圖像?多幅圖像是怎麼得到的?
  • 這隻狗,其實是貓變的:「擼貓神器」StarGAN v2來了!
    但是,由於這些方法僅考慮了兩個域之間的映射,因此無法擴展到越來越多的域。例如,具有N個域,這些方法需要訓練N(N-1)個生成器來處理每個域之間的轉換,從而限制了它們的實際使用。 為了解決可擴展性問題,有研究提出了統一的框架。StarGAN 是最早的模型之一,它使用一個生成器來學習所有可用域之間的映射。生成器將域標籤作為附加輸入,並學習將圖像轉換為相應的域。
  • GANs中的明星StarGAN:使用單一模型執行多個域的圖像轉換
    StarGAN這樣一個統一的模型體系架構讓我們可以同時訓練單個網絡中具有不同域的多個數據集,這導致StarGAN的圖像轉化結果比現有模型質量更高,並具有將輸入圖像靈活轉化成任何期望目標域的新穎能力。我們憑經驗證明了我們的方法在面部屬性轉移和面部表情合成任務上的有效性。上圖為在CelebA數據集上通過傳遞從RaFD數據集中學習到的知識,進行多領域圖像到圖像的轉換結果。
  • 【明星自動大變臉】最新StarGAN對抗生成網絡實現多領域圖像變換(附代碼)
    (a)為處理多個域,應該在每一對域都建立跨域模型。(b)StarGAN用單個發生器學習多域之間的映射。該圖表示連接多個域的拓撲圖。為解決這些問題我們提出了StarGAN,它是生成對抗網絡,能夠學習多個域之間的映射。如圖2(b)所示,文章中提出的模型接受多個域的訓練數據,並且只使用一個生成器學習所有可用域之間的映射。這個想法是非常簡單的。
  • 「CVPR Oral」TensorFlow實現StarGAN代碼全部開源,1天訓練完
    新智元編譯 來源:github作者:Junho Kim 編譯:肖琴【新智元導讀】StarGAN 是去年 11 月由香港科技大學、新澤西大學和韓國大學等機構的研究人員提出的一個圖像風格遷移模型,是一種可以在同一個模型中進行多個圖像領域之間的風格轉換的對抗生成方法。
  • STARGAN-多領域圖像
    Pix2Pix模型解決了有Pair對數據的圖像翻譯問題;CycleGAN解決了Unpaired數據下的圖像翻譯問題。但無論是Pix2Pix還是CycleGAN,都是解決了一對一的問題,即一個領域到另一個領域的轉換。當有很多領域要轉換了,對於每一個領域轉換,都需要重新訓練一個模型去解決。這樣的行為太低效了。本文所介紹的StarGAN就是將多領域轉換用統一框架實現的算法。
  • 【明星自動大變臉,嬉笑怒罵加變性】最新StarGAN對抗生成網絡實現多領域圖像變換(附代碼)
    (a)為處理多個域,應該在每一對域都建立跨域模型。(b)StarGAN用單個發生器學習多域之間的映射。該圖表示連接多個域的拓撲圖。為解決這些問題我們提出了StarGAN,它是生成對抗網絡,能夠學習多個域之間的映射。如圖2(b)所示,文章中提出的模型接受多個域的訓練數據,並且只使用一個生成器學習所有可用域之間的映射。這個想法是非常簡單的。
  • 實習期完成,無圖像對和域標籤,博士小哥實現完全無監督的圖像轉換
    因而,越來越多的研究人員開始探索無監督設置下的圖像到圖像轉換方法。2019 年 5 月,英偉達的一項研究探索 few-shot 無監督的圖像到圖像轉換算法,並實現了逼真的轉換效果。近日,韓國延世大學等機構的研究者實現了完全無監督設置下的圖像到圖像轉換。
  • 圖像合成神器MSG-GAN入選CVPR2020,超越最先進GAN
    今天分享一篇被CVPR 2020接收的論文,這篇論文與生成對抗GAN相關,題目為「MSG-GAN: Multi-Scale Gradient GAN for Stable Image Synthesis」(MSG-GAN:用於穩定圖像合成的多尺度梯度GAN)。
  • 英偉達開源Imaginaire:九大圖像及視頻合成方法,你學fei了嗎?
    它可以輕鬆地將粗糙的塗鴉變成逼真的傑作,令人嘆為觀止,效果堪比真人攝影師作品。GauGAN 應用主要使用的技術,就是英偉達的 SPADE。最後,該模型允許用戶控制合成圖像的語義和風格。該論文被 CVPR 2019 接收為 Oral 論文。
  • 史上最全!歷年 CVPR 最佳論文盤點(2000 年——2018 年)
    作者利用合成與真實數據進一步說明了重建方法可以如何更好地利用這些框架。評估系統在合成與實際測試集的處理結果中顯示了高精度,並分析了幾個訓練參數對此的影響。與相關工作相比,該模型實現了目前最先進的精度,並在全骨架最近鄰匹配上有了很大進步。
  • 西電學子獲國際頂會CVPR2020 -VQA比賽亞軍
    西電學子獲國際頂會CVPR2020 -VQA比賽亞軍 2020-06-15 10:36 來源:澎湃新聞·澎湃號·政務
  • Shearlet變換域內容自適應圖像水印算法
    頻域水印包括DCT域、Wavelet變換域、Ridgelet變換域等[3-6]。通過研究發現,人眼對高頻信息如複雜的區域、灰度變化劇烈區域的失真不敏感,而對低頻信息如平滑區域的失真較為敏感。因此,充分利用人類視覺的頻率特性的同時,考慮圖像自身由於不同背景平均亮度的對比度掩蓋效應和圖像紋理掩蓋效應,圖像能對水印提供更好的視覺掩蓋機制。
  • CVPR 2017國內外亮點論文匯集:史上最盛大會議,華人佔據半壁江山
    不僅在學術領域,隨著深度學習在圖像處理領域的應用熱潮,越來越多的業界研究機構也在將目光投向 CVPR,從數量眾多的大會贊助商中,我們就可以感受到這一活動的關注度之高。在漫長的等待之後,本屆大會已於 2017 於 7 月 21 日在美國夏威夷開幕,並將舉行至 7 月 26 日。
  • 風格遷移新方法:微軟與上海交大提出深度圖像類比技術
    據研究者稱,這種名為 Deep Image Analogy 的技術相比最近的其他研究可以得到更好的風格遷移效果,並適用於多種不同的圖像轉換任務。摘要我們提出了一種在圖片中進行視覺風格轉移的新技術,可以讓圖片進行外觀上的轉換,但保留感知上相似的紋理結構。我們的技術可以在兩個輸入圖像之間找到有意義的對應關係。
  • CVPR2020 人體相關文章 - 2
    Body RelatedCVPR 2020 PapersCVPR 2020 人體相關的文章第二彈,第一彈見這裡,主要包含人體重建,2D/3D姿態估計,還有幾篇其他方面的人體文章,最後還包含幾篇人手重建相關的文章。  每一篇都超越了 state-of-the-art,每一篇都有可能是現在的 state-of-the-art!
  • 美圖秀秀聯手微軟小冰,推出史上最強人工智慧賀卡
    也許很多人還在困惑於怎樣才能挑選精美的賀卡,怎樣才能突出獨特的心意,怎樣才能讓祝福表達得真誠溫暖,而有了美圖機器人Andy幫你製圖,微軟小冰幫你寫祝福詩句,再用小冰獨有的軟萌語音讀出來,在這兩個炫酷AI搭檔的幫助下,暖暖心意加上十足科技感,一張史上最強有聲聖誕賀卡就此誕生。
  • GAN用於無監督表徵學習,效果依然驚人……
    近年來,GAN 在圖像合成領域取得了驚人的成果,例如先前 DeepMind 提出的 BigGAN。近日,DeepMind 提出全新的 BigBiGAN,引起了社區極大的關注。其實在 GAN 的早期,它也是能用於無監督表徵學習的,只不過後來自編碼器等自監督學習有了更好的效果。在這篇論文中,研究者表示圖像生成質量的提升能大幅度提升表徵學習的性能。並且相比自編碼器等關注「底層細節」的模型,GAN 通過判別器能捕捉語義層面的差異,從而顯著提升效果。
  • 22篇入選CVPR 2020,百度 15 篇精選論文詳解
    因此,該論文中利用未標記的視頻來解決此問題,方法是將動作分割任務重新設計為跨域(domain)問題,而且該跨域問題主要針對時空變化引起的域差異。為了減少差異,論文提出了「自我監督的時域自適應(SSTDA)」,其中包含兩個自我監督的輔助任務(binary和sequential的域預測),以聯合對齊嵌入不同規模時域動態的跨域特徵空間,從而獲得比其他域適應(DA)方法更好的效果。