圖像合成神器MSG-GAN入選CVPR2020,超越最先進GAN

2020-12-23 新智元

今天分享一篇被CVPR 2020接收的論文,這篇論文與生成對抗GAN相關,題目為「MSG-GAN: Multi-Scale Gradient GAN for Stable Image Synthesis」(MSG-GAN:用於穩定圖像合成的多尺度梯度GAN)。

摘要

雖然生成對抗網絡在圖像合成任務中取得了巨大的成功,但眾所周知,它們很難適應不同的數據集,部分原因是訓練過程中的不穩定性和對超參數的敏感性。這種不穩定性的一個普遍接受的原因是,當真實和虛假分布的支持沒有足夠的重疊時,從鑑別器到發生器的梯度變得不具信息性。本文提出了多尺度梯度生成對抗網絡(MSG-GAN),這是一種簡單而有效的技術,通過允許梯度流從鑑別器到發生器在多個尺度上流動來解決這個問題。該技術為高解析度圖像合成提供了一種穩定的方法,並作為常用的漸進生長技術的替代。結果表明,MSG-GAN在不同大小、解析度和域的多種圖像數據集上,以及不同類型的丟失函數和結構上都穩定收斂,且具有相同的固定超參數集。與最先進的GAN相比,在我們嘗試的大多數情況下,我們的方法都能與之媲美或超越其性能。

圖1:MSG-GAN技術的結果

引言:GAN訓練存在兩個比較嚴重的缺陷

生成式對抗網絡(Generative Adversarial Networks,GANs)是蒙特婁大學的Ian Goodfellow於2014年提出的一種生成模型,目前已經成為高質量圖像合成的業界標準。

GAN的成功來自於這樣一個事實,即它們不需要手動設計的損失函數來進行優化,而且能夠生成複雜的數據分布,且無需進行明確定義。儘管基於流量的模型允許直接使用最大似然估計(顯式和隱式)訓練生成模型,但生成圖像的保真度並未能夠與最新的GAN模型相匹配。但是,GAN訓練存在兩個比較嚴重的缺陷:(1)模式崩潰問題和(2)訓練的不穩定性

當發生器網絡僅能夠捕獲數據分布中存在的方差子集時,就會發生模式崩潰的問題。儘管很多論述試圖解決這個問題,目前這仍是一個開放的研究領域。但在此項研究中,我們解決了訓練不穩定的問題。這是GAN的一個基本問題,在過往的研究著述中已被廣泛報導。

我們研究了,在不依賴於先前方法(例如漸進式增長技術)的情況下,如何利用不同尺度的梯度生成高解析度圖像。這可以解決訓練的不穩定性問題。

圖2:我們的架構包括從發生器的中間層到判別器的中間層的連接。

MSG-GAN允許判別器不僅查看生成器的最終輸出結果(最高解析度),而且還可以查看中間層的輸出結果(圖2)。結果,判別器成為發生器的多個標度輸出的函數,並且重要的是,將梯度同時傳遞給所有標度。

此外,我們的方法對於不同的損失函數(我們展示了WGAN-GP和具有單側梯度罰分的非飽和GAN損失的結果),數據集(我們在各種常用數據集和新創建的Indian Celebs數據集上演示結果)和體系架構(我們將MSG方法與ProGAN和StyleGAN基礎架構集成在一起)具有魯棒性。就和漸進式增長一樣,我們注意到,多尺度梯度在FID得分方面相比於原始DCGAN體系架構有顯著提高

但是,我們的方法相比於現有的方法,在訓練時間相同的情況下在大多數現有數據集上性能較優,而無需額外的超參數(漸進式增長需要引入超參數),例如不同生成階段的訓練時間表和學習速率。這種魯棒性使得MSG-GAN方法可以很容易地在新數據集上「開箱即用」。而相比之下,如果使用基於漸進式增長的方法,則在和之前相同的超參數集上效果不佳(請參見表1和2)。我們還通過對高解析度FFHQ數據集進行消融實驗,表明了在所有解析度下進行多尺度連接的重要性。

總而言之,我們有如下貢獻:

1. 我們引入了一種用於圖像合成的多尺度梯度技術,該技術提升了訓練的穩定性。

2. 我們能夠在許多常用數據集上魯棒地生成高質量樣本。

實驗:所有模型都使用RMSprop進行訓練

實驗雖然評估GAN生成的圖像的質量並不是一件容易的事,但當今最常用的指標是初始得分(IS,越高越好)和Frechet初始距離(FID,越低越好)。為了將我們的結果與以前的工作進行比較,我們將IS用於CIFAR10實驗,將FID用於其餘實驗,並報告「顯示的真實圖像數量」,如先前的工作所示。

新的印度名人數據集

除了現有的數據集外,我們還收集了一個由印度名人組成的新數據集。我們獲取新數據集的目的是嘗試使用非常小的尺寸(就圖像數量而言)的數據集,因為GAN社區已經表明,數據集的尺寸對於創建良好的生成模型很重要。為此,我們使用類似於CelebA-HQ的過程收集了圖像。首先,我們通過抓取相關搜索查詢的網頁來下載印度名人的圖像。然後,我們使用現成的面部檢測器檢測到面部,並裁剪所有圖像並將其調整為256x256的大小。最後,我們通過濾除低質量,錯誤和低光照的圖像來手動清理圖像。最後,數據集僅包含3K個樣本,比CelebA-HQ小一個數量級。該數據集將被公開以供研究。

實現細節

我們將在解析度和大小(圖像數量)不同,解析度高的各種數據集上評估我們的方法。CIFAR10(60x圖像,解析度為32x32);牛津花(8K圖像,解析度為256x256),LSUN教堂(126K圖像,解析度為256x256),印度名人(3K圖像,解析度為256x256),CelebA-HQ(3萬圖像,解析度為1024x1024)和FFHQ(70K圖像,解析度為1024x1024)。

圖3:由MSG-StyleGAN在不同的中級解析度(256x256)數據集上生成的隨機,未整理的樣本。我們的方法用相同超參數就可以在所有數據集中生成高質量的結果。

表1:在中級解析度(即256x256)數據集上進行的實驗。我們儘可能使用作者提供的分數,否則使用官方代碼和建議的超參數(表示為「 *」)訓練模型。

對於每個數據集,我們使用相同的初始潛在維數512,從標準正態分布N(0,I)得出,然後進行超球面歸一化。對於所有實驗,我們對MSG-ProGAN和MSG-StyleGAN使用相同的超參數設置(lr = 0.003),唯一的區別是上採樣層的數量(較低解析度的數據集較少)。

圖4: MSG-StyleGAN在高解析度(1024x1024)數據集上生成的隨機,未整理的樣本

表2:在高解析度(1024x1024)數據集上進行的實驗。我們儘可能使用作者提供的分數,否則使用官方代碼和推薦的超參數(表示為「 *」)訓練模型。

所有模型都使用RMSprop進行了訓練,生成器和鑑別器的學習率均為0.003。我們根據標準正態N(0,I)分布初始化生成器和鑑別器的參數。為了與先前發表的工作相匹配,所有StyleGAN和MSG-StyleGAN模型都經過帶有單面GP的非飽和GAN損耗訓練,而ProGAN和MSGProGAN模型都具有WGAN-GP損耗函數進行訓練。

圖5:訓練早期MSG-GAN中的所有層生成結果的解析度幾乎是同步的,隨後在所有解析度下生成圖像的質量同時提高。在整個訓練過程中,生成器僅對圖像的潛在固定點進行最小的增量改進。

圖6:訓練期間的圖像穩定性。這些圖顯示了在CelebA-HQ數據集上,從相同潛在代碼生成的圖像在連續epoch下的MSE(36個潛在樣本平均值)。MSG-ProGAN會隨著時間穩定收斂,而ProGANs在各個時期仍會有很大的變化。

我們還擴展了MinBatchStdDev技術,將一批激活的平均標準偏差饋送到鑑別器,以提高樣本多樣性,從而達到我們的多尺度設置。為此,我們在鑑別符中每個塊的開頭添加一個單獨的MinBatchStdDev層。這樣,鑑別器獲得所生成樣本的批統計以及每個尺度上的直線路徑激活,並且可以檢測到生成器在某種程度上的模式崩潰。

表3:CIFAR-10的學習率魯棒性。我們看到,在一系列學習率範圍內我們的方法收斂到相似的IS分數。

表4:高解析度(1024x1024)FFHQ數據集上不同程度的多尺度梯度連接的消融實驗。較差的包含(4x4)和(8x8)的連接,中間的包含(16x16)和(32x32)的連接;較好的是(64x64)和(1024x1024)。

表5:在高解析度(1024x1024)FFHQ數據集上使用不同的合併方程進行的實驗。

當我們自己訓練模型時,我們報告訓練時間和使用的GPU,並在可能的情況下嘗試使用相同的機器,以便可以直接進行訓練時間比較(除Oxford Flowers ProGAN與MSG-ProGAN以外的所有情況)。所顯示的實際圖像數量和訓練時間的變化是由於以下事實:按照慣例,我們報告了在固定次數的迭代中獲得的最佳FID得分,以及達到該得分所花費的時間。複製研究工作所需的所有代碼和經過訓練的模型都可以在https://github.com/akanimax / msg-stylegan-tf上用於研究目的。

討論:真正的照片真實性還未實現

局限性和未來工作

我們的方法並非沒有局限性。我們注意到,使用漸進式訓練,以較低的解析度進行的第一組迭代要快得多,而MSG-GAN的每次迭代花費的時間相同。但是,我們觀察到MSG-GAN需要更少的總迭代次數才能達到相同的FID,並且通常在總訓練時間相似的情況下才這樣。

最後,我們注意到,在FFHQ和CelebAHQ的面部數據集上,我們沒有超過StyleGAN的生成質量。造成這種情況的原因很多,其中包括超參數選擇不當,或者StyleGANs架構更適合這些數據集。另外,由於我們在MSGStyleGAN中進行了多尺度修正,因此我們的方法無法利用混合正則化技巧,在混合技巧中,將多個潛在矢量進行混合,並且由鑑別器強制得到的圖像是真實的。這樣做是為了允許在測試時在不同級別混合不同樣式,同時也提高了整體質量。有趣的是,即使我們沒有明確強制執行混合正則化,我們的方法仍然能夠生成合理的混合結果。儘管沒有提高FFHQ上的FID分數,但我們的方法在其他數據集上的分數更高,並且引入了一種易於使用的高解析度合成新方法,可能會激發後續工作,從而進一步提高結果質量。

結論

儘管在實現逼真的高解析度圖像合成方面已取得了巨大的進步,但真正的照片真實性還沒有實現,特別是在外觀上存在很大差異的領域方面。在這項工作中,我們介紹了MSG-GAN技術,以一種簡單的方法,利用GAN生成高解析度的多尺度圖像。

相關焦點

  • 史上最全GAN綜述2020版:算法、理論及應用
    第三,我們闡述了 GAN 在圖像處理與計算機視覺、自然語言處理、音樂、語音與音頻、醫學以及數據科學中的典型應用。最後,我們指出了 GAN 的一些未來的開放性研究問題。算法在本節中,我們首先介紹最原始的 GAN。然後,介紹其具有代表性的變體、訓練及評估方式以及任務驅動的 GAN。
  • 公路類- Sworks sl6,Pinarello gan,Giant defy,Cannondale,滾石
    商品信息:pinarello gan 正品 整車出,ut套件。可刀感興趣的話點「我想要」和我私聊吧~二手物品,出售不退。謝謝合作 閒魚連結: 快來撿漏【pinarello gan 正品 整車出,ut套件。可刀】椱ァ製這段描述後,打開閒魚€YwfkcbWD5pr€後打開👉閒魚👈  價格:11000¥
  • 萬字長文解讀GAN:從基本概念、原理到實際應用
    ,即最小化 V(D,G) 的最大值。為了保證 V(D,G) 取得最大值,所以我們通常會訓練迭代 k 次判別器,然後再迭代 1 次生成器(不過在實踐當中發現,k 通常取 1 即可)。上圖右邊是 LSGAN 使用最小二乘 loss 時,輸入與輸出的對照關係圖。可以看到,在左圖,輸入比較大的時候,梯度為 0,即交叉熵損失的輸入容易出現梯度飽和現象。而右邊的最小二乘 loss 則不然。對於第二點,改善生成質量。這個在原文也有詳細的解釋。具體來說:對於一些被判別器分類正確的樣本,其對梯度是沒有貢獻的。但是判別器分類正確的樣本就一定是很接近真實數據分布的樣本嗎?
  • 深睿研究院8篇論文入選人工智慧頂級會議CVPR2019 圖像識別與醫學...
    CVPR( Conference on Computer Vision and Pattern Recognition)作為行業最頂級的研究型會議,每年被收錄的論文均來自計算機視覺領域頂級團隊,代表著國際最前沿的科研技術,並指引著計算機視覺領域未來的研究方向。本屆CVPR總共錄取來自全球頂級學術論文1299篇,中國團隊表現不俗。
  • CVPR2020即將舉行 優必選科技12篇入選論文搶先看
    雖然論文錄用難度增大,但在CVPR 2020上,優必選雪梨大學人工智慧研究中心再次展示計算機視覺研究實力,一共有12篇論文入選!  讓我們來了解一下此次入選的12篇論文。在第一階段,具有結構感知的深度網絡表徵被用於預測兩個連續視頻幀之間的表徵流,並據此生成中間幀的結構指導圖像。在第二階段,根據所得到的結構指導圖像,一個紋理細化補償網絡進一步進行紋理細節的填充。據我們所知,這是第一個通過融合深度網絡表徵直接進行視頻插幀的算法。在基準數據集和具有挑戰性的遮擋情況下進行的實驗表明,我們所提出的框架優於現有最先進的方法。
  • WGAN-div:默默無聞的WGAN填坑者 | 附開原始碼
    權重裁剪這是 WGAN 最原始的論文所提出的一種方案:在每一步的判別器的梯度下降後,將判別器的參數的絕對值裁剪到不超過某個固定常數。 這是一種非常樸素的做法,現在基本上已經不用了。其思想就是:L 約束本質上就是要網絡的波動程度不能超過一個線性函數,而激活函數通常都滿足這個條件,所以只需要考慮網絡權重,最簡單的一種方案就是直接限制權重範圍,這樣就不會抖動太劇烈了。
  • 剛剛,CVPR 2021論文接收結果「開獎了」
    CVPR 2021 接收論文 ID 列表:http://cvpr2021.thecvf.com/CVPRaccepts.html大會程序主席 Georgia Gkioxari 表示,CVPR 2021 大會官網將在明天公布接收論文列表。
  • 7 Papers|周志華等NeuralPS2019接收論文;網易用GAN建遊戲角色
    從文本或其他圖像的圖像合成示例來看,這些對抗網絡的性能較傳統方法有了極大的提升。此外,這些網絡根據對抗訓練理念進行訓練,旨在估計真實數據的潛在分布,並將潛在分布作為輸入以生成合成數據。基於這種基本原理,一些框架得以生成,並在藝術合成、高解析度輸出生成以及手工繪製圖像合成等現實應用中獲得完美實現。儘管在理論上生成對抗網絡的結果更好並在諸多方面較傳統方法好得多,但在特定應用中實現這些框架依然面臨挑戰。
  • 科普:先進合成孔徑雷達的工作原理及系統組成
    科普:先進合成孔徑雷達的工作原理及系統組成 雷達通信電子戰 發表於 2020-12-18 15:28:26 繼高度成功的ERS-1/2 SAR之後,歐洲航天局發射了攜帶先進的合成孔徑雷達
  • GAN 的漸進式訓練方法 PI-REC:手繪草稿迅速重建為完整圖像
    雷鋒網 AI 科技評論按,在圖像處理中,生成對抗網絡(GAN)的應用非常廣泛。本文想給大家推薦一個使用基於 GAN 的漸進式訓練方法 PI-REC,能從超稀疏二值邊緣以及色塊中還原重建真實圖像的項目。下面是用該項目的方法重建真實圖像的例子:項目對應的論文地址為:http://t.cn/EJYO93N本項目是關於圖像重建,圖像翻譯,條件圖像生成,AI 自動繪畫的前沿交叉領域,而非簡單的以圖搜圖。重心在超稀疏信息輸入的還原重建上,並非自動繪畫。本項目包含了測試代碼以及交互式繪畫工具。當然,這個項目還不能達到輔助專業人士繪圖的程度。
  • 古有照妖鏡,今有換臉識別機,微軟 CVPR 2020力作,讓偽造人臉無處...
    這項技術與現有方法不同,它能夠準確檢測「未知」圖像,即不論什麼算法合成的,在不進行針對性的訓練的情況下也可以進行檢測。對於具體的應用,谷歌曾經推出一款照片打假神器名為 Assembler,具有 7 個檢測器(detectors),其中 5 個由美國和義大利的大學研究團隊開發,分別負責檢測經不同類型的技術處理過的照片,例如合成、擦除等。
  • NeurlPS2020|訓練數據嚴重不足,我的GAN也不會涼涼了!
    為了證明實驗結果解決了這一技術難題,研究人員展示了在幾個數據集上,僅僅使用幾千個圖像,就可以得到可觀的結果,並且在通常情況下,可以將StyleGAN2的結果與數量很少的圖像相匹配。」從定義上來說,任何應用到訓練數據集的增強效果都會被生成的圖像繼承。Zhao 等人在CoRR2020上發表的《GAN的改善一致正則化(Improved consistency regularization for GANs》中的平衡一致正則化(balanced Consistency Regularization, bCR)就是針對此問題的一個解決方案。
  • 新超越極限攻略
    ⑧死神任務:玩家去殺死神器店前面毀滅守衛得到惡魔的靈魂;去左邊狼區殺死狼王得到狼王靈魂;去基地後面河裡殺死螃蟹得到秋天的石頭,輸入wuji可以得到魔法寶石;去基地右邊飾品店購買第一排四個物品自動合成死神披風,再去挑戰房挑戰合成寶石boss得到合成之石,湊齊死神披風、惡魔靈魂、狼王靈魂、青狼皮甲、合成之石,靠近基地左邊的那個男村民,可以合成神器死神,有了死神就可以去挑戰祝福寶石碎片了來升級神器了
  • 一個模型擊潰12種AI造假,各種GAN與Deepfake都陣亡
    不論是GAN生成的,Deepfake的,超解析度的,還是怎樣得來的,只要是AI合成圖片,都可以拿一個通用的模型檢測出來。儘管各種CNN的原理架構完全不同,但是並不影響檢測器發現造假的通病。然而他們並沒有,而是先在ArXiv公布了預印本,並且還被CVPR 2020收錄。最近,他們甚至將論文代碼在GitHub上開源,還提供了訓練後的權重供讀者下載。
  • CVPR 2020論文收錄揭曉:百度22篇論文入選 涵蓋全視覺領域
    近日,計算機視覺領域「奧斯卡」CVPR 2020官方公布論文收錄結果,伴隨投稿數量激增,接收率開始經歷了一個持續下降的過程。今年,在6656篇有效投稿中,共有1470篇論文被接收,接收率為22%左右,相較去年25%的入選率,同比下降3%。在論文接收率下降的同時,中國科技企業被錄取論文數量卻不降反增,百度作為AI代表企業今年中選22篇,比去年的17篇增加了5篇。
  • CVPR,華人包攬!斬獲全部獎項,近四成中國作者,清華最多
    最佳論文獎最佳論文(Best Paper Award),毋庸置疑,是每屆大會接收所有論文中的「最頂級者」。團隊提出了一個叫Photo-Geometric Autoencoding的新方法,可以在沒有任何人工或外部監督的情況下,只需單張圖像,就可以生成高質量的3D人臉模型。先來看下,用單張真實人臉圖像作為輸入的結果。
  • 全球計算機視覺頂會CVPR 2020論文出爐:騰訊優圖17篇論文入選
    全球計算機視覺頂級會議CVPR2020 (IEEE Conference on Computer Vision and Pattern Recognition,即IEEE國際計算機視覺與模式識別會議) 即將於2020年6月14日-19日在美國西雅圖召開。
  • 【軟體】一秒讓女上司歡心的AI加持圖像編輯軟體,從此不加班!!
    都快2020年了,修個圖還那麼麻煩!為什麼照片不能自己修自己呢?今天攝影Din主編給小夥伴帶來一款號稱「懶人修圖神器」的的AI加持的Pixelmator Pro for mac 圖像編輯工具,一鍵修圖,AI快速場景匹配,比同類型軟體多,更細緻,識別能力也比較準確。準確分析照片的各種信息,針對性地匹配出各項信息,快速出圖,再也不用加班熬夜修圖、設計了,照片變得「狠」漂亮!
  • GAN生成的結果多樣性不足怎麼辦?那就再添一個鑑別器!
    理論分析表明,假設使用最強的鑑別器,優化D2GAN的生成器可以讓原始資料庫和生成器產生的數據間的KL和反向KL散度最小化,從而有效地避免模式崩潰的問題。作者進行了大量的合成和真實資料庫的實驗(MNIST,CIFAR-10,STL-10,ImageNet),對比D2GAN和最新的GAN變種的方法,並進行定性定量評估。