單張圖像就可以訓練GAN!Adobe改良圖像生成方法 | 已開源

2020-12-10 和訊

  十三 發自 凹非寺

  量子位 報導 | 公眾號 QbitAI

  數據集太小了,無法訓練GAN?試試從單個圖像入手吧。

  去年穀歌就提出了SinGAN,是第一個拿GAN在單幅自然圖像學習的非條件生成模型(ICCV 2019最佳論文)。

  而最近,來自Adobe和漢堡大學的研究人員,對這個方法做了改進,探討了幾種讓GAN在單幅圖像提高訓練和生成能力的機制。

  研究人員將改進的模型稱作ConSinGAN。

  那麼,先來看下ConSinGAN的效果吧。

  上圖左側是用來訓練的單個圖像,右側是利用ConSinGAN訓練後生成的複雜全局結構。

  可以看出效果還是比較逼真。

  當然,ConSinGAN還可以用來處理許多其他任務,例如圖像超解析度( image super-resolution)、圖像動畫(image animation),以及圖像去霧(image dehazing)。

  下面兩張就是它在圖像協調(image harmonization)和圖像編輯(image editing)上的效果。

  ConSinGAN是怎麼做到的呢?

  訓練架構優化:並行的SinGAN

  首先,我們先來看下SinGAN的訓練過程。

  SinGAN在圖像中訓練幾個單獨的生成網絡,下圖便是第一個生成器,也是唯一從隨機噪聲生成圖像的無條件生成器。

  △在SinGAN中訓練的第一個生成器

  這裡的判別器從來不將圖像看做一個整體,通過這種方法,它就可以知道「真實的」圖像補丁(patch)是什麼樣子。

  這樣,生成器就可以通過生成,在全局來看不同,但僅從補丁來看卻相似的圖像,來達到「欺詐」的目的。

  在更高解析度上工作的生成器,將前一個生成器生成的圖像作為輸入,在此基礎上生成比當前還要高解析度的圖像。

  所有的生成器都是單獨訓練的,這意味著在訓練當前生成器時,所有以前的生成器的權重都保持不變。

  這一過程如下圖所示。

  而在Adobe與漢堡大學的研究人員發現,在給定的時間內僅能訓練一個生成器,並將圖像(而不是特徵圖)從一個生成器傳輸到下一個生成器,這就限制了生成器之間的交互。

  因此,他們對生成器進行了端到端的訓練,也就是說,在給定時間內訓練多個生成器,每個生成器將前一個生成器生成的特徵(而不是圖像)作為輸入。

  這也就是ConSinGAN名字的由來——並行的SinGAN,過程如下圖所示。

  然而,採取這樣的措施又會面臨一個問題,也就是過擬合。這意味著最終的模型不會生成任何「新」圖像,而是只生成訓練圖像。

  為了防止這種現象發生,研究人員採取了2個措施:

  在任意給定時間內,只訓練一部分生成器;

  對不同的生成器採用不同的學習率(learning rate)。

  下圖就展示了使用這兩種方法實現的模型。默認情況下,最多同時訓練3個生成器,並對較低的生成器,分別將學習率調至1/10和1/100。

  在這個過程中,有一個有趣的現象。

  如果對較低的生成器採用較高的學習率,那麼生成的圖像質量會高些,但是差異性較弱。

  相反,如果對較低的生成器採用較小的學習率,那麼生成圖像的差異性會豐富一些。如下圖所示。

  代碼已開源

  ConSinGAN的代碼已經在GitHub上開源。

  老規矩,先介紹一下運行所需要的環境:Python 3.5;Pytorch 1.1.0。

  安裝也非常簡單:

  pip install -r requirements.txt

  若要使用論文中的默認參數訓練模型:

  python main_train.py --gpu 0 --train_mode generation --input_name Images/Generation/angkorwat.jpg

  在英偉達GeForce GTX 1080Ti上訓練一個模型大約需要20-25分鐘。

  不同的學習率和訓練階段數量,會影響實驗的結果,研究人員推薦二者的默認值分別是0.1和6。

  當然也可以修改學習率:

  python main_train.py --gpu 0 --train_mode generation --input_name Images/Generation/colusseum.jpg --lr_scale 0.5

  修改訓練階段的數量:

  python main_train.py --gpu 0 --train_mode generation --input_name Images/Generation/colusseum.jpg --train_stages 7

  當然,模型也可以用來處理「圖像協調」和「圖像編輯」等任務,詳情可參閱GitHub。

 

  — 完 —

 

 

本文首發於微信公眾號:量子位。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。

(責任編輯:季麗亞 HN003)

相關焦點

  • 圖像生成器丨用GAN生成辛普森家族
    這個模型可以基於給定的數據集生成無數的相似圖像樣本。為了實現這個機器學習模型,我們將啟動生成對抗網絡(GANs)並且將包含有「辛普森家族」圖像特徵的數據作為輸入。在這篇文章的最後,你將會熟悉GANs背後的基礎知識,而且你也可以建立一個你自己的生成模型。
  • GAN進階版:一鍵實現圖像視頻卡通化
    相信大家對將照片卡通化的圖像處理功能都不陌生,通過軟體後臺對所選照片進行一定處理,將原圖變成了一張具有卡通風的圖片。市面上已有不少具備卡通化功能的軟體以及app,很多都可以「一鍵」輕鬆生成用戶想要的效果,方便處理使用。
  • 數據不夠,Waymo用GAN來湊:用生成圖像在仿真環境中訓練模型
    這隻GAN,名叫SurfelGAN,能基於無人車收集到的有限的雷射雷達和攝像頭數據,生成逼真的相機圖像。用GAN生成的數據訓練,還是訓練自動駕駛汽車,這到底靠譜不靠譜?接著,通過GAN生成逼真的相機圖像。表面元素場景重建為了忠實保留傳感器信息,同時在計算和存儲方面保持高效,研究人員提出了紋理增強表面元素地圖表示方法。
  • 性能SOTA、適用多種類型物體,國防科技大學單張RGB-D圖像預測物體...
    但是,這類算法的使用範圍通常僅限於幾何完整的合成三維模型或者高質量的重建三維模型,無法處理物體觀測缺失的情況,例如無法通過單張 RGB-D 圖像判斷物體的對稱性。近日,國防科技大學和普林斯頓大學的研究者提出面向單張 RGB-D 圖像的對稱檢測網絡 SymmetryNet,相關論文被 ACM Transactions on Graphics (SIGGRAPH Asia 2020) 收錄。
  • 谷歌發明的由2D圖像生成3D圖像技術解析
    谷歌研究人員製作的一個AI工具,可以把塗鴉變成奇怪的怪物。這款工具名為Chimera Painter,使用機器學習來根據用戶的粗略草圖生成圖像。 Chimera Painter背後的團隊在一篇博客文章中解釋了他們的方法和動機,稱他們的想法是創造一種 「畫筆,它的行為不像工具,而更像助手」。
  • 圖像增強領域大突破!1.66ms處理4K圖像,港理工提出圖像自適應的3DLUT
    >最近幾年基於學習的方法已成為圖像增強(增強圖像的色調、對比度等)的主流方案,然而這些圖像增強方法或者產生不好的效果或者需要大量的計算量以及內存佔用,嚴重影響了這些方法在高解析度圖像方面的實際應用(比如12M像素)。
  • 萬字綜述之生成對抗網絡(GAN)
    此外,本文參考了許多博客資料,已給出參考連結。如有侵權,請私信刪除。文章目錄如下:GAN的基本介紹生成對抗網絡(GAN,Generative Adversarial Networks)作為一種優秀的生成式模型,引爆了許多圖像生成的有趣應用。GAN 相比於其他生成式模型,有兩大特點: 1. 不依賴任何先驗假設。
  • 武漢大學開源口罩人臉識別數據集,AI「讀心術」直譯腦電波
    04單張圖像就可以訓練 GAN!Adobe 改良圖像生成方法「 現已開源」來自 Adobe 和漢堡大學的研究人員,在探討了幾種讓 GAN 在單幅圖像提高訓練和生成能力的機制後,將改進的模型稱作 ConSinGAN。
  • 性能SOTA,國防科技大學單張RGB-D圖像預測物體對稱性
    機器之心發布機器之心編輯部在這篇論文中,來自國防科技大學和普林斯頓大學的研究者提出了一種面向單張 RGB-D 圖像的對稱檢測網絡 SymmetryNet。但是,這類算法的使用範圍通常僅限於幾何完整的合成三維模型或者高質量的重建三維模型,無法處理物體觀測缺失的情況,例如無法通過單張 RGB-D 圖像判斷物體的對稱性。
  • CVPR 2020 | 看圖說話之隨心所欲:細粒度可控的圖像描述自動生成
    由於缺乏具有ASG標註的數據集,我們基於已有圖像描述數據集VisualGenome 和 MSCOCO自動構建ASG標籤進行訓練和測試。我們的模型在這兩個數據集上都取得了更好的控制性。此外,模型可基於多樣化的ASG生成更具有多樣性的圖像描述。 二. 方法
  • 杜克大學推AI圖像生成器,糊圖像5秒變清晰
    智東西(公眾號:zhidxcom)編 | 董溫淑智東西6月24日消息,近日,杜克大學的研究團隊研發了一個AI圖像生成模型PULSE。PULSE可以在5秒鐘內將低解析度的人像轉換成清晰、逼真的人像。Rudin團隊認為,雖然不能用於模糊人像的面部識別,但是這類AI模型可以作為一種分類和探索工具,用於天文學、醫學等難以獲得清晰圖像的領域。也就是說,基於模糊圖像中缺失信息的各種可能性,AI模型可以生成許多清晰的圖像,生成的多種圖像可以為天文學、醫學等領域研究人員提供參考。基於這種設想,杜克大學研究人員研發了基於生成式對抗網絡(GAN)的圖像超解析度模型PULSE。
  • OpenAI發布新人工智慧系統:根據文字生成圖像
    新浪科技訊 1月6日上午消息,據報導,舊金山人工智慧研究公司OpenAI已經開發了一種新系統,能根據短文本來生成圖像。新系統展示了「為一系列廣泛的概念」創造圖像的能力,創作的作品包括牛油果形狀的扶手椅等。通過神經網絡去生成圖像,這種技術並不新穎。此前,生成對抗網絡(GAN)已被廣泛用於創建真實的人、寵物、租賃房產和食物的照片。不過,DALL-E的獨特之處在於可以根據輸入的文本來創作圖像。該系統基於文字生成系統GPT-3的一個版本,該系統此前被用於撰寫詩歌和新聞文章等。
  • OpenAI推出DALL-E模型,一句話即可生成對應圖像
    圖: 從文本「一個穿著芭蕾舞裙遛狗的蘿蔔寶寶」生成的圖像示例根據文字提示,DALL-E生成的圖像可以像在現實世界中拍攝的一樣。同時測試表明,DALL-E也有能力對生成的圖像中的物體進行操作和重新排列,但也能創造出一些根本不存在的東西,比如一個鱷梨形狀的扶手椅:又或者是「一個長頸鹿烏龜」:GPT-3表明,語言可以用來指導大型神經網絡執行各種文本生成任務。而Image GPT表明,同樣類型的神經網絡也可以用來生成高保真度的圖像。這個突破說明通過文字語言來操縱視覺概念現在已經觸手可及。
  • OpenAI 發布兩個 GPT-3 模型,圖像匹配文本 CLIP 和 文本生成圖像...
    此前,GPT-3 的輸出可能會看上去與實際脫節,讓人感覺莫名其妙,這是因為它確實不知道自己在說什麼。CLIP,「另類」的圖像識別目前,大多數模型學習從策劃好的數據集的帶標籤的示例中識別圖像,而 CLIP 則是學習從網際網路獲取的圖像及其描述中識別圖像——即通過一段描述而不是「香蕉」、「蘋果」這樣的單詞標籤來認識圖像。
  • 教程| 你來手繪塗鴉,人工智慧生成「貓片」:edges2cats圖像轉換詳解
    edges2cats 是最近網絡中火爆的開源應用,它能以你隨手鼠繪的單色線圖為基礎自動生成一張「真實圖片」。其中繪製貓的版本最受歡迎。辨別器將輸入圖像與未知圖像(不管是數據集中的目標圖像,或是辨別器產生的輸出圖像)進行比較,並嘗試猜測該圖像是否由生成器生成。一個數據集的例子就是輸入圖像是黑白圖片,但是目標圖像是這個圖像的彩色版本:
  • 用2D圖像生成3D模型,微軟新AI模型或成遊戲業福音
    近日,微軟研究院(Microsoft Research)的研究團隊發表了一篇預印論文,他們在論文中詳細介紹了一個新的AI框架,該框架採用「可縮放」訓練技術,可將2D圖像進行3D形狀的模擬生成。研究人員表示,在使用2D圖像進行訓練時,該框架始終可以比現有的模型生成效果更好的3D形狀,這對於遊戲開發、視頻製作、動畫等領域是一個極佳的自動化工具。
  • 文本秒生成圖像,震驚業界,詳解OpenAI兩大AI模型
    編譯 | 子佩編輯 | Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派
  • 文本秒生成圖像,震驚業界!詳解OpenAI兩大AI模型
    智東西(公眾號:zhidxcom)編譯 |子佩編輯 |Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派「涇渭分明
  • 文本秒生成圖像,震驚業界——詳解OpenAI兩大AI模型
    編譯|智東西  子佩編輯|Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派「涇渭分明」的界限,實現多模態
  • 引燃AI社區,不用跨界也能從文本生成圖像,OpenAI新模型打破自然...
    第一個神經網絡 DALL·E 可以將以自然語言形式表達的大量概念轉換為恰當的圖像。值得注意的是,DALL·E 使用了 GPT-3 同樣的方法,只不過 DALL·E 將其應用於文本 - 圖像對。它以包含多達 1280 個 token 的單數據流形式接收文本和圖像,並利用最大似然進行訓練,逐個生成所有 token。token 是來自不連續詞彙表的任意符號。對於人類來說,每個英文字母都是來自字母表的 token。DALL·E 的詞彙表有文本和圖像的 token。