先融合再填充,上海交大提出少樣本圖像生成新方法F2GAN

2020-12-04 機器之心Pro

機器之心專欄

作者:牛力(上海交通大學仿腦計算與機器智能研究中心)

少樣本圖像生成是很有挑戰性的任務,可用的方法也很少。近日,上海交大和 Versa-AI 的研究人員合作發表論文,提出了先融合後填充(fusing-and-filling)的思想,以便更合理地融合條件圖片並完善生成圖片的細節信息。目前,這篇論文已被 ACM MM2020 會議接收。

少樣本圖像生成(few-shot image generation)任務是指用已知類別(seen category)的大量圖片訓練出一個生成模型,然後給定某個未知類別(unseen category)的少量圖片,即可為該未知類別生成大量真實且多樣的圖片。少樣本圖像生成屬於圖像數據增廣的範疇,可用來輔助很多下遊任務,如少樣本圖像分類等。

在少樣本任務系列中,相比少樣本分類(few-shot classification)、少樣本物體檢測(few-shot object detection)、少樣本語義分割(few-shot semantic segmentation)等任務,少樣本圖像生成任務受到的關注較少,可做的空間較大。

雖然在少樣本分類方法中,有一類方法是用數據增廣的方式提升分類性能,但大多數方法都是做少樣本特徵生成(few-shot feature generation),即生成圖像特徵,或者少樣本偽圖像生成,即生成一些看起來不真實但仍然可以提升分類性能的圖像。

而本文關注的少樣本圖像生成任務和上述任務不同,它致力於生成真實且多樣的圖片。因此,少樣本圖像生成任務比少樣本特徵生成和少樣本偽圖像生成更具有挑戰性

現有的少樣本圖像生成方法很少,可以大致歸納為三類:

基於優化的方法(optimization-based):這類方法和少樣本分類中基於優化的方法類似,只不過它把同樣的策略從分類模型轉移到了生成模型。比如,FIGR [1] 把 Reptile 應用到生成模型,DAWSON [2] 把 MAML 應用到生成模型。

基於變換的方法(transformation-based):輸入單張圖片,對這張圖片進行變換,得到另一張屬於同一類別的圖片。比如 DAGAN [3] 輸入單張圖片和一個隨機向量,對輸入圖片進行微調得到新的同類圖片。

基於融合的方法(fusion-based):輸入多張圖片,對這些圖片進行信息融合,得到新的屬於同一類別的圖片,該圖片包含輸入的多張圖片的信息。比如 GMN [4] 把 VAE 和 Matching Network 相結合。我們實驗室之前的一項工作 MatchingGAN [5] 把 GAN 和 Matching Network 相結合,另外一項工作 F2GAN [6] 提出了融合填充的思想。

我們整理了少樣本圖像生成方法的論文和代碼,參見:https://github.com/bcmi/Awesome-Few-Shot-Image-Generation。

本文重點介紹我們實驗室被 ACM MM2020 接收的論文《F2GAN: Fusing-and-Filling GAN for Few-shot Image Generation》,代碼將在整理後公布。

論文連結:https://arxiv.org/abs/2008.01999

核心思想

下圖展示了這篇論文的核心思想。

把三張屬於同一類別的圖片 x1, x2, x3,也叫做條件圖片(conditional image),按照一定比例(比如 [0.2, 0.3, 0.5])進行融合,得到一張新的圖片(比如 0.2 x1+0.3 x2+0.5 x3)。

一般做法是在潛在空間(latent space)做線性插值(linear interpolation),但本文提出了先融合後填充(fusing-and-filling)的思想,以便更合理地融合條件圖片並完善生成圖片的細節信息。因此該方法叫做 Fusing-and-filling GAN (F2GAN)。

F2GAN 方法簡介

F2GAN 方法的具體網絡結構參見下圖左:對條件圖片基於編碼器得到的深層特徵做線性插值,也就是融合(fusing);然後在解碼器生成過程中,利用基於全局注意力機制的融合模塊(non-local attentional fusion module, 具體結構參見下圖右),對於解碼器每層輸出特徵圖的每一個空間位置,從所有條件圖片的所有空間位置借取相關信息,再和解碼器輸出的特徵圖融合,得到新的特徵圖,並送入解碼器的下一層,相當於在上採樣過程中利用條件圖片的相關淺層特徵填充(filling)圖像細節。

根據這種先填充後融合(fusing-and-filling)的思想,得到的圖片按照一定比例融合了條件圖片的深層語義信息,並且從條件圖片獲取相關的淺層特徵來完善圖片細節信息。具體的網絡結構和技術細節參見原論文。

實驗

研究者在五個數據集(Omniglot、EMNIST、VGGFace、Flowers、Animals Faces)上做實驗,包括字符數據集和真實圖片數據集,並和之前的少樣本圖像生成方法做比較。

下圖匯總了 F2GAN 方法和之前方法在五個數據集上的生成結果。左邊三列是作為輸入的三張條件圖片,右邊是各個方法基於三張條件圖片的生成結果。從下圖中可以觀察得到,不管是字符數據集還是真實圖片數據集,基於三張條件圖片,F2GAN 方法都能生成合理且多樣的同類別圖片。

這是因為該研究按照一定比例融合了多張條件圖片。為了驗證按比例融合的平滑性,研究者基於兩張條件圖片,用漸變的融合比例,得到基於 x1 和 x2 按不同比例融合的結果,如下圖所示。上面一行是 MatchingGAN 的對比結果,下面一行是 F2GAN 方法的結果,從中可以看出基於 F2GAN 方法生成的圖片過渡更加平滑自然。

該研究還對基於全局注意力機制的融合模塊(non-local attentional fusion module)進行可視化分析,如下圖所示:

左邊一列圖片是基於右邊三列條件圖片生成的結果。這項研究針對生成圖片的某一空間位置(比如紅色小方塊),獲取它從條件圖片借取信息的空間位置(比如紅色箭頭覆蓋的高亮區域)。用下面一行的圖片舉例,狗的額頭是從 x1 借信息,臉頰是從 x2 借信息,舌頭是從 x3 借信息,融合得到左邊第一列的圖片。

討論

這篇論文還討論了少樣本圖像生成和少樣本圖像翻譯(few-shot image translation)的區別和聯繫。

少樣本圖像翻譯對圖片進行跨類別遷移,藉助已知類別的大量圖片,給定某個未知類別的少量圖片,即可把已知類別的大量圖片遷移到該未知類別。但是這種做法在測試生成階段需要藉助大量已知類別圖片,做法不是很簡潔,並且生成圖片在類別相關特徵的多樣性方面不足。而且,如果解耦效果不夠理想,生成圖片可能會帶有已知類別的類別相關特徵。

相比較而言,少樣本圖像生成在測試生成階段不需要藉助已知類別圖片。另外,生成圖片在類別相關特徵的多樣性方面較好,且不會引入其他類別的類別相關信息。

少樣本圖像生成是非常有挑戰性的任務,但受到的關注不是很多。目前,基於優化的方法在真實圖片上生成的效果欠佳,尚未發揮出其優勢。基於變換的方法生成的圖片多樣性不足,但是提升空間很大。基於融合的方法生成的圖片通常和某一張條件圖片比較接近,缺乏幾何形變。

近年來,少樣本生成方法在簡單的真實資料庫(Flowers、Animals Faces、NABirds)上已經取得了很大的進展,但是在複雜的真實資料庫(如 MiniImageNet)上依然無法生成真實的圖片。歡迎大家關注少樣本生成任務。

參考文獻

[1] Louis Clouatre and Marc Demers. 2019. FIGR: Few-shot image generation with reptile. arXiv preprint arXiv:1901.02199 (2019).

[2] Weixin Liang, Zixuan Liu, and Can Liu. 2020. DAWSON: A domain adaptive few shot generation framework. arXiv preprint arXiv:2001.00576 (2020).

[3] Antreas Antoniou, Amos Storkey, and Harrison Edwards. 2017. Data augmentation generative adversarial networks. arXiv preprint arXiv:1711.04340 (2017).

[4] Sergey Bartunov and Dmitry Vetrov. 2018. Few-shot generative modelling with generative matching networks. In AISTATS.

[5] Yan Hong, Li Niu, Jianfu Zhang, and Liqing Zhang. 2020. MatchingGAN: Matching-based few-shot image generation. In ICME.

[6] Yan Hong, Li Niu, Jianfu Zhang, Weijie Zhao, Chen Fu, Liqing Zhang. 2020. F2GAN: Fusing-and-Filling GAN for Few-shot Image Generation. In ACM MM.

相關焦點

  • 生成式對抗網絡GAN的高級議題
    最近引入了生成對抗網作為訓練生成模型的新方法,即創建能夠生成數據的模型。它們由兩個"對抗"模式:生成模型G獲得數據和判別模型D來估計訓練數據提供的樣本的準確性。G和D可能是一個非線性映射函數,如多層感知。在生成對抗網絡(GAN)中,我們有兩個神經網絡在零和遊戲中相互對抗,其中第一個網絡,即生成器,其任務是欺騙第二個網絡,即鑑別器。
  • 萬字綜述之生成對抗網絡(GAN)
    利用判別器進行半監督學習 基於 GAN 的半監督學習方法 [12] 提出了一種利用無標籤數據的方法。醫學圖像分割[16] 提出了一種 segmentor-critic 結構用於分割醫學圖像。segmentor 類似於 GAN 中的生成器用於生成分割圖像,critic 則最大化生成的分割圖像和 ground truth 之間的距離。
  • GAN(生成對抗網絡)萬字長文綜述
    因此有學者提出,將隱變量分解為一個條件變量 c 和標準輸入隱變量 z 。具體包括有監督的方法和無監督的方法。 有監督方法 典型的有監督方法有 CGAN 和 ACGAN。 圖像聯合分布學習 大部分 GAN 都是學習單一域的數據分布,CoupledGAN 則提出一種部分權重共享的網絡,使用無監督方法來學習多個域圖像的聯合分布。具體結構如下 [11]:
  • 超全的GAN PyTorch+Keras實現集合
    在本論文中,作者介紹了一種用於提升 GAN 在圖像合成方面訓練效果的新方法。他們構建了一種採用標籤條件(label conditioning)的 GAN 變體,這種方法可以生成 128×128 解析度的圖像樣本,且能展現出全局一致性。該論文擴展了以前的圖像質量評估工作,以提供兩個新的分析來評估類別條件(class-conditional)圖像合成模型中樣本的辨識度和多樣性。
  • 用GAN來做圖像生成,這是最好的方法
    前言在我們之前的文章中,我們學習了如何構造一個簡單的 GAN 來生成 MNIST 手寫圖片。對於圖像問題,卷積神經網絡相比於簡單地全連接的神經網絡更具優勢,因此,我們這一節我們將繼續深入 GAN,通過融合卷積神經網絡來對我們的 GAN 進行改進,實現一個深度卷積 GAN。如果還沒有親手實踐過 GAN 的小夥伴可以先去學習一下上一篇專欄:生成對抗網絡(GAN)之 MNIST 數據生成。
  • 朱俊彥團隊提出GAN壓縮算法:計算量減少20倍,GPU、CPU統統能加速
    為了解決這個問題,作者提出了針對有效生成模型量身定製的訓練方案,並通過神經架構搜索(NAS)進一步提高壓縮率。卷積分解和層敏感性近來高效的CNN設計,廣泛採用了卷積分解的方法,證明了在性能與計算之間的權衡取捨。作者發現使用分解的卷積,也有利於cGAN中的生成器設計。然而實驗表明,將分解直接應用於所有卷積層,將大大降低圖像質量。
  • 風格遷移新方法:微軟與上海交大提出深度圖像類比技術
    最近這一領域的研究集中於深度卷積神經網絡,除康奈爾大學和Adobe 的真實照片風格轉換以外,UC Berkeley 推出的手繪紋理生成模型也引起了很多人的關注。它們隨著社交媒體的發展而變得廣為人們所知——因為圖片分享是互動的重要組成部分。Prisma 和 Facetune 等應用就成功利用了這種吸引力。來自微軟和上海交大的廖菁等人最近推出了又一種圖像風格轉換方法。
  • 萬字長文解讀GAN:從基本概念、原理到實際應用
    ,CoupledGAN 則提出一種部分權重共享的網絡,使用無監督方法來學習多個域圖像的聯合分布。3.3.1 利用判別器進行半監督學習基於 GAN 的半監督學習方法 [12] 提出了一種利用無標籤數據的方法。
  • 使用Wasserstein GAN生成小狗圖像
    最初我參照JensLee大神的講解,使用keras構造了一個DCGAN(深度卷積生成對抗網絡)模型,來對數據集中的256張小狗圖像進行學習,都是一些類似這樣的狗狗照片:他的方法是通過隨機生成的維度為1000的向量,生成大小為64*64的狗狗圖。
  • 在圖像生成領域裡,GAN這一大家族是如何生根發芽的
    為此,通過 SOTA 項目理解 GAN 的發展全景,也不失為一個好方法。圖像生成 SOTA 排名:https://www.jiqizhixin.com/sota/tech-task/3070d792-9832-48aa-bb1c-3b899fc3c100因為圖像生成領域的 SOTA 排名涉及非常多的數據集與度量方法,我們並不能直觀展示不同 GAN 的發展路線。
  • TP-GAN 讓圖像生成再獲突破,根據單一側臉生成正面逼真人臉
    研究人員提出了一個像人類一樣能夠考慮整體和局部信息的 GAN 結構,合成的圖像非常逼真且很好地保留了身份特徵,並且可以處理大量不同姿勢的照片。研究人員指出,這些合成的圖像有可能用於人臉分析的任務。第二類方法,早期的嘗試是先將二維圖像與通用或有確切身份的3D模型對齊,然後利用三維幾何變換渲染正面人臉視圖。但是,這種方法遇到大量不同姿勢的圖像時,紋理損失嚴重,性能也不好。近來,有研究者提出了由數據驅動的深度學習方法,讓系統在學習估計正面視圖的同時,分辨身份和姿勢表徵。
  • 只需130 行代碼,用 GAN 生成二維樣本的小例子
    這是一份用一維均勻樣本作為特徵空間(latent space)樣本,經過生成網絡變換後,生成高斯分布樣本的代碼。結構非常清晰,卻有一個奇怪的問題,就是判別器(Discriminator)的輸入不是2維樣本,而是把整個mini-batch整體作為一個維度是batch size(代碼中batch size等於cardinality)那麼大的樣本。
  • GAN生成的結果多樣性不足怎麼辦?那就再添一個鑑別器!
    這種方法最為著名的先驅應用是生成對抗網絡(GAN),它是一種表達生成模型,具備生成自然場景的尖銳和真實圖像的能力。與大多數生成模型不同的是,GAN使用了一種激進的方法,模擬了遊戲中兩個玩家對抗的方法:一個生成器G通過從噪聲空間映射輸入空間來生成數據;鑑別器D則表現得像一個分類器,區分真實的樣本和生成器生成的偽圖像。
  • 今日Paper|小樣本學習;機器學習;單幅圖像去霧;零樣本目標檢測等
    目錄提高小樣本學習對全新分類的識別能力 機器學習的「學習如何遺忘」複雜城市背後簡單的空間尺度規則FD-GAN:具有融合鑑別器的生成對抗網絡用於單幅圖像去霧雖然這些方法已經展示出了可喜的效果,但由於不同類別的特徵分布有很大的差異,所以這樣的方法並不能很好地分辨來自新的分類(與給定的樣本不同的分類)的樣本。在這篇論文中,作者們在基於指標的方法基礎上又加入了領域遷移的思路,他們用特徵級別的變換層+仿形變換來增強圖像特徵,作用是在訓練過程中模擬不同領域的不同特徵分布。
  • OEE封面 |【上海交大施聖賢團隊】多尺度特徵的光場圖像超解析度方法
    這種設計使得光場相機能夠同時捕獲空間中光線的位置和角度信息,因此,光場相機可利用記錄的4D光場信息對光場進行渲染從而實現先成像後聚焦的能力。微透鏡陣列的存在使得光場相機能夠記錄視差,這為3D 測量和3D 重建應用提供了新的可能性。作為新一代成像設備,光場相機已逐漸被廣泛應用於工程測試領域,如粒子圖像測速技術、火焰三維溫度場測量以及物體三維形貌測量等。
  • 看GAN如何一步步控制圖像生成風格?詳解StyleGAN進化過程
    但是 StyleGAN 為每個特徵圖分別學習一個單獨的縮放因子,並將該因子與噪聲矩陣相乘,之後再添加至前一層的輸出。噪聲創建了渲染變體,與不包含噪聲或噪聲僅應用於特定解析度的情況相比,其優勢如下圖所示。StyleGAN 論文還表示其緩解了其它 GAN 方法中常出現的重複模式問題。總之,當風格被全局應用於特徵圖時,它覆蓋圖像的關鍵屬性。
  • CVPR 2019提前看:少樣本學習專題
    ,並且使用集合中並、補、交的數學概念來操作圖像標籤,進行樣本增廣,反過來又輔助了少樣本學習情況下樣本缺乏的問題,提出的網絡架構也非常直觀易懂,雖然目前看來分類效果還有待提升,同時網絡的訓練目前也還是分批來進行,擴展的實驗也沒有那麼豐富,但是它提出的新穎角度和方法,也仍然是值得關注的,相信之後也會有更多的思考和新的工作會更新,根據原文,LaSO 的代碼也即將在近期公布供讀者參考驗證。
  • GAN快速入門資料推薦:17種變體的Keras開原始碼,附相關論文
    在這類GAN變體中,生成器生成的每張圖像,都帶有一個類別標籤,鑑別器也會同時針對來源和類別標籤給出兩個概率分布。論文中描述的模型,可以生成符合1000個ImageNet類別的128×128圖像。在論文中,研究人員給出了用MNIST和多倫多人臉數據集 (TFD)訓練的模型所生成的樣本。
  • 暴力解剖GAN!MIT、港中文團隊GANpaint,一筆成畫不是夢
    新智元報導 來源:MIT編輯:元子【新智元導讀】MIT開發的GANpaint工具可以輕鬆修圖,允許用戶上傳任何照片進行編輯,而不會破壞其原始細節。除了幫助藝術家和設計師快速調整視覺效果外,研究人員表示,這項工作可能有助於計算機科學家識別「虛假」圖像。
  • 圖像合成神器MSG-GAN入選CVPR2020,超越最先進GAN
    本文提出了多尺度梯度生成對抗網絡(MSG-GAN),這是一種簡單而有效的技術,通過允許梯度流從鑑別器到發生器在多個尺度上流動來解決這個問題。該技術為高解析度圖像合成提供了一種穩定的方法,並作為常用的漸進生長技術的替代。結果表明,MSG-GAN在不同大小、解析度和域的多種圖像數據集上,以及不同類型的丟失函數和結構上都穩定收斂,且具有相同的固定超參數集。