實習期完成,無圖像對和域標籤,博士小哥實現完全無監督的圖像轉換

2020-06-28 機器之心Pro

選自arXiv

作者:Kyungjune Baek等

機器之心編譯

參與:小舟、杜偉

圖像到圖像轉換是一項非常重要的研究課題,也出現了很多圖像轉換方法,但是相關圖像到圖像轉換模型都脫離不了監督訓練。因而,越來越多的研究人員開始探索無監督設置下的圖像到圖像轉換方法。2019 年 5 月,英偉達的一項研究探索 few-shot 無監督的圖像到圖像轉換算法,並實現了逼真的轉換效果。近日,韓國延世大學等機構的研究者實現了完全無監督設置下的圖像到圖像轉換。

我們都知道,最近出現的各種圖像到圖像轉換模型都至少使用圖像級(即輸入 - 輸出對)或集合級(即域標籤)監督中的一種。但實際上,即使是集合級的監督也可能成為數據收集過程中嚴重的瓶頸。

因此,在本篇論文中,來自韓國延世大學、Naver 株式會社 Clova AI Research 和瑞士洛桑聯邦理工學院的研究者在完全無監督設置下完成圖像到圖像的轉換,即既沒有圖像對也沒有域標籤。值得關注的是,本文是一作 Kyungjune Baek 在 Clova AI Research 實習期間完成的。

實習期完成,無圖像對和域標籤,博士小哥實現完全無監督的圖像轉換

論文連結:https://arxiv.org/pdf/2006.06500.pdf

代碼地址:https://github.com/clovaai/tunit

那麼研究者是如何實現無監督的圖像到圖像轉換呢?

他們提出了一種真正的無監督圖像到圖像轉換方法(truly unsupervised image-to-image translation method, TUNIT),在該方法中,通過資訊理論(information-theoretic)方法學習分離圖像域以及使用預估域標籤生成相應的圖像,二者同時進行。

在各種數據集上的實驗結果表明,該方法能夠成功分離域,並且在這些域之間實現圖像轉換。此外,在提供域標籤子集的半監督設置下,該模型的性能優於現有的集合級監督方法

論文詳解請戳:

00:00/00:00倍速

如何實現的

首先,研究者闡明,本文中的無監督圖像到圖像轉換屬於無任何監督的任務,也就是沒有圖像級和集合級監督。其中有來自 K 個域(K≥2)的圖像 X,沒有標籤 y,K 是數據集的一個未知屬性。

實習期完成,無圖像對和域標籤,博士小哥實現完全無監督的圖像轉換

圖 2:三種監督級別,以往的圖像到圖像轉換方法通常依賴 (a) 圖像級和 (b) 集合級監督,而本研究提出的方法在執行圖像到圖像轉換任務時使用的是 (c) 無任何監督的數據集。

接著,研究者提出了一個名為引導網絡(guiding network)的模型,它集成了域分類器和風格編碼器。通過將風格代碼饋入到生成器以及將偽域標籤饋入到鑑別器,該模型指導轉換過程。

最後,通過使用來自鑑別器的反饋,生成器合成目標域(例如品種)的圖像,同時尊重參考圖像的風格(例如毛髮圖案),保持源圖像的內容(例如姿勢),具體架構如下圖 3 所示。

實習期完成,無圖像對和域標籤,博士小哥實現完全無監督的圖像轉換

圖 3:該研究所提方法的概覽。

學習生成域標籤,編碼風格特徵

在該研究的框架中,引導網絡 E 同時發揮著無監督域分類器和風格編碼器的作用。引導網絡 E 由 Eclass 和 Estyle 兩部分組成,它們分別學習提供域標籤和風格代碼。

帶有域指導的圖像到圖像轉換

對於成功的圖像轉換,轉換模型應該提供包含目標域視覺特徵的逼真圖像。為此,研究者採用了 3 種損失:1)生成逼真圖像的對抗損失;2)鼓勵模型不要忽略風格代碼的風格對比損失;3)保留域不變(domain-invariant)特徵的圖像重建損失。

最後共同訓練鑑別器、生成器和引導網絡,具體公式如下所示:

實習期完成,無圖像對和域標籤,博士小哥實現完全無監督的圖像轉換

效果怎麼樣

所提策略的效果

對於這種可以同時執行表示學習和訓練轉換網絡的訓練策略,研究者進行了深入探究。儘管可以輕鬆想到分別訓練引導網絡和生成對抗網絡(GAN),但研究者證實了這會大大降低整體性能。

為了分析不同訓練策略的效果,研究者在訓練迭代的過程中繪製了逐級 FID,並提供了 tSNE 可視化圖,如下圖 4 所示:

實習期完成,無圖像對和域標籤,博士小哥實現完全無監督的圖像轉換

圖 4:單獨訓練與聯合訓練的比較。

從 FID 的比較來看,相較於聯合訓練策略,單獨訓練策略得到的平均 FID 分值要高得多,標準差也更高。這清楚地表明,聯合訓練在圖像質量和性能穩定兩方面更加高效。

不帶任何標籤的圖像到圖像轉換

為了證實該方法能夠處理無監督情況下的圖像到圖像的轉換,研究者分別在 AFHQ、FFHQgaimoxi 和 LSUN Car 數據集上對模型進行了評估。

實習期完成,無圖像對和域標籤,博士小哥實現完全無監督的圖像轉換

圖 6:在 AFHQ wild 上訓練引導網絡時,它的風格空間的 t-SNE 可視化圖。

實習期完成,無圖像對和域標籤,博士小哥實現完全無監督的圖像轉換

圖 7:無監督情況下,在 AFHQ 上的圖像到圖像轉換結果。

實習期完成,無圖像對和域標籤,博士小哥實現完全無監督的圖像轉換

圖 8:無監督情況下,在 FFHQ 和 LSUN Car 上的圖像到圖像轉換結果。

帶有少量標籤的圖像到圖像轉換

研究者將該模型與在半監督學習設置下兩個方案訓練的 SOTA 模型做了比較,他們將數據集 D 劃分為標註集 Dsup 和未標註集 Dun,變化比率 γ = |Dsup|/|D|。

第一個方案是只用 D_sup 訓練模型;第二個方案是為了解決訓練轉換模型時可用樣本數量不公平的問題。

Naïve 方案

下圖 10(a)和(b)展示了在 Summer2winter 和 AnimalFaces-10 上使用逐級 FID 的定量結果。

實習期完成,無圖像對和域標籤,博士小哥實現完全無監督的圖像轉換

圖 10:naïve 方案中,不同比例的標註圖像的 FID 曲線變化圖。

下圖 9 展示了該研究的結果與使用 naïve 方案訓練的基線方法的定性結果比較。

實習期完成,無圖像對和域標籤,博士小哥實現完全無監督的圖像轉換

圖 9:不同比例的標註圖像的定性結果比較。

替代方案

用 naïve 方案訓練的基線方法不能完全利用訓練樣本,因為它根本不考慮 D_un。因此,為了更好地利用全部訓練樣本,研究者使用 D_sup 從頭開始訓練輔助分類器,以生成 D_un 的偽標籤。

實習期完成,無圖像對和域標籤,博士小哥實現完全無監督的圖像轉換

圖 11:替代方案下 Summer2winter 上的 FID 曲線變化圖。

下圖 12 展示了 AnimalFaces-10 上的分類準確度和 FID 分數。

實習期完成,無圖像對和域標籤,博士小哥實現完全無監督的圖像轉換

圖 12:(a)替代方案下 AnimalFaces-10 上的 FID 曲線變化圖;(b)AnimalFaces-10 上的分類準確度曲線。

輔助分類器的準確性隨著訓練樣本(帶標籤)的數量的增加而提高。更高的分類精度自然可以提高轉換質量。儘管 FUNIT 的 8% 的情況和 1% 的情況下的分類精度相似(約為 86%),但轉換性能顯示出了明顯的差距(FUNIT 是 59.6,該研究的模型是 47.9)。這意味著準確性不是唯一的評判轉換性能的因素。基於廣泛的比較與評估,研究者表明提出的模型對半監督方案是有效的,並且相比於基線有顯著的改善。

相關焦點

  • GANs中的明星StarGAN:使用單一模型執行多個域的圖像轉換
    第一列和第六列顯示輸入圖像,而其餘的列是由StarGAN生成的圖像。 (值得注意的是,圖像由一個單一的生成器網絡產生,如憤怒、快樂和恐懼等面部表情標籤來自RaFD,而不是CelebA。)圖像到圖像轉換的任務是將給定圖像的某個特定屬性改變為另一種屬性,例如將人的面部表情從微笑改變為皺眉(見上圖)。
  • Double DIP——一種無監督層圖像分割 AI 技術
    今年三月份,他們選擇了由 Yossi Gandelsman,Assaf Shocher 和 Michal Irani 三位學者(下文中所提到的作者,均指以上三位學者)共同完成的關於 Double-DIP 模型的論文,其中詳細介紹了基於耦合的深度圖像先驗網絡對單個圖像進行無監督層分割這一技術。概況許多看似無關的計算機視覺任務可以被視為圖像分割為不同的層的特殊情況。
  • Double DIP ——一種無監督層圖像分割 AI 技術
    今年三月份,他們選擇了由 Yossi Gandelsman,Assaf Shocher 和 Michal Irani 三位學者(下文中所提到的作者,均指以上三位學者)共同完成的關於 Double-DIP 模型的論文,其中詳細介紹了基於耦合的深度圖像先驗網絡對單個圖像進行無監督層分割這一技術。
  • 無需成對示例、無監督訓練,CycleGAN生成圖像簡直不要太簡單
    訓練圖像到圖像的轉換模型通常需要一個大的成對數據集。這些數據集準備起來既困難又昂貴,而且在某些情況下是不可行的,比如已故許久的藝術家的畫作照片。  CycleGAN 是一種無需成對示例便可自動進行圖像到圖像轉換的技術。這些模型是採用一批無需關聯的來自源域和目標域的圖像,以一種無監督的方式訓練的。
  • 今日Paper|3D門控遞歸融合;雙注意力GAN;通用目標檢測器;無監督域...
    目錄用於語義場景完成的3D門控遞歸融合用於大姿態人臉正面化的雙注意力GANUniversal-RCNN:基於可轉移圖R-CNN的通用目標檢測器用於圖像深度估計的無監督域自適應嵌套命名實體識別的神經分層模型用於語義場景完成的3D門控遞歸融合論文名稱:3D Gated Recurrent
  • 港中文MMLab自步對比學習:充分挖掘無監督學習樣本
    領域自適應的目標重識別 (Domain Adaptive Object Re-ID)旨在通過源域有標註的數據和目標域無標註的數據進行訓練,從而在目標域上取得較好的性能。這裡區分一下一般分類任務上的領域自適應,分類任務上的兩個領域的類別往往有部分或者全部的重疊,而重識別任務上的兩個領域,大家一般認為類別完全沒有重複。
  • 你想要的多目標域多風格圖像變換它都有
    模型整體在 StarGAN [1] 的基礎上解決了圖像翻譯任務中源域的圖像轉換為目標域的多種圖像,並支持多個目標域的問題,實現了較好的源域圖像到目標域圖像的轉換,值得一說的是文章還公布了一個動物面部圖像數據集,即將發布於作者的 Github 下。
  • 計算機視覺(圖像)技術:視覺圖像搜索綜述
    識別有時也是要通過搜索來完成的,例如如果你類別非常多的時候往往要通過搜索的方法來實現而不是通過模型的方法來做識別。所以搜索和識別在大數據時代的界限變得越來越模糊了它們之間互相需要互相利用。六、為什麼使用OpenCV+Python實現圖像搜尋引擎呢?
  • 自動計數:利用田間圖像對植物器官進行無監督分割和計數
    利用田間圖像對植物器官進行計數,如頭狀花序或穗,是植物表型研究中一個基準計算機視覺任務,此前文獻中已使用最先進的監督深度學習技術進行了研究。然而,在田間圖像中,器官的標註耗時較長,容易出錯。分割步驟之前(紅色)和之後(藍色)的單個示例圖像的對象大小分布本文提出了一種對植物器官等密集物體進行計數的無監督計數法。
  • 英偉達開源Imaginaire:九大圖像及視頻合成方法,你學fei了嗎?
    項目地址:https://github.com/NVlabs/imaginaire這九種方法分別為:有監督的圖像到圖像轉換1、pix2pixHD2、SPADE/GauGAN無監督的圖像到圖像轉換1、UNIT
  • 【明星自動大變臉】最新StarGAN對抗生成網絡實現多領域圖像變換(附代碼)
    其模型不是學習固定的圖像轉化(例如,從黑髮到金髮),而是輸入圖像和域信息,學習如何靈活地將輸入圖像轉換到相應的域中。文章中使用一個標籤(二進位或one hot向量)代表域信息。在訓練過程中,隨機生成目標域標籤並訓練模型,以便靈活地將輸入圖像轉換到目標域。通過這樣做,可以控制域標籤並在測試階段將圖像轉換成任何所需的域。
  • 【明星自動大變臉,嬉笑怒罵加變性】最新StarGAN對抗生成網絡實現多領域圖像變換(附代碼)
    其模型不是學習固定的圖像轉化(例如,從黑髮到金髮),而是輸入圖像和域信息,學習如何靈活地將輸入圖像轉換到相應的域中。文章中使用一個標籤(二進位或one hot向量)代表域信息。在訓練過程中,隨機生成目標域標籤並訓練模型,以便靈活地將輸入圖像轉換到目標域。通過這樣做,可以控制域標籤並在測試階段將圖像轉換成任何所需的域。
  • 40納秒完成圖像分類,圖像傳感器自帶神經網絡登上Nature
    過去,我們做圖像分類都是分成好幾步:先用傳感器收集圖像模擬信號,數模轉換後再交給計算機處理。整個過程既耗能又費時,就像眼睛把圖像傳給大腦。試想一下,如果人類眼睛可以直接處理圖像——不用勞煩大腦,那視覺圖像信息的處理速度豈不是可以大大提升?
  • DeepMind爆出無監督表示學習模型BigBiGAN,GAN之父點讚!
    新智元報導 來源:DeepMind編輯:小芹、大明【新智元導讀】今天,DeepMind爆出一篇重磅論文,引發學術圈熱烈反響:基於最強圖像生成器BigGAN,打造了BigBiGAN,在無監督表示學習和圖像生成方面均實現了最先進的性能!Ian Goodfellow也稱讚「太酷了!」
  • 多任務實現SOTA,UBC、谷歌等提出3D點雲的無監督膠囊網絡
    機器之心報導作者:杜偉、小舟這是一種為 3D 點雲提出的無監督膠囊架構,並且在 3D 點雲重構、配準和無監督分類方面優於 SOTA 方法。理解對象是計算機視覺的核心問題之一。傳統方法而言,理解對象任務可以依賴於大型帶注釋的數據集,而無監督方法已經消除了對標籤的需求。
  • 多任務實現SOTA,UBC谷歌等提出3D點雲的無監督膠囊網絡
    這是一種為 3D 點雲提出的無監督膠囊架構,並且在 3D 點雲重構、配準和無監督分類方面優於 SOTA 方法。理解對象是計算機視覺的核心問題之一。傳統方法而言,理解對象任務可以依賴於大型帶注釋的數據集,而無監督方法已經消除了對標籤的需求。
  • CVPR 2019 Oral 論文解讀 | 無監督域適應語義分割
    該論文提出了一種從「虛擬域」泛化到「現實域」的無監督語義分割算法,旨在利用易獲取的虛擬場景標註數據來完成對標註成本高昂的現實場景數據的語義分割,大大減少了人工標註成本。 本文是論文作者之一羅亞威為雷鋒網 AI 科技評論提供的論文解讀。
  • 73歲Hinton老爺子構思下一代神經網絡:屬於無監督對比學習
    Hinton 的報告主要內容如下:人工神經網絡最重要的待解難題是:如何像大腦一樣高效執行無監督學習。目前,無監督學習主要有兩類方法。第一類的典型代表是 BERT 和變分自編碼器(VAE),它們使用深度神經網絡重建輸入。但這類方法無法很好地處理圖像問題,因為網絡最深層需要編碼圖像的細節。
  • [CVPR 2020] StarGAN v2: 多域風格圖像合成,效果驚人,史上最強!
    生成器將域標籤作為附加的輸入,學習圖像到對應域的轉換。然而,StarGAN仍然學習每個域的確定性映射,該映射沒有捕獲數據分布的多模式本質。StarGAN v2: a scalable approach that can generate diverse images across multiple domains.
  • STARGAN-多領域圖像
    Pix2Pix模型解決了有Pair對數據的圖像翻譯問題;CycleGAN解決了Unpaired數據下的圖像翻譯問題。但無論是Pix2Pix還是CycleGAN,都是解決了一對一的問題,即一個領域到另一個領域的轉換。當有很多領域要轉換了,對於每一個領域轉換,都需要重新訓練一個模型去解決。這樣的行為太低效了。本文所介紹的StarGAN就是將多領域轉換用統一框架實現的算法。