ICLR 2021 | Group-Supervised Learning: 通過可控的解耦表徵學習模擬人腦想像力

2021-12-24 將門創投

收錄於話題 #ICLR2021 5個

本文主要介紹被 ICLR 2021 會議錄用的一篇文章:Zero-shot Synthesis with Group-Supervised Learning。這項工作受啟發於人腦的想像能力,比如人看到一輛紅色的轎車&一輛藍色的卡車,可以立即想像出一輛藍色的轎車(即使沒有見過)。作者提出了一種區分於現有learning paradigm新的訓練範式:組監督學習(Group-Supervised Learning),通過可控的解耦表徵學習(controllable disentangled representation learning)模擬人腦對知識的因式分解和自由組合,從而實現模擬人腦的想像能力

Group-Supervised Learning 可以通過非常簡單的自編碼器(Autoencoder)來實現,訓練過程只需要 reconstruction loss,簡單易收斂,可以實現高質量的 zero-shot synthesis

https://openreview.net/pdf?id=8wqCDnBmnrT

項目主頁:

http://sami.haija.org/iclr21gsl/index.html

代碼:

https://github.com/gyhandy/Group-Supervised-Learninghttps://www.bilibili.com/video/BV1WK411c7uV/(B站)https://youtu.be/_Mdf6rmmwR4(Youtube)一張圖概括我們做的事情:Group-Supervised Learning 可以將輸入圖片(bottom images)進行可控的解耦(controllable disentanglement)並表示為可以自由組合的不同屬性(比如車的種類,姿態,背景;人的樣貌,姿勢,表情),然後通過屬性的自由組合生成新的圖片。

圖1 Group-Supervised Learning 零鏡頭生成(zero-shot synthesis)效果

下面將詳細介紹工作的具體內容。

一、Motivation 

靈長類動物(人類)往往在泛化的任務(generalization task)上表現很好,當看到一個物體,他們可以立即想像出同一個物體在不同屬性時的樣子,比如不同的 3D pose[1],即使他們從未見過。我們的目標是賦予AI智能體(machines)相似的能力:zero-shot synthesis。我們認為,人類有一個非常重要的能力來幫助想像,那就是將所學的知識進行因式分解並重新組合。比如圖2中,我們可以把見過物體的顏色和輪廓進行分解(藍莓和跑車),然後通過重新組合想像出未見過的物體(藍色的跑車)。對於AI智能體,我們可以用神經網絡模擬知識的因式分解過程嗎?我們給出的答案是可以利用可控的解耦表徵學習(controllable disentangled representation learning)。我們提出的新的學習框架:組監督學習(Group-Supervised Learning)可以幫助這個過程的實現。

提到解耦表徵學習(disentangled representation learning),大家首先想到的應該是變分自編碼器(VAE),VAEs 可以用無監督學習(unsupervised learning)的方式通過添加KL divergence loss 對隱空間的分布進行約束,間接地實現隱空間的解耦表徵。然而,在沒有數據標籤的無監督情況下,VAE很難控制解耦的過程和結果(比如隱空間是如何劃分的,用隱空間中的哪幾維存儲哪個特定的屬性信息)。有監督的學習方法中算法可以獲取圖片的屬性標籤,大多數採用基於GAN的生成方法,比如StarGAN[2] 和 ELEGANT[3],他們可以實現屬性可控的圖像生成,但生成多是局部屬性或texture的改變,訓練過程和實現較為複雜且不易穩定。為了解決上述問題,我們提出了一種新的學習範式:組監督學習,實現全局多屬性可控的圖像生成,而且保持全局語義信息的一致(比如轉動汽車姿態時作為背景的公路方向會跟著一起轉動)。組監督學習的實現可以採用簡單的自編碼器,而且整個訓練只需要reconstruction loss,穩定且收斂快。

二、Problem Statement and Approach

要實現屬性可控的解耦,關鍵在於如何達到可控,也就是我們要精確控制每個屬性信息的流動過程。利用數據的屬性標籤進行監督是必要的,但監督過程是仁者見仁的:是將數據集中的每個樣本單獨使用?還是將每個樣本的屬性以及屬性關係進行有機的表示?我們選擇了後者,所謂組監督學習,字面理解就是每次輸入的是一組樣本,一組內部關係得到有機表示的樣本,通過在隱空間中的屬性信息交換(swap)和組合(recombination),挖掘樣本之間的相似性(similarity mining)作為監督信息,達到可控的解耦表徵。

圖4 組監督學習將數據集表示為Multi-Graph

如圖4所示,給定一個數據集以及每個樣本的屬性標籤(以Fonts dataset [4] 為例,每張字母圖片都有五個屬性:字母,大小,字母顏色,背景顏色,字體),我們將其表示為Multi-Graph,Graph中的點表示數據集中的不同樣本,邊表示樣本之間共享的屬性標籤(比如兩個樣本具有相同的字母顏色,就會有一條Font color的邊連接兩個樣本),我們稱之為Multi-Graph的原因是點之間共享的屬性標籤可能有多個,所以區別於傳統graph(兩點之間只有一條邊),Multi-Graph的兩點之間可以有多條邊,且邊的數目是由兩點之間共享屬性的數目決定的。將數據集表示為Multi-Graph的原因是希望能更好的挖掘數據之間屬性的異同,從而更好的指導屬性可控的解耦表徵學習

接下來我們提供了組監督學習基於自編碼器的一種實現 Group-Supervised Zero-shot synthesis Network (GZS-Net),以ilab-20M[5] dataset為例詳細介紹實現可控解耦的訓練過程。

GZS-Net 的網絡結構是一個簡單的自編碼器:包括一個編碼器(encoder E)和一個解碼器(decoder D)。輸入是一個multi-graph,損失函數由三部分組成,均為reconstruction loss(pixels wise L2 / L1 loss):self reconstruction Loss,swap reconstruction 和 cycle swap reconstruction loss,三個損失項分別對應三個訓練步驟:

Step 1 Self reconstruction

如圖5,一組圖片以Multi-Graph的形式作為輸入:其中紅框中的圖片為x,藍色框中的圖片與x僅有一組屬性值相同並由藍色的邊所表示,黑色框中的圖片x-bar與x沒有任何相同屬性值。首先將每張圖片輸入到 E 和 D中按照自編碼器的訓練方式用reconstruction loss 訓練 GZS-Net。這個步驟可以看作是一個正則項,保證輸入的圖片所有的信息都可以被 E 編碼到 latent vector中,避免信息丟失。

圖5 Self reconstruction 步驟

接下來,為了實現可控的解耦,我們先在latent vector中預定義每個屬性的編碼位置:紅色編碼(儲存)identity 信息,黃色編碼姿態信息,綠色編碼背景信息。然後通過接下來 Step 2 和 Step 3 的基於multi-graph的屬性交換與約束實現預定義的可控解耦。

Step 2 One Overlap Attribute Swap

如圖6(a),從multi-graph中取一條屬性值為id的邊,將邊連接的兩個id屬性相同的圖片分別通過 E 得到 他們的latent vector,然後我們將他們相同的屬性(id)預劃分的區域(紅色)進行交換,得到兩個新的latent vector,並將他們分別通過 D 生成兩張新的圖片。因為我們希望紅色部分編碼id的信息而兩張圖又具有相同的id,所以交換id部分過後生成的圖片應該與原圖相同,所以我們用reconstruction loss進行約束。相似的,我們接著取屬性為姿態(圖6 b)和背景(圖6 c)的邊,將他們連接的點做同樣的操作:編碼,交換相同屬性值區域,約束生成的圖片與原圖相同。這一過程利用multi-graph圖片之間的關係,使網絡學習如何挖掘圖片之間high-level屬性的相似性,並通過交換實現可控的解耦表徵。Note:在這一步,我們需要swap所有 attribute 對應的 latent 區域,即紅,黃,綠三部分都需要交換,以此來避免網絡將所有信息存儲到不被交換的區域來cheat。

圖6 One Overlap Attribute Swap 步驟

Step 3 Cycle Attribute Swap

最後一步是選取沒有相同屬性值的兩張圖片,通過 E 得到 latent vector 後,我們隨機選取一個屬性進行交換,生成兩張沒有ground truth的圖片;然後我們再將他們通過 E 把剛剛交換過的屬性再交換回來,約束兩次交換後生成的圖片與原始輸入的圖片相同。這一步驟間接的約束了可控的屬性解耦:如果中間步驟生成的圖片質量很差,或者屬性值不是預期的樣子,第二次交換過後生成的圖片會與input圖片有較大差距。

圖7 Cycle Attribute Swap 步驟

最後用一張圖表示整個GZS-Net的訓練過程。可以看到整個訓練我們只用了reconstruction loss,框架是基礎的 Autoencoder,容易實現,訓練穩定且收斂快。

圖8 Group-Supervised Learning 的一種實現方法:GZS-Net 的訓練過程

下圖是算法的偽代碼。Note:在released code 中我們提供了一種更為簡單的訓練過程:在Step 2 One-Overlap attribute Swap時(1)不需要兩張圖片只有一個attribute 相同,只要需要交換的attribute相同即可,其他attribute不做限制。(2)不需要有一張圖片x出現在所有屬性的交換過程中,不同屬性之間可以選用不同的滿足要求的圖片。詳情請見 code。

圖9 Group-Supervised Learning 訓練偽代碼三、Experiments and Results 定性實驗

下圖展示了在 ilab-20M 數據集上進行零鏡頭生成(zero-shot synthesis)的結果,我們希望解耦 ilab-20M 中的三個屬性:車輛id(identity),姿態和背景。在生成過程中,輸入是每個目標屬性的提供者,我們希望從每個屬性提供者中提取目標屬性值,並將它們重新組合,生成目標圖片。紅色虛線框中展示的是我們的 GZS-Net 的結果,包括消融實驗(ablation study)。可以看到生成的圖像可以滿足query式可控生成的需求,而且生成的場景能夠保證語義的一致(當車輛作為前景進行旋轉時,道路作為背景會跟著進行旋轉)。baseline有兩大類,一類是基於GAN的算法:StarGAN 和 ELEGANT,另一類是 Autoencoder+Direct Supervision(AE+DS)即直接在autoencoder 的隱空間中加入對應屬性分類器當作監督訓練的模型。我們的輸入圖片的格式會根據不同baseline算法的生成步驟需求做出調整。

圖10 Zero-shot synthesis 在ilab-20M數據集的表現

下圖展示了在 Fonts 數據集上進行零鏡頭生成(zero-shot synthesis)的結果,我們希望解耦 Fonts 中的五個屬性:字母,字體(Font Style),背景顏色,字母顏色和字母大小。同樣生成時每一個目標attribute有一個提供者,我們希望從每個屬性提供者中提取目標屬性值,並將它們重新組合,生成目標圖片。紅色虛線框展示的是我們的 GZS-Net 的結果;baseline方法中還包括基於VAE的算法,在β-VAE 和 β-TCVAE的基礎上做 Exhaustive Search(ES)使其適應controllable synthesis task(細節請見paper)。

圖11 Zero-shot synthesis 在Fonts數據集的表現

下圖展示了在 RaFD[6] 數據集上進行零鏡頭生成(zero-shot synthesis)的結果,我們希望解耦 RaFD 中的三個屬性:identity,pose 和 expression。

圖12 Zero-shot synthesis 在RaFD數據集的表現定量實驗

第一個實驗是用解耦屬性之間的互相預測(co-prediction)來定量分析解耦表徵的效果。為了分析解耦效果,我們會問以下問題:我們可以用latent vector中一個屬性編碼的信息來預測該屬性的label嗎?我們可以用它來預測其他屬性的label嗎?在完美解耦表徵的情況下,我們永遠會給第一個問題肯定的回答而給第二個問題否定的回答。如下圖,我們計算了模型關於屬性的confusion matrix:使用每個屬性在latent vector中對應維度的信息預測所有屬性的label。一個完美解耦的模型應該接近Identity 矩陣。我們的模型在對角線有比較高的準確率,在非對角線準確率較低。

圖13 可控的解耦表徵學習效果分析

第二個實驗是在Fonts 數據集(能提供所有可能的屬性組合)中計算生成圖像與 ground truth之間的平均MSE 和 PSNR從而定量地分析生成圖片質量。

圖14 生成圖像效果定量分析

第三個實驗是把 Group-Supervised Learning 用作數據增強方法,看能否將原本unbalance 的數據集增強為balance的數據集,並提升下遊分類模型的準確率。可以看到數據增強效果明顯好於傳統的數據增強算法並提升了分類模型的準確率。

圖15 GZS-Net作為數據增強算法提升分類模型效果四、Fonts:一個新的開源數據集

Fonts是我們開源的一個屬性可控的 RGB 圖像數據集,每張圖片(尺寸為128*128)包括一個用五個獨立屬性渲染生成的字母,五個屬性分別為:字母,大小,字母顏色,背景顏色和字體。下圖展示了一些例子。數據集包含了提出屬性的所有可能的組合,共計1.56 million 張。我們提出Fonts數據集的首要目的是為了給解耦表徵學習和零鏡頭生成的研究者提供一個可以快速驗證和迭代想法的平臺。

除了上述的五個屬性,我們還拓展了Fonts-v2版本,增加了簡單的單詞以及新的屬性:位置,旋轉和紋理,示例請見下圖。

目前Fonts的所有生成代碼已開源,歡迎來我們的網站下載數據集和代碼:

http://ilab.usc.edu/datasets/fonts

五、Conclusion

總結來說,這項工作的要點在於:

1. 提出一種新的學習範式——組監督學習(Group-Supervised Learning)可以模仿人腦的想像力並賦予AI智能體zero-shot synthesis的能力。

2. 組監督學習以一組圖片作為輸入,通過挖掘圖片之間屬性的相關關係實現可控的解耦表徵和自由組合,模擬人類對知識的因式分解和重新組合

3. 作為一種新的學習範式,組監督學習容易實現,訓練穩定可快速收斂,可以幫助不同的下遊任務。定量和定性的分析了在屬性可控生成,解耦表徵學習與數據增強方向的應用。

更多細節請參考原paper,歡迎大家follow我們的工作:)

@inproceedings{ge2021zeroshot,  title={Zero-shot Synthesis with Group-Supervised Learning},  author={Yunhao Ge and Sami Abu-El-Haija and Gan Xin and Laurent Itti},  booktitle={International Conference on Learning Representations},  year={2021},  url={https://openreview.net/forum?id=8wqCDnBmnrT}}

如果有任何問題,歡迎大家留言或者給我發郵件討論,最後附上我的主頁連結:https://gyhandy.github.io/

參考資料:

[1] Logothetis et al., 1995.https://www.sciencedirect.com/science/article/pii/S0960982295001084[2] StarGAN Choi, Yunjey, et al. 2018 https://arxiv.org/pdf/1711.09020.pdf[3] ELEGANT Xiao, T. et al. 2018 https://arxiv.org/pdf/1803.10562.pdfhttp://ilab.usc.edu/datasets/fontshttp://ilab.usc.edu/publications/doc/Borji_etal16cvpr.pdfhttp://www.socsci.ru.nl:8180/RaFD2/RaFD#:~:text=The%20RaFD%20is%20a%20high,surprise%2C%20contempt%2C%20and%20neutral

//

 作者介紹 

葛雲皓,南加州大學計算機學院二年級博士研究生,導師為 Laurent Itti 教授。此前分別於山東大學和上海交通大學獲得本科和碩士學位。研究興趣為機器學習,計算機視覺和通用人工智慧。曾以第一作者在 CVPR,ICLR,ECCV 等會議和期刊發表論文。個人主頁:https://gyhandy.github.io/

Illustrastion by  Aleksandr Smetanov from Icons8

將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務將門技術社群以及將門創投基金。將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我「門」: 

相關焦點

  • 解耦表徵學習綜述
    解耦表徵學習通過探索大數據內部蘊含的物理機制和邏輯關係複雜性, 從數據生成的角度解耦數據內部多層次、多尺度的潛在生成因子, 促使深度網絡模型學會像人類一樣對數據進行自主智能感知, 逐漸成為新一代基於複雜性的可解釋深度學習領域內重要研究方向, 具有重大的理論意義和應用價值.
  • Self-supervised Learning入門
    自監督學習(Self-supervised)的思想,簡單來說,就是在只有一堆無監督的數據時,通過數據本身的結構或者特性,人為構造標籤(pretext
  • 【機器學習基礎】Self-Supervised Learning入門介紹
    什麼是 Self-Supervised Learning首先介紹一下到底什麼是 SSL,我們知道一般機器學習分為監督學習,非監督學習和強化學習。而 self-supervised learning 是無監督學習裡面的一種,主要是希望能夠學習到一種通用的特徵表達用於下遊任務。
  • 【自監督學習】Self-supervised Learning 再次入門
    什麼是自監督學習自監督學習主要是利用輔助任務(pretext)從大規模的無監督數據中挖掘自身的監督信息,通過這種構造的監督信息對網絡進行訓練,從而可以學習到對下遊任務有價值的表徵。所以對於自監督學習來說,存在三個挑戰:對於第三點,評測自監督學習的能力,主要是通過 Pretrain-Fintune 的模式。
  • 一文詳解最近異常火熱的self-supervised learning
    【導讀】最近 self-supervised learning 變得非常火,首先是 kaiming 的 MoCo 引發一波熱議,然後最近 Yann 在 AAAI 上講 self-supervised learning 是未來。
  • Self-Supervised Learning in Computer Vision
    來自 | 知乎作者 | NoahSYZhang地址 | https://zhuanlan.zhihu.com/p/336933815編輯 | 機器學習算法與自然語言處理公眾號本文僅作學術分享,若侵權,請聯繫後臺刪文處理最近在組會討論self-supervised
  • 自監督學習(Self-supervised Learning)
    前段時間在杭州參加華爾茲,和小團體分別兩年後成功再聚首。
  • 長文總結半監督學習(Semi-Supervised Learning)
    在這種情況下,半監督學習(Semi-Supervised Learning)更適用於現實世界中的應用,近來也已成為深度學習領域熱門的新方向,該方法只需要少量有帶標籤的樣本和大量無標籤的樣本,而本文主要介紹半監督學習的三個基本假設和三類方法。
  • DivideMix:Learning with Noisy Labels as Semi-supervised Learning
    論文信息Paper: [ICLR 2020] Dividemix: Learning with noisy labels as semi-supervised
  • 春節充電系列:李宏毅2017機器學習課程學習筆記12之半監督學習(Semi-supervised Learning)
    本文內容涉及機器學習中半監督學習的若干主要問題:semi-supervised learning for generative model, low-density separation assumption, smoothness assumption以及better representation。話不多說,讓我們一起學習這些內容吧 。
  • 擁有解耦表徵無監督學習是不可能的!硬核ICML 2019最佳論文出爐
    值得關注的是,ETH Zurich、谷歌大腦等機構的論文《挑戰無監督學習中解耦表徵的一般假設》提出了一個與此前學界普遍預測相反的看法:對於任意數據,擁有相互獨立表徵(解耦表徵)的無監督學習是不可能的!在大會上,獲獎論文的部分作者也現場進行了演講。
  • 【綜述專欄】Self-supervised Learning
    作為一種替代方法,自監督學習(SSL)近年來因其在表示學習方面的卓越表現而吸引了許多研究者。自監督表示學習利用輸入數據本身作為監督,並且幾乎有利於所有類型的下遊任務。在這個調查中,我們看看新的自我監督學習方法在計算機視覺,自然語言處理,和graph learning。
  • 2021最新對比學習(Contrastive Learning)相關必讀論文整理分享
    自監督學習屬於無監督學習範式的一種,特點是不需要人工標註的類別標籤信息,直接利用數據本身作為監督信息,來學習樣本數據的特徵表達,並用於下遊任務。舉例來說,在自編碼器中對數據樣本編碼成特徵再解碼重構,這裡認為重構的效果比較好則說明模型學到了比較好的特徵表達,而重構的效果通過pixel label的loss來衡量。
  • 再介紹一篇Contrastive Self-supervised Learning綜述論文
    文 | 黃浴@知乎本文已獲作者授權,禁止二次轉載之前已經介紹過三篇自監督學習的綜述:《怎樣緩解災難性遺忘?持續學習最新綜述三篇!》。這是最近2020年10月arXiv上的又一篇論文"A Survey On Contrastive Self-supervised Learning"。
  • 自監督學習(Self-Supervised Learning) 2018-2020年發展綜述
    例如我們能對以下 Supervised Learning 問題有更多想法:如果將 Deep Network 學習到有用的信息,人工標記 (Manual-Label) 是必要的嗎?數據( Data) 本身帶有的信息是否比標記 (Label) 更加豐富?我們能將每張圖視為一個類別(Class);甚至每一個 Pixel 都視為一個類別嗎?
  • Multi-task Learning(Review)多任務學習概述
    廣義的講,只要loss有多個就算MTL,一些別名(joint learning,learning to learn,learning with auxiliary task)目標:通過權衡主任務與輔助的相關任務中的訓練信息來提升模型的泛化性與表現。
  • ICLR 2021傑出論文獎公布,DeepMind是最大贏家
    論文對超複數乘積進行了參數化,允許模型從數據中學習乘法規則,無需在意這些規則是否被預定義。與普通的全連接層方法相比,這種方法只需要使用1/n(n即維度)的可學習參數。關於ICLRICLR(International Conference on Learning Representations)又名「國際學習表徵會議」,2013年舉辦第一屆,由Yoshua Bengio和Yann LeCun牽頭創辦。
  • ICLR 2017即將開幕,機器之心帶你概覽論文全貌
    直播地址:https://www.facebook.com/iclr.ccICLR 全稱為「International Conference on Learning Representations(國際學習表徵會議)」。2013 年,深度學習巨頭 Yoshua Bengio、Yann LeCun 主持舉辦了第一屆 ICLR 大會。
  • NIPS2021|對抗圖增強以提升圖對比學習
    : AD-GCL, 已經發表在NIPS2021上.Abstract圖神經網絡的自監督學習因為圖數據標註的稀疏性問題而很重要. 圖對比學習(Graph Contrastive Learning) 通過訓練GNN來最大化用兩種不同的增強方式作用在同一圖時上的表徵之間的關聯性. 這可以得到robust 並且 transferable的GNN, 即使沒有圖的標籤.
  • 中國科學技術大學副教授凌震華:基於表徵解耦的非平行語料話者轉換...
    特徵解耦是解決這一問題的有效途徑,通過序列到序列框架下的模型結構與損失函數設計可以獲取相對獨立的文本與話者表徵,進一步實現非平行數據條件下的高質量語音轉換。在轉換階段,輸入新的源說話人聲音,就可以通過轉換模型進行目標說話人聲學特徵的預測。在深度學習出現之前,在平行語料語音轉換中,最經典的方法是基於高斯混合模型(GMM)的方法。