Group-Supervised Learning 可以通過非常簡單的自編碼器(Autoencoder)來實現,訓練過程只需要 reconstruction loss,簡單易收斂,可以實現高質量的 zero-shot synthesis。
https://openreview.net/pdf?id=8wqCDnBmnrT
項目主頁:
http://sami.haija.org/iclr21gsl/index.html
代碼:
圖1 Group-Supervised Learning 零鏡頭生成(zero-shot synthesis)效果
下面將詳細介紹工作的具體內容。
一、Motivation靈長類動物(人類)往往在泛化的任務(generalization task)上表現很好,當看到一個物體,他們可以立即想像出同一個物體在不同屬性時的樣子,比如不同的 3D pose[1],即使他們從未見過。我們的目標是賦予AI智能體(machines)相似的能力:zero-shot synthesis。我們認為,人類有一個非常重要的能力來幫助想像,那就是將所學的知識進行因式分解並重新組合。比如圖2中,我們可以把見過物體的顏色和輪廓進行分解(藍莓和跑車),然後通過重新組合想像出未見過的物體(藍色的跑車)。對於AI智能體,我們可以用神經網絡模擬知識的因式分解過程嗎?我們給出的答案是可以利用可控的解耦表徵學習(controllable disentangled representation learning)。我們提出的新的學習框架:組監督學習(Group-Supervised Learning)可以幫助這個過程的實現。
提到解耦表徵學習(disentangled representation learning),大家首先想到的應該是變分自編碼器(VAE),VAEs 可以用無監督學習(unsupervised learning)的方式通過添加KL divergence loss 對隱空間的分布進行約束,間接地實現隱空間的解耦表徵。然而,在沒有數據標籤的無監督情況下,VAE很難控制解耦的過程和結果(比如隱空間是如何劃分的,用隱空間中的哪幾維存儲哪個特定的屬性信息)。有監督的學習方法中算法可以獲取圖片的屬性標籤,大多數採用基於GAN的生成方法,比如StarGAN[2] 和 ELEGANT[3],他們可以實現屬性可控的圖像生成,但生成多是局部屬性或texture的改變,訓練過程和實現較為複雜且不易穩定。為了解決上述問題,我們提出了一種新的學習範式:組監督學習,實現全局多屬性可控的圖像生成,而且保持全局語義信息的一致(比如轉動汽車姿態時作為背景的公路方向會跟著一起轉動)。組監督學習的實現可以採用簡單的自編碼器,而且整個訓練只需要reconstruction loss,穩定且收斂快。
二、Problem Statement and Approach要實現屬性可控的解耦,關鍵在於如何達到可控,也就是我們要精確控制每個屬性信息的流動過程。利用數據的屬性標籤進行監督是必要的,但監督過程是仁者見仁的:是將數據集中的每個樣本單獨使用?還是將每個樣本的屬性以及屬性關係進行有機的表示?我們選擇了後者,所謂組監督學習,字面理解就是每次輸入的是一組樣本,一組內部關係得到有機表示的樣本,通過在隱空間中的屬性信息交換(swap)和組合(recombination),挖掘樣本之間的相似性(similarity mining)作為監督信息,達到可控的解耦表徵。
圖4 組監督學習將數據集表示為Multi-Graph
如圖4所示,給定一個數據集以及每個樣本的屬性標籤(以Fonts dataset [4] 為例,每張字母圖片都有五個屬性:字母,大小,字母顏色,背景顏色,字體),我們將其表示為Multi-Graph,Graph中的點表示數據集中的不同樣本,邊表示樣本之間共享的屬性標籤(比如兩個樣本具有相同的字母顏色,就會有一條Font color的邊連接兩個樣本),我們稱之為Multi-Graph的原因是點之間共享的屬性標籤可能有多個,所以區別於傳統graph(兩點之間只有一條邊),Multi-Graph的兩點之間可以有多條邊,且邊的數目是由兩點之間共享屬性的數目決定的。將數據集表示為Multi-Graph的原因是希望能更好的挖掘數據之間屬性的異同,從而更好的指導屬性可控的解耦表徵學習。
接下來我們提供了組監督學習基於自編碼器的一種實現 Group-Supervised Zero-shot synthesis Network (GZS-Net),以ilab-20M[5] dataset為例詳細介紹實現可控解耦的訓練過程。
GZS-Net 的網絡結構是一個簡單的自編碼器:包括一個編碼器(encoder E)和一個解碼器(decoder D)。輸入是一個multi-graph,損失函數由三部分組成,均為reconstruction loss(pixels wise L2 / L1 loss):self reconstruction Loss,swap reconstruction 和 cycle swap reconstruction loss,三個損失項分別對應三個訓練步驟:
Step 1 Self reconstruction如圖5,一組圖片以Multi-Graph的形式作為輸入:其中紅框中的圖片為x,藍色框中的圖片與x僅有一組屬性值相同並由藍色的邊所表示,黑色框中的圖片x-bar與x沒有任何相同屬性值。首先將每張圖片輸入到 E 和 D中按照自編碼器的訓練方式用reconstruction loss 訓練 GZS-Net。這個步驟可以看作是一個正則項,保證輸入的圖片所有的信息都可以被 E 編碼到 latent vector中,避免信息丟失。
圖5 Self reconstruction 步驟接下來,為了實現可控的解耦,我們先在latent vector中預定義每個屬性的編碼位置:紅色編碼(儲存)identity 信息,黃色編碼姿態信息,綠色編碼背景信息。然後通過接下來 Step 2 和 Step 3 的基於multi-graph的屬性交換與約束實現預定義的可控解耦。
Step 2 One Overlap Attribute Swap如圖6(a),從multi-graph中取一條屬性值為id的邊,將邊連接的兩個id屬性相同的圖片分別通過 E 得到 他們的latent vector,然後我們將他們相同的屬性(id)預劃分的區域(紅色)進行交換,得到兩個新的latent vector,並將他們分別通過 D 生成兩張新的圖片。因為我們希望紅色部分編碼id的信息而兩張圖又具有相同的id,所以交換id部分過後生成的圖片應該與原圖相同,所以我們用reconstruction loss進行約束。相似的,我們接著取屬性為姿態(圖6 b)和背景(圖6 c)的邊,將他們連接的點做同樣的操作:編碼,交換相同屬性值區域,約束生成的圖片與原圖相同。這一過程利用multi-graph圖片之間的關係,使網絡學習如何挖掘圖片之間high-level屬性的相似性,並通過交換實現可控的解耦表徵。Note:在這一步,我們需要swap所有 attribute 對應的 latent 區域,即紅,黃,綠三部分都需要交換,以此來避免網絡將所有信息存儲到不被交換的區域來cheat。
圖6 One Overlap Attribute Swap 步驟
Step 3 Cycle Attribute Swap最後一步是選取沒有相同屬性值的兩張圖片,通過 E 得到 latent vector 後,我們隨機選取一個屬性進行交換,生成兩張沒有ground truth的圖片;然後我們再將他們通過 E 把剛剛交換過的屬性再交換回來,約束兩次交換後生成的圖片與原始輸入的圖片相同。這一步驟間接的約束了可控的屬性解耦:如果中間步驟生成的圖片質量很差,或者屬性值不是預期的樣子,第二次交換過後生成的圖片會與input圖片有較大差距。
圖7 Cycle Attribute Swap 步驟
最後用一張圖表示整個GZS-Net的訓練過程。可以看到整個訓練我們只用了reconstruction loss,框架是基礎的 Autoencoder,容易實現,訓練穩定且收斂快。圖8 Group-Supervised Learning 的一種實現方法:GZS-Net 的訓練過程
下圖是算法的偽代碼。Note:在released code 中我們提供了一種更為簡單的訓練過程:在Step 2 One-Overlap attribute Swap時(1)不需要兩張圖片只有一個attribute 相同,只要需要交換的attribute相同即可,其他attribute不做限制。(2)不需要有一張圖片x出現在所有屬性的交換過程中,不同屬性之間可以選用不同的滿足要求的圖片。詳情請見 code。
圖9 Group-Supervised Learning 訓練偽代碼三、Experiments and Results 定性實驗下圖展示了在 ilab-20M 數據集上進行零鏡頭生成(zero-shot synthesis)的結果,我們希望解耦 ilab-20M 中的三個屬性:車輛id(identity),姿態和背景。在生成過程中,輸入是每個目標屬性的提供者,我們希望從每個屬性提供者中提取目標屬性值,並將它們重新組合,生成目標圖片。紅色虛線框中展示的是我們的 GZS-Net 的結果,包括消融實驗(ablation study)。可以看到生成的圖像可以滿足query式可控生成的需求,而且生成的場景能夠保證語義的一致(當車輛作為前景進行旋轉時,道路作為背景會跟著進行旋轉)。baseline有兩大類,一類是基於GAN的算法:StarGAN 和 ELEGANT,另一類是 Autoencoder+Direct Supervision(AE+DS)即直接在autoencoder 的隱空間中加入對應屬性分類器當作監督訓練的模型。我們的輸入圖片的格式會根據不同baseline算法的生成步驟需求做出調整。
圖10 Zero-shot synthesis 在ilab-20M數據集的表現下圖展示了在 Fonts 數據集上進行零鏡頭生成(zero-shot synthesis)的結果,我們希望解耦 Fonts 中的五個屬性:字母,字體(Font Style),背景顏色,字母顏色和字母大小。同樣生成時每一個目標attribute有一個提供者,我們希望從每個屬性提供者中提取目標屬性值,並將它們重新組合,生成目標圖片。紅色虛線框展示的是我們的 GZS-Net 的結果;baseline方法中還包括基於VAE的算法,在β-VAE 和 β-TCVAE的基礎上做 Exhaustive Search(ES)使其適應controllable synthesis task(細節請見paper)。
圖11 Zero-shot synthesis 在Fonts數據集的表現下圖展示了在 RaFD[6] 數據集上進行零鏡頭生成(zero-shot synthesis)的結果,我們希望解耦 RaFD 中的三個屬性:identity,pose 和 expression。
圖12 Zero-shot synthesis 在RaFD數據集的表現定量實驗第一個實驗是用解耦屬性之間的互相預測(co-prediction)來定量分析解耦表徵的效果。為了分析解耦效果,我們會問以下問題:我們可以用latent vector中一個屬性編碼的信息來預測該屬性的label嗎?我們可以用它來預測其他屬性的label嗎?在完美解耦表徵的情況下,我們永遠會給第一個問題肯定的回答而給第二個問題否定的回答。如下圖,我們計算了模型關於屬性的confusion matrix:使用每個屬性在latent vector中對應維度的信息預測所有屬性的label。一個完美解耦的模型應該接近Identity 矩陣。我們的模型在對角線有比較高的準確率,在非對角線準確率較低。
圖13 可控的解耦表徵學習效果分析第二個實驗是在Fonts 數據集(能提供所有可能的屬性組合)中計算生成圖像與 ground truth之間的平均MSE 和 PSNR從而定量地分析生成圖片質量。
圖14 生成圖像效果定量分析第三個實驗是把 Group-Supervised Learning 用作數據增強方法,看能否將原本unbalance 的數據集增強為balance的數據集,並提升下遊分類模型的準確率。可以看到數據增強效果明顯好於傳統的數據增強算法並提升了分類模型的準確率。
圖15 GZS-Net作為數據增強算法提升分類模型效果四、Fonts:一個新的開源數據集Fonts是我們開源的一個屬性可控的 RGB 圖像數據集,每張圖片(尺寸為128*128)包括一個用五個獨立屬性渲染生成的字母,五個屬性分別為:字母,大小,字母顏色,背景顏色和字體。下圖展示了一些例子。數據集包含了提出屬性的所有可能的組合,共計1.56 million 張。我們提出Fonts數據集的首要目的是為了給解耦表徵學習和零鏡頭生成的研究者提供一個可以快速驗證和迭代想法的平臺。
除了上述的五個屬性,我們還拓展了Fonts-v2版本,增加了簡單的單詞以及新的屬性:位置,旋轉和紋理,示例請見下圖。
目前Fonts的所有生成代碼已開源,歡迎來我們的網站下載數據集和代碼:http://ilab.usc.edu/datasets/fonts
五、Conclusion總結來說,這項工作的要點在於:
1. 提出一種新的學習範式——組監督學習(Group-Supervised Learning)可以模仿人腦的想像力並賦予AI智能體zero-shot synthesis的能力。
2. 組監督學習以一組圖片作為輸入,通過挖掘圖片之間屬性的相關關係實現可控的解耦表徵和自由組合,模擬人類對知識的因式分解和重新組合。
3. 作為一種新的學習範式,組監督學習容易實現,訓練穩定可快速收斂,可以幫助不同的下遊任務。定量和定性的分析了在屬性可控生成,解耦表徵學習與數據增強方向的應用。
更多細節請參考原paper,歡迎大家follow我們的工作:)
@inproceedings{ge2021zeroshot, title={Zero-shot Synthesis with Group-Supervised Learning}, author={Yunhao Ge and Sami Abu-El-Haija and Gan Xin and Laurent Itti}, booktitle={International Conference on Learning Representations}, year={2021}, url={https://openreview.net/forum?id=8wqCDnBmnrT}}如果有任何問題,歡迎大家留言或者給我發郵件討論,最後附上我的主頁連結:https://gyhandy.github.io/參考資料:
[1] Logothetis et al., 1995.https://www.sciencedirect.com/science/article/pii/S0960982295001084[2] StarGAN Choi, Yunjey, et al. 2018 https://arxiv.org/pdf/1711.09020.pdf[3] ELEGANT Xiao, T. et al. 2018 https://arxiv.org/pdf/1803.10562.pdfhttp://ilab.usc.edu/datasets/fontshttp://ilab.usc.edu/publications/doc/Borji_etal16cvpr.pdfhttp://www.socsci.ru.nl:8180/RaFD2/RaFD#:~:text=The%20RaFD%20is%20a%20high,surprise%2C%20contempt%2C%20and%20neutral//
作者介紹
葛雲皓,南加州大學計算機學院二年級博士研究生,導師為 Laurent Itti 教授。此前分別於山東大學和上海交通大學獲得本科和碩士學位。研究興趣為機器學習,計算機視覺和通用人工智慧。曾以第一作者在 CVPR,ICLR,ECCV 等會議和期刊發表論文。個人主頁:https://gyhandy.github.io/Illustrastion by Aleksandr Smetanov from Icons8
將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務、將門技術社群以及將門創投基金。將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我「門」: