提起GAN,你或許會想起真假難辨的人臉生成。
但其實,GAN的能力並不只局限在圖像生成上。
用GAN做無監督表徵學習,就可以去做圖像分類了,就像那個半路出家的BigBiGAN,秒殺了一眾專注分類20年的AI選手。
現在,最新研究表明,在無監督環境中,GAN在學習可解釋性表徵方面也大有可為。
在實際情況中,有一些表徵可能是各種因素相互作用的結果,忽略這些相互作用可能會導致無法發現更多的特徵。
針對這一問題,AI獨角獸明略科技聯合兩所高校,提出了一個新的正則化器,對潛伏空間變量的相互作用施加結構約束,有效地探索數據中額外的顯著特徵。
目前已入選IJCAI 2020會議論文。
用GAN提取信息糾纏的顯著特徵現有的無監督學習可解釋表徵的方法著重於「從數據中提取獨立不糾纏的顯著特徵」,但是這一方法忽略了顯著特徵的糾纏可能會提供有用信息。
而認識到這些信息糾纏,可以提高表徵的可解釋性,從而提取出更高質量和廣泛的顯著特徵。
也就是說,要實現更好的可解釋性,需要同時考慮非糾纏和信息糾纏的顯著特徵。
基於此,本文的核心方法是:用生成對抗網絡GAN,來學習非糾纏和信息糾纏的可解釋性表徵。
具體來說,就是提出了一個正則化器,對潛在變量的信息糾纏進行結構性約束,使用貝葉斯網絡對這些交互進行建模,做最大似然估計,並計算負似然分數以衡量分歧。
基於InfoGAN先來了解一下這篇文章的背景。
這篇文章是以InfoGAN為基礎。它是當前最先進的用於「離散表徵學習」的生成對抗網絡,通過將GAN的對抗損失函數與一組觀測值和生成器輸出之間的相互信息進行正則化來進行離散表徵。
它於2016年首次提出,由加州大學伯克利分校、OpenAI聯合開發,能夠完全以無監督學習的方式來學習離散表徵。
InfoGAN學習的可解釋性表徵與現有的監督方法學習的表徵相比具有競爭力。互信息最大化鼓勵網絡將解耦變量與生成的輸出聯繫起來,迫使生成器給這些變量賦予意義。
由於互信息分量難以計算,InfoGAN通過最大化變量下限來近似計算。
但其正則化器並不能保證發現的顯著特徵之間的獨立性。實際情況中,這些特徵可能會相互影響,存在糾纏的情況。
於是,IJCAI的這篇論文用GAN學習可解釋性表徵問題,並同時考慮了離散變量和信息糾纏變量。
文章提出利用依賴結構,建模觀測值和數據顯著特徵之間的關係,並將這種結構作為GAN訓練的約束條件。
建模變量關係為了在觀測變量和顯著特徵之間施加結構化關係,本文利用了判別器的特徵提取能力。
在GAN訓練中,判別器學習從訓練數據中提取顯著特徵,生成器根據判別器的輸出進行更新。
以上圖為例,綠色節點為輸入的觀測數據,紅色節點為判別器提取出來的潛碼(latent code),這些節點組成的圖就是依賴結構。
如果在觀測變量與顯著特徵之間施加一個結構化關係,那麼觀測變量將與訓練數據的顯著特徵聯繫在一起。
正如圖中提取出的三個特徵,其中兩個引出第三個。而連接紅綠兩點的線代表了觀測變量與潛碼之間的因果關係,讓觀察變量控制生成器輸出的顯著特徵。
然後,將一組觀測變量與判別器潛碼的「聯合分布」表示為貝葉斯網絡的形式。
但需要注意的是,通過估計每個局部條件概率的參數,而不是直接估計聯合分布參數,由此獲得對各個因果關係重要性的控制。
之所以選擇貝葉斯網絡,主要有如下原因,
1、與大多數獨立性檢驗相比,貝葉斯網絡結構能夠表示更精細的變量關係。
2、建立變量聯合分布模型所需的數據量比非結構化的方法要少。
3、捕捉顯著特徵之間的「因果關係」可以提高可解釋性,也就是說,一些變量如何糾纏可能會提供關於數據的額外信息,以及獨立因子所代表的內容。
將帶有結構損失的GAN正則化之後,研究團隊設計來一個正則化器,利用如下等式中定義的似然函數所取的值,來指導GAN的訓練。
由於似然函數衡量的是給定模型的數據概率,所以當最大似然估計插入時,這個函數所取的值提供了一個天然的度量標準來衡量G對數據的擬合程度。
其中,G為給定的「聯合分布」和局部條件參數的最大似然估計。
與最大似然估計過程不同的是,本文是操縱分布本身來尋找一個給定的G所代表的最佳數據生成器。
損失函數為:
最終,利用所提出的損失函數,將GAN訓練的正則化為:
通過提出的結構損失正則化,GAN學習表示訓練數據分布,同時觀測變量和潛碼關係遵循指定的圖形結構,這樣就可以控制提取變量的相互作用。
換句話說,為了提取相互之間完全獨立的潛在變量,可以定義一個觀測變量和潛碼之間具有一對一連接的圖結構。
另一方面,為了提取相互引起的變量,還可以在潛在變量之間增加連接。
實驗結果:超越SOTA所以,GAN學習可解釋表徵的效果如何?
研究人員在合成數據集和真實世界數據集上進行了實驗驗證。
實驗中,正則化是在和InfoGAN相同的判別器和生成器架構上實現的,同時採用網格搜索來調整參數。
MNIST數據集在MNIST數據集中,實驗所採用的圖結構如下。
結果顯示,儘管InfoGAN很好地捕捉到了旋轉特徵,但如下圖中(b)和(d)所示,粗細特徵並沒有被充分區分開。
基本上,對於所有InfoGAN生成的數字,粗細度增加,數字也會旋轉。同時,一些數字的特徵會出現丟失,比如「5」。
本文提出的新方法則成功捕捉了這兩個不同的視覺特徵,並且不影響數字的數字特徵。
另外,研究人員也測試了兩種方法的泛化能力。
模型仍然在 ci∈[-1,1] 的條件下訓練,但在 ci∈{-2,0,2} 的條件下生成圖像。
結果表明,新方法比InfoGAN的泛化能力更強,在輸出圖像變粗的同時,攜帶了更豐富的數字特徵。
另外,研究人員發現,在使用該正則器學習的表徵中,粗細度增加的同時,數字寬度也會增加。這暗示了寬度和粗細特徵之間存在信息糾纏。
進一步的實驗表明,基於本文提出的正則化器,可以引導GAN的訓練,以探索更多的顯著特徵。
利用信息糾纏,有可能拆分出其他顯著特徵相互作用的產物,也有可能發現糾纏在一起但顯著的新特徵。
研究人員如下圖所示調整了圖結構。這使得GAN趨向於發現2個會影響第3個特徵的潛伏特徵。
研究人員觀察到,c1和c2分別捕獲了寬度和粗細度的特徵,而c3則捕獲了寬度和粗細度的混合特徵。
這一結果說明,反饋給學習網絡G的圖結構,能夠引導GAN發現遵循期望的因果關係的變量。
研究人員還在3D Faces數據集上進行了實驗。該數據集包含24萬個人臉模型,這些人臉模型的旋轉度、光線、形狀和高度會隨機變化。
結果同樣表明,InfoGAN並沒能提取第4個混合特徵。而本文提出的正則器能夠引導GAN捕獲旋轉、仰角、光線、寬度這全部4個特徵。
dSprites Dataset之後,研究人員在dSprites數據集上對新方法進行了實驗。
這個數據集通常被用來給不同的表徵學習模型所實現的解構進行評分和比較。
結果顯示,該方法在得分上超過了SOTA方法。
最後總結一下:通過定性和定量比較,研究人員證明了本文提出的正則化器可以從數據中發現比SOTA更廣泛的顯著特徵,並且實現了比SOTA更強的泛化性能。
研究人員表示,下一步,他們將完成兩個目標:
· 設計一種學習最佳圖結構的算法來探索顯著特徵
· 進行非圖像數據集的實驗
作者介紹這篇論文的作者,分別來自路易斯安那大學拉斐特分校、約翰內斯·克卜勒大學林茨分校,以及國內AI獨角獸明略科技。
第一作者是來自路易斯安那大學拉斐特分校的Ege Beyazit博士研究生。
他的研究方向是機器學習和數據挖掘。
此外,明略科技集團首席科學家、明略科學院院長,IEEE&AAAS fellow吳信東也參與了這項研究。
傳送門論文地址:
https://www.ijcai.org/Proceedings/2020/273
本文系網易新聞•網易號特色內容激勵計劃籤約帳號【量子位】原創內容,未經帳號授權,禁止隨意轉載。
不了解任何隱私AI技術的情況下,開發者怎樣做到只改動兩三行代碼,就將現有AI代碼轉換為具備數據隱私保護功能的程序?
8月6號,中科院軟體研究所博士、矩陣元算法科學家--謝翔將直播解析,加小助手「qbitbot9」或者直接掃碼,即可進入直播交流群: