機器之心編譯參與:機器之心編輯部
論文地址:https://openreview.net/pdf?id=S1L-hCNtl
摘要:我們研究了生成對抗的訓練方法來對馬爾可夫鏈(Markov chain)的轉移算子(transition operator)進行學習,目的是將其靜態分布(stationary distribution)和目標數據分布相匹配。我們提出了一種新型的訓練流程,以避免從靜態分布中直接採樣,但是仍然有能力逐漸達到目標分布。此模型可以從隨機噪聲開始,是無似然性的,並且能夠在單步運行期間生成多個不同的樣本。初步試驗結果顯示,當它臨近其靜態時,馬爾可夫鏈可以生成高質量樣本,即使是對於傳統生成對抗網絡相關理念中的較小結構亦是如此。
1 引言(略)
2 問題預設
設 S 為隨機變量
的序列的狀態空間。設 π0 是 X0 的初始概率分布,Tθ(·|x) 是被 θ 參數化的轉移核(transition kernel),例如,使用一個神經網絡。假定 Tθ 易於採樣,而且對任意 θ 都有一個有效的轉移核,例如,它對所有的 x ∈ S 都滿足:
因此,在 X 的範圍內每一個 Tθ都定義一個時間同質的馬爾可夫鏈。我們把
表示成時間 t 下的生成概率分布。如果我們假設對所有的 xt, xt1 ∈ S,Tθ(xt|xt1) > 0,那麼被 Tθ 所定義的馬爾可夫鏈是不能歸復(Irreducible)的,且值為正數的循環神經,因此有一個獨特的靜態分布
,且對於所有的x ∈ S,πθ滿足於:
假設在我們可以得到的樣本中有一個未知分布 pd(x),比如,數據分布。我們的目的有二:找到一個 θ 使
πθ 接近 Pd(x);對應的馬爾科夫鏈快速收斂。
3 馬爾可夫鏈的對抗性訓練
對於任意θ,即使πθ因為唯一的靜態分布而存在,大多數情況下直接計算 x 分布的實際似然度仍然是十分困難的。然而,從
獲得樣本卻十分簡單,並且如果 t 足夠大,那麼它將依概率收斂到πθ。這正好和 GAN 框架是一致的,即訓練只需要從模型中抽樣就行。
生成對抗網絡(GAN)(Goodfellow et al., 2014)是採用兩個參與者極小極大博弈來訓練深度生成模型的框架。GAN 訓練一個生成器網絡 G 以轉換噪聲變量 z p(z) 為 G(z) 而生成樣本。而辨別器網絡 D(x) 則區分樣本是來自生成器還是來自給定數據分布 pd 的真實樣本。該關係可正式表述為以下關係式:
在我們的預設中,我們選擇 z π 0,並令 Gθ(z) 為 t 步後的馬爾可夫鏈狀態,如果 t 足夠大的話,那麼 Gθ(z) 就是πθ良好的近似值。然而,我們遇到了優化方面的問題,因為需要求沿整條馬爾可夫鏈反向傳播的梯度,這就導致了梯度更新極其昂貴,即因為梯度估計量的大方差而降低的收斂速度。因此,我們提出了更加高效的近似方法,該方法可由以下目標函數表達:
其中
表示 x 的分布,而從 xd 開始轉移核(transition kernel)需要應用 t^次。我們為訓練生成器使用兩種類型的樣本,並優化 θ 這樣的樣本以騙過辨別器:
1. 樣本在 t步時,給定起始樣本 x0 π 0。
2. 樣本在 t步時,給定一個帶小量隨機擾動的數據樣本 x pd。
直觀講,第一個條件鼓勵馬爾可夫鏈在(長度 t 的)相對短的運行中向 pd 收斂。我們只考慮這一需求,這個方法將對應於一個潛層變量模型的原始採樣,就像 Sohl-Dickstein et al. (2015)、Salimans et al. (2015) 和 Bordes et al. (2017) 的情況。然而,相比於這些模型,我們的目標是訓練一個迭代步驟,其中樣本的質量通過增加模擬步的數量而獲得提升。並且在鏈的 burn-in 期後,可廉價生成多個樣本。這種完成需要第二個條件,它迫使收斂變成靜態,其中 pd 的每個點轉化至數據流形中的另一個點。
在靜態分布中,等式 3 中的目標比 等式 2 優化起來更簡單。通過利用帶有更低方差的評估梯度,平均上,生成器將只運行 (t + t)/2 步,而不是從鏈中取樣直至收斂,如果最初的馬爾可夫鏈的混合需要多步操作,這將極其費時。
4 實驗
圖 1. 馬爾可夫鏈和 mlp 架構的例子。從左上到右下,每個小圖都分別進行了π 1 θ、 π 2 θ、π 5 θ、π 10 θ、π 20 θ、π 50 θ採樣。該圖通過初始 x0 的採樣,100 批的數據樣本生成的,遷躍算符重複使用。
我們在 MNIST 數據集上訓練了這個模型,其目標是將數據生成分布與πθ相匹配,研究人員傾向於使用簡單遷躍算符來匹配複雜分布。研究人員考慮了三種遷躍算符架構 Tθ(·|x)。每個都有一個對稱的編碼器-解碼器結構,高斯噪聲被加入了隱代碼中,解碼器架構分別為:
DCGAN(Radford 等人,2015)所用的生成網絡架構,其中包含兩個全連接層,隨後是兩個轉置卷積。該模型強大到足以在一個步長中生成清晰圖像。弱化的 DCGAN,一個全連接層和一個轉置卷積層(conv)。兩個全連接層組成的 MLP,它是最弱的模型(mlp)。