編者按:幾個月前,Deepmind在ICML上發表了一篇論文《Neural Processes》,提出了一種兼具神經網絡高效性和高斯過程靈活性的方法——神經過程,被稱為是高斯過程的深度學習版本。雖然倍受關注,但目前真正能直觀解讀神經過程的文章並不多,今天論智帶來的是牛津大學在讀PHD Kaspar Märtens的一篇可視化佳作。
在今年的ICML上,研究人員提出了不少有趣的工作,其中神經過程(NPs)引起了許多人的注意,它基於神經網絡概率模型,但又可以表示隨機過程的分布。這意味著NPs結合了兩個領域的元素:
深度學習:神經網絡是靈活的非線性函數,可以直接訓練
高斯過程:GP提供了一個概率框架,可用於學習非線性函數的分布
兩者都有各自的優點和缺點。當數據量有限時,由於本身具備概率性質可以描述不確定性,GP是首選(這和非貝葉斯神經網絡不同,後者只能捕捉單個函數,而不是函數分布);而當有大量數據時,訓練神經網絡比GP推斷更具擴展性,因此優勢更大。
神經過程的目標就是實現神經網絡和GP的優勢融合。
什麼是神經過程?
NP是一種基於神經網絡的方法,用於表示函數的分布。下圖展示了如何建立NP模型,以及訓練模型背後的一般想法:
給定一系列觀察值(xi,yi),把它們分成「context points」和「target points」兩組。現在,我們要根據「context points」中已知的輸入輸出對(xc,yc),其中c=1,…,C,和「target points」中的未知輸入x∗t,其中t=1,…,T,預測其相應的函數值y∗t。
我們可以把NP看作是根據「context points」中的「target points」建模的模型,相關信息通過潛在空間z從左側流向右側,從而提供新的預測。右側本質上是從x映射到y的有限維嵌入,而z是個隨機變量,這就使NP成了概率模型,能捕捉函數的不確定性。一旦模型完成訓練,我們就可以用z的近似後驗分布作為測試時進行預測的先驗。
乍看之下,這種分「context points」和「target points」的做法有點類似把數據集分成訓練集和測試集,但事實並非如此,因為「target points」集也是直接參與NP模型訓練的——這意味著模型的(概率)損失函數在這個集上有明確意義。這樣做也有助於防止模型過擬合和提供更好的泛化性。在實踐中,我們還需要反覆把訓練數據通過隨機採樣分為「context points」中的「target points」,以獲得更全面的概括。
讓我們來思考以下兩種情況:
基於單個數據集推斷函數的分布
當存在多個數據集且它們之間存在某種相關性時,推斷函數的分布
對於情況一,常規的(概率)監督學習就能解決:給定一個包含N個樣本的數據集,比如(xi, yi),其中i=1,…,N。假設確實存在一個函數f,它能產生yi=f(xi),我們的目標就是學習f的後驗分布,然後用它預測測試集上某點的函數值f(x∗)。
對於情況二,我們則需要從元學習的角度去觀察。給定D個數據集,其中d=1,…,D,每個數據集包含Nd個數據對(xi(d), yi(d))。如果我們假設每個數據集都有自己的基函數fd,輸入xi後,它們有yi=fd(xi),那麼在這種情況下,我們就可能想要了解每個fd的後驗分布,然後把經驗推廣到新數據集d∗上。
對於數據集很多但它們的樣本很少的情況,情況二的做法特別有用,因為這時模型學到的經驗基於所有fd,它的內核、超參數是這些函數共享的。當給出新的數據集d∗時,我們可以用後驗函數作為先驗函數,然後執行函數回歸。
之所以要舉著兩個例子,是因為一般來說,GP適用於情況一,即便N很小,這種做法也很有效。而NP背後的思路似乎主要來自元學習——在這種情況下,潛在的z可以被看作是用於不同數據集間信息共享的機制。但是,NP同樣具有概率模型的特徵,事實上,它同時適用於以上兩種情況,具體分析請見下文。
NP模型是怎麼實現的?
下面是NP生成模型的詳細圖解:
如果要逐步分解這個過程,就是:
首先,「context points」裡的數據(xc,yc)通過神經網絡h映射,獲得潛在表徵rc
其次,這個向量rc經聚合(操作:平均)獲得單個值r(和每個rc具有相同的維數)
這個r的作用是使z的分布參數化,例如p(z|x1:C,y1:C)=N(μz(r),σ2z(r))
最後,為了預測輸入x∗t後的函數值,對z採樣並將樣本與x∗t組成數對,用神經網絡g映射(z,x∗t)獲得預測分布中的樣本y∗t。
NP的推斷是在變分推斷(VI)框架中進行的。具體來說,我們介紹了兩種近似分布:
讓q(z|context)去近似條件先驗p(z|context)
讓q(z|context,target)去近似於各自的p(z|context,target),其中context:=(x1:C,y1:C),target:=(x∗1:T,y∗1:T)
下圖是近似後驗q(z|·)的具體推斷過程。也就是說,我們用相同的神經網絡h映射兩個數據集,獲得聚合的r,再把r映射到μz和σz,使後驗q(z|⋅)=N(μz,σz)被參數化。
變分下界包含兩個項(下式),其中第一項是target集上的預期對數似然,即先從z∼q(z|context,target)上採樣(上圖左側),然後用這個z在target set上預測(上圖右側)。
第二項是個正則項,它描述了q(z|context,target)和q(z|context)之間的KL散度。這和常規的KL(q||p)有點不同,因為我們的生成模型一開始就把p(z|context)當做條件先驗,不是p(z),而這個條件先驗有依賴於神經網絡h,這就是我們沒法得到確切值,只能用一個近似值q(z|context)。
實驗
NP作為先驗
我們先來看看把NP作為先驗的效果,也就是沒有觀察任何數據,模型也沒有經過訓練。初始化權重後,對z∼N(0,I)進行採樣,然後通過x∗值的生成先驗預測分布並繪製函數圖。
和具有可解釋內核超參數的GP相反,NP先驗不太明確,它涉及各種架構選擇(如多少隱藏層,用什麼激活函數等),這些都會影響函數空間的先驗分布。
例如,如果我們用的激活函數是sigmoid,調整z的維數為{1, 2, 4, 8}。
如果用的是ReLU:
在一個小數據集上訓練NP
假設我們只有5個數據點:
由於NP模型需要context set和target set兩個數據集,一種方法是選取固定大小的context set,另一種方法則是用不同大小的context set,然後多迭代幾次(1個點、2個點……以此類推)。一旦模型在這些隨機子集上完成訓練,我們就可以用它作為所有數據的先驗和條件,然後根據預測結果繪製圖像。下圖展示了NP模型訓練時的預測分布變化。
可以發現,NP似乎已經成功學習了這5個數據點的映射分布,那它的泛化性能如何呢?我們把這個訓練好的模型放在另一個新的context set上,它的表現如下圖所示:
這個結果不足為奇,數據量太少了,模型過擬合可以理解。為了更好地提高模型泛化性,我們再來試試更大的函數集。
在一小類函數上訓練NP
上文已經用單個(固定)數據集探索了模型的訓練情況,為了讓NP像GP一樣通用,我們需要在更大的一類函數上進行訓練。但在準備複雜函數前,我們先來看看模型在簡單場景下的表現,也就是說,這裡觀察的不是單個函數,而是一小類函數,比如它們都包含a⋅sin(x),其中a∈[−1,1]。
我們的目標是探究:
NP能不能捕捉這些函數?
NP能不能概括這類函數以外的函數?
下面是具體步驟:
設a滿足均勻分布:a∼U(−2,2)
設xi∼U(−3,3)
定義yi:=f(xi),其中f(x)=a⋅sin(x)
把數據對(xi,yi)隨機分成context set和target set兩個數據集,並進行優化
重複上述步驟
為了方便可視化,這裡我們用了二維z,具體圖像如下所示:
從左往右看,模型似乎編碼了參數a,如果這幅圖不夠直觀,下面是調整某一潛在維度(z1或z2)的動態可視化:
需要注意的是,這裡我們沒有用任何context set裡的數據,只是為了可視化指定了具體的(z1, z2)值。接下來,就讓我們用這個模型進行預測。
如下左圖所示,當context set數據集裡只包含(0, 0)一個點時,模型覆蓋了一個較寬的範圍,包含不同a取值下a⋅sin(x)的值域(雖然a∈[−2,2],但訓練時並沒有完全用到)。
往context set數據集裡添加第二個點(1,sin(1))後,可視化如中圖所示,相比左圖,它不再包含a為負數的情況。右圖是繼續添加f(x)=1.0sin(x)的點後的情況,這時模型後驗開始接近函數的真實分布情況。
這之後,我們就可以開始探究NP模型的泛化性,以2.5sin(x)和|sin(x)|為例,前者需要在a⋅sin(x)的基礎上做一些推斷,而後者的值始終是個正數。
如上圖所示,模型的值域還是和訓練期間一樣,但它在兩種情況下都出現了符合函數分布的一些預期。需要注意的是,這裡我們並沒有給NP提供足夠多的不確定性,所以它預測不準確也情有可原,畢竟比起易於解釋的模型,這種自帶黑盒特性的模型更難衡量。
之後,作者又比較了GP和NP的預測分布情況,發現兩者性能非常接近,只是隨著給出的數據點越來越多時,NP會因為架構選擇(神經網絡過小、低緯度z)出現性能急劇下降。對此,以下幾個改進方法可以幫助解決問題:
2維z適合用於學習理解,在實際操作中,可視情況採用更高的維度
讓神經網絡h和g變得更深,擴大隱藏層
在訓練期間使用更多樣化的函數(更全面地訓練NP超參數),可提高NP模型泛化性
結論
雖然NP號稱結合了神經網絡和GP,能預測函數的分布,但它從本質上看還是更接近神經網絡模型——只需優化架構和訓練過程,模型性能就可以大幅提高。但是,這些變化都是隱含的,使得NP更難被解釋為先驗。
打開APP閱讀更多精彩內容聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴