AlphaGo Zero用它來調參?「高斯過程」到底有何過人之處?

2020-12-05 大數據文摘

大數據文摘作品

編譯:丁慧、文明、Katherine Hou、雲舟

高斯過程可能不是當前機器學習最火的研究方向,但仍然在很多前沿的研究中被使用到——例如,最近在AlphaGo Zero中自動調整MCTS超參數就使用了它。在建模能力和進行不確定性估計方面,它們具有非常高的易用性。

然而,高斯過程很難掌握,尤其是當你習慣了深度學習中其他常見的模型之後。所以本文希望在具備相當少的ML知識背景下,對高斯過程提供一個直觀的理論介紹,請學習者下載notebook並實現本文中提到的所有代碼。

Jupyter notebook 版本:

https://gist.github.com/Bridgo/429594942ff51037ecc703905e40c562

什麼是高斯過程,為什麼使用它?

高斯過程(Gaussian process, GP)是一個強大的模型,可以用來表示函數的分布。機器學習中的大多數現代技術都傾向於通過參數化函數,然後對這些參數(例如線性回歸中的權重)進行建模來避免這種情況。

然而,GP是直接對函數建模的非參模型。這種方法帶來的一個非常重要的好處是:不僅可以擬合任何黑箱函數,還可以擬合我們的不確定性。量化不確定性是非常有價值的——例如,如果允許我們隨意探索(需要更多的數據),我們就可以選擇儘可能高效地探索最不確定的領域。這是貝葉斯優化背後的主要思想。

如果你給我幾張貓和狗的照片作為學習資料,然後給我一張新的貓的照片讓我分類——我應該給出一個置信度相當高的預測。但是如果你給我一張鴕鳥的照片,強迫我判斷它是貓還是狗——我最好還是給出一個置信度非常低的預測。——Yarin Gal

對於這個介紹,我們將考慮一個沒有噪聲的簡單回歸模型設置(但GP可以擴展到多維和噪聲數據):

假設我們需要擬合某個隱函數f:R—> R已知數據X = [x1,…,xN]T,Y = [y1,…,yN]T,其中yi = f(xi)我們要預測一些新的未觀測點x*的函數值

使用高斯擬合函數

GP背後的關鍵思想是可以使用無限維多元高斯分布擬合函數。換句話說,輸入空間中的每個點與一個隨機變量相關聯,並將多元高斯分布用來擬合這些點的聯合分布。

那麼,這究竟意味著什麼呢?讓我們從一個更簡單的情況開始:一個二維高斯。已知:

通常它是高度表示概率密度的3D鐘形曲線。但是,假如不是表示整個分布,我們只需要從分布中抽樣。然後我們將得到兩個值,我們可以繪製點d並在它們之間畫一條線。

觀察圖中的這些直線,看起來像我們僅僅抽取了10個線性函數樣本……如果我們現在使用20維的高斯函數,依次連接每個樣本點,會發生什麼樣的變化呢?

這些絕對看起來像多個函數,但相對於我們的目的,它們看起來噪聲太大所以不可用。讓我們進一步考慮可以從這些樣本中得到什麼,以及如何改變分布從而獲得更好的樣本……

多元高斯有兩個參數,即均值和協方差矩陣。如果我們改變了均值的話,我們只會改變整體趨勢(即如果均值是上升的整數,如np.arange(D),那麼樣本會呈現出整體正向線性趨勢),但是仍然會出現鋸齒形的噪聲形狀。出於這個原因,我們將GP的均值設置為0——它們實際上已經足夠強大,可以在不改變均值的情況下擬合各種函數。

相反,我們需要一些平滑的概念:即如果兩個輸入點彼此鄰近,那麼我們期望這些點的函數值是相似的。就我們的模型而言,對用於相鄰點的隨機變量在它們的聯合分布(即高斯協方差)下採樣時應該具有相似的值。

這些點的協方差被定義為高斯的協方差矩陣。假設我們有N維高斯模型y0,…yN,協方差矩陣Σ是N╳N維且它的第(i,j)個元素是Σij = cov(yi,yj)。換句話說,Σ是對稱的而且存儲著所有隨機變量的聯合模型的成對協方差。

用核技巧進行平滑處理

那麼如何定義我們的協方差函數呢?這時大量關於核的文獻可以派上用場。我們將選擇平方指數核(最簡單的形式)來達到我們的目的,定義如下:

當x = x』時,函數值(我們剛剛繪製的)為1並且隨著點的不同而趨於0

我們可以繪製這個核函數來展示它在x = x』時是最大的,然後隨著兩個輸入的不同開始平滑的下降

因此,為了得到我們想要的那種平滑性,我們將考慮在xi和xj處繪製兩個隨機變量yi和yj,來得到它們的協方差cov(yi,yj) = k(xi,xj) ——它們越接近,它們的協方差越高。

使用上面的核函數我們可以得到k(xs,xs)這個矩陣。現在我們試著從20維高斯中抽取另外10個樣本,但是這次使用新的協方差矩陣。當我們這樣做時,我們可以得到:

現在我們有了一些開始看起來像一個(有用的)函數分布。而且我們可以看到,隨著維數趨於無窮大,我們不再需要連接這些點,因為我們可以為每一個可能的輸入指定一個點。

讓我們使用更多維度,並在更大範圍的輸入中查看他的外形:

用先驗和觀測進行預測

現在我們有了函數的分布,我們如何通過訓練數據擬合隱函數從而進行預測?

首先,我們需要獲取訓練數據。 這可以通過構造我們的秘密函數f來生成數據。

目標函數

本教程中我們使用一個五次多項式

我選擇它是因為這個函數有個漂亮的波浪圖形。當然,我們也可以用其它的函數。

數學推導

現在我們已經進入高斯過程的核心了。這需要更多的數學知識,不過不用擔心,我們只需要鞏固已有的知識就行,然後用一個小技巧在觀測數據上決定我們的聯合概率分布:

到目前為止,我們已知能夠用多元正態分布來模擬p(y|x)了。

其中,

這是一個先驗分布,它表示在沒有任何觀測數據的情況下,

出現時,

出現的概率。

現在,我們有了訓練集,其訓練得到的模型輸入為

,輸出

。當有新樣本

時,其預測值為

回顧之前高斯過程的定義,我們將擬合

的聯合概率分布。

其中

,和前面一樣,我們將均值設為0.

但是,這是在擬合

,而我們僅需要

的分布。

條件多元高斯

與其從頭開始計算

的分布,我們可以使用標準結果。如果我們有了前面提到過的

的聯合概率分布,而要得到

的條件概率分布,可以用如下的公式:

現在我們就可以用先驗分布和觀測數據計算

的後驗分布了!

注意:下面給的代碼在實際過程中並沒有用到,因為K通常處於較差條件,所以它的逆通常不準確。在本教程第二部分中我們將給出一個更好的方法。

這就是上面公式的代碼實現! 現在就可以用這兩個參數從條件概率分布中採樣了。我們將它們與真實函數(虛線)畫在一起對比。因為我們用的是高斯過程,它包含有不確定性信息,這種不確定性信息以隨機變量的方差形式表示出來。我們知道第i個隨機變量的方差為∑*ii,換句話說,方差就是∑*的對角線值。下圖中的樣本包含了標準方差為±2的不確定性。

接下來講什麼?高斯過程回歸和噪聲數據處理

實際上,我們需要做更多的工作才能得到更好的預測結果。你可能已經注意到核中包含兩個參數-σ和l。如果你在採樣過程中試著改變這兩個參數,你會發現σ影響縱坐標的變化而l影響橫坐標的範圍。

因此,我們需要改變它們來反映我們對隱函數的先驗置信度。譬如,如果我們希望隱函數有更大的輸出範圍(一個我們感興趣的範圍),那麼我們需要相應的增加

的值(試著將隱函數返回的值放大100倍,看會出現什麼,然後將sigma設置為100再看)。事實上,任何用到核的函數,我們都可以通過改變核得到一個完全不一樣的函數(例如,周期函數)。

核的選擇需要人工進行,但參數可以通過最小化損失函數來自動優化。這就是高斯過程回歸的內容。

最後,我們需要考慮怎麼處理含有噪聲的數據,例如,在實際過程中我們可能無法獲得符合隱函數的標準數據。在這種情況下我們需要將這種不確定性納入模型中以獲得更好的泛化能力。

參考資料:

《Machine Learning - A Probabilistic Perspective》第十五章,作者 Kevin P. MurphyYouTube上Nando de Freitas 發布的Introduction to Gaussian processes視頻

原文地址:

http://bridg.land/posts/gaussian-processes-

1?utm_campaign=Revue%20newsletter&utm

_medium=Newsletter&utm_source=The%20Wild%20Week%20in%20AI

相關焦點

  • AlphaGo Zero用它來調參?【高斯過程】到底有何過人之處?
    機器學習中的大多數現代技術都傾向於通過參數化函數,然後對這些參數(例如線性回歸中的權重)進行建模來避免這種情況。 然而,GP是直接對函數建模的非參模型。這種方法帶來的一個非常重要的好處是:不僅可以擬合任何黑箱函數,還可以擬合我們的不確定性。量化不確定性是非常有價值的——例如,如果允許我們隨意探索(需要更多的數據),我們就可以選擇儘可能高效地探索最不確定的領域。
  • 《寶石之國》在創作方面到底有何過人之處?
    第一次知道《寶石之國》這個番是去年在元旦漫展,看到有人出角色,抱著好奇的態度來刷一刷番,結果發現這個番太棒了,突然喜歡上了這個番。另外動漫《寶石之國》在創作方面到底有何過人之處呢?它並不像純粹唯美動漫一般安穩,也沒有所謂的白色恐怖元素。另外,您是否聽說過佛學中的28護法神呢?我想《寶石之國》中的28個角色是否代表著這28位護法神?在佛學中,護法神和二十諸天有著玄而又玄的聯繫。因為佛學中二十諸天之「大梵天」下屬有有很多不同的構成要素,例如,天和地,水火土氣以太,然後是山川河流日月星辰。
  • DeepMind貝葉斯優化調參AlphaGo,自弈勝率大漲16.5%
    新智元報導 來源:arxiv編譯:大明【新智元導讀】AlphaGo的開發和運行涉及海量數據的多次調參,由於數據規模和複雜度的要求,採用手動調參估計需要8.3天。研究人員使用貝葉斯優化作為自動調參解決方案,效果明顯,自對弈測試中的勝率從50%提高至66.5%,這下人類更沒法下了。
  • 被科學家譽為「世界壯舉」的AlphaGo Zero, 對普通人意味著什麼?
    」到業餘棋手,再成長為一個能夠考量每一步棋戰略意義的圍棋大師的過程,而這樣的飛躍僅花費了幾天的時間。「AlphaGo Zero 發現了一些非常棒的下棋定式,然後超越這些定式並找到一些更加有力的方法。」DeepMind 的執行長 Demis Hassabis 表示,「你可以發現,它能重新發現人類幾千年來積累的知識。」
  • DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來啦?
    AlphaGo 的搜索有隨機性,因此 AlphaGo 在不同的搜索可能會選擇勝率接近的另一種下法。除了官網上的簡單介紹,作為 DeepMind 圍棋大使、AlphaGo 的「教練」,樊麾也在其個人微博上宣布「AlphaGo 教學工具終於上線。」
  • AlphaGo Zero「無師自通」背後的偉大與局限 | 曠視孫劍解讀
    「偉大」和「局限」是這次群訪的關鍵詞。在孫劍看來,AlphaGo Zero 的技術提升足夠偉大,但在技術轉換落地過程中卻有著眾多局限。在未來很長一段時間內,圍繞大數據的訓練模式和有監督的學習方法仍是主流深度學習技術應用的必需方式。
  • 被科學家們譽為「世界壯舉」的AlphaGo Zero, 對普通人來說意味著什麼?
    」到業餘棋手,再成長為一個能夠考量每一步棋戰略意義的圍棋大師的過程,而這樣的飛躍僅花費了幾天的時間。 「AlphaGo Zero 發現了一些非常棒的下棋定式,然後超越這些定式並找到一些更加有力的方法。」DeepMind 的執行長 Demis Hassabis 表示,「你可以發現,它能重新發現人類幾千年來積累的知識。」
  • 遠超車釐子的「天價水果」,500克賣到4萬人民幣,有何過人之處?
    對於水果的喜歡,我想很多人都是抑制不住的喜歡吧,說起水果,今年有一種水果莫名的火爆起來,那就是名叫車釐子的水果,相信你們都聽說過,也吃過吧,尤其是大家春節期間去各大超市或者一些非常熟悉的水果市場購物的時候,可以發現這種水果是非常受人歡迎的,不僅味道絕佳,它的營養價值更是無法言說。
  • 【話題】AlphaGo Zero!圍棋之神真來了……
    在對陣曾贏下韓國棋手李世石那版的AlphaGo時,AlphaGo Zero取得了100比0的壓倒性戰績,這真是棋藝高超啊……圍棋之神真來了文|體壇周報記者 謝銳比Alpha Go還要厲害得多的人工智慧誕生了,它便是阿爾法元Alpha Go Zero。
  • 「標題黨」用英語到底怎麼說? | 一周熱詞
    原標題:「標題黨」用英語到底怎麼說?」這個概念的出鏡率是越來越高了, 如果你是UC一類平臺的用戶,那你的體會應該更深, 不過你知道「標題黨」用英語到底怎麼講嗎?」,它包含所有會引誘你點擊的東西, 如果你要明確地指「標題黨類型的標題」,你可以說: a clickbait title 顯然,這個詞裡的核心部分是 click
  • 號稱「菌中王子」的樅菌,到底有什麼過人之處,市場價格那麼高?
    號稱「菌中王子」的樅菌,到底有什麼過人之處,市場價格那麼高?蔬菜因為富含多種維生素和胺基酸成為絕大多數中國人每天都要吃的一種食物,特別是小孩子每次在飯桌前都要被家長提醒多吃蔬菜,這樣才能長得高,腸胃好。
  • 謎之Zero自戰17-序章:AlphaGo Zero自戰上演精彩粘接收後
    在本局研究過程中,末尾竟罕見的出現了中國規則特有的粘劫收後。而zero對中國規則理解之深刻,著法之精彩,堪稱粘劫收後局面的典型案例。圖二:按上圖局面收束,白1提劫最強,但因劫材不足,白全盤劫材用盡時,黑棋還留有A和B的劫材,得以成功粘劫收後。
  • 【技術專題】一般俗稱「硬金」、「軟金」之英文名稱為何?電鍍金和化學金有什麼不同?
    實務問答7-3: 【問】一般俗稱「硬金」、「軟金」之英文名稱為何?電鍍金和化學金有什麼不同?
  • AlphaGo Zero用40天成為世界最強圍棋AI
    關注有獲,訂閱增益。AlphaGo的論文發布早就有預告,有預兆,並非突如其來,石破天驚……但當它就這樣出現,糊在小編臉上,還是顯得那麼讓人震撼……論文摘要在另一篇置頂文已經有了,這裡只是略微補全一些周邊信息。
  • 買來波音747然後炸了它?這種諾蘭式的「神操作」其實有很多
    為了節省成本,「鬼才」的他把用硬紙板裁剪出的士兵和軍用車輛。放置在鏡頭的遠背景中,來營造出大批軍隊的效果。即便耍了點「小聰明」,在拍攝時,現場也一度出現了 62 只船。不過「諾神」的稱號可不是白來的,在他和團隊的精心培育下,3000 畝玉米地長勢喜人,於是就有了《星際穿越》中,一眼看不到邊的玉米地。
  • CLOT x Nike Air Max 1「死亡之吻」最快「這個時間」回歸!
    先前曾為大家報導過人稱鞋壇「絕跡神鞋」 CLOT x Nike Air Max 1 死亡之吻,即將回歸的消息!可惜當時並未公布該雙鞋款到何時回歸,不過最近網絡又再度流出關於「死亡之吻」相關的發售資訊,不僅如此,這次回歸還將加碼推出新配色,推出後勢必造成搶購熱潮~「死亡之吻」是陳冠希所主理的潮流品牌CLOT與大陸球鞋店ACU合作推出的鞋款,也是鞋壇史上第一雙使用中國元素的Air Max球鞋,大膽將中醫穴位的概念印製在鞋墊內,並加上透明PVC材質拼接的鞋面,更凸顯整雙鞋與眾不同之處
  • 從數學到實現,全面回顧高斯過程中的函數最優化
    高斯過程可以被認為是一種機器學習算法,它利用點與點之間同質性的度量作為核函數,以從輸入的訓練數據預測未知點的值。本文從理論推導和實現詳細地介紹了高斯過程,並在後面提供了用它來近似求未知函數最優解的方法。
  • 「隨著」到底是as還是with?【糾誤篇】
    寫科技論文時,也往往需要表達「隨著某個因素的某種變化」這層意思,比如:隨著時間的延長隨著溫度的上升隨著催化劑擔載量的提高甚至還可能是更虛化的一些過程,比如:每當這個時候,有些童鞋可能就開始>犯糊塗:表達「隨著」這個詞,到底應該用as還是with?
  • 被譽為日本國寶的吉原義人,作為一名刀匠,到底有什麼過人之處?
    文案策劃、監製:袁載譽;文案:龍思屹 在當今社會,到處都在提倡要有工匠精神。 那麼,什麼是工匠精神呢? 工匠精神顧名思義,最初是指的工匠的那種追求極致的精神,後來引申為一種高尚的職業道德、能力、品質。
  • 何同學「時間鎖」接了誰的梗?小米一加OPPO都玩過了
    時隔多月,何同學又攜帶新作品《【何同學】這視頻能讓你戒手機》再次站上了B站日榜榜首位置,與此同時#何同學減少手機使用的方法# 也擠入了熱搜榜,他為減少手機使用時間而設置的「時間鎖」APP更是被網友瘋狂下載。