數學之美:貝葉斯優化

2021-01-11 雷鋒網

字幕組雙語原文：數學之美：貝葉斯優化

英語原文：The Beauty of Bayesian Optimization, Explained in Simple Terms

翻譯：季一帆、Icarus、

問題定義：給定函數f(x)，該函數計算成本高、甚至可能不是解析表達式，同時假定函數導數未知。

你的任務：找到函數得全局最小值。

這無疑是一項艱巨的任務，比機器學習中的其他優化問題還要困難。一般得優化問題可以通過以下三種方式求解：

梯度下降方法依賴函數求導，通過數學方法快速估計表達式。函數的評估成本很低得優化場景下，可以在很短時間內獲得輸入x的許多結果，然後使用簡單的網格搜索選擇較好結果。使用粒子群或模擬退火等非梯度優化方法。然而，這些方法並不適用上述定義的問題，對定義問句的優化受到以下幾個方面的限制：

計算成本高。理想情況下，我們可以多次執行函數以確定其最優解，但我們的優化問題中計算過多採樣是不現實的。導數未知。正是因為導數可知，梯度下降及類似方法廣泛應用於深度學習或某些機器學習算法。導數能夠直到優化方向——不幸的是，在我們問題定義中沒有導數。要找到全局最小值，即使對於梯度下降這樣的方法也不是容易的事情。因此，我們的模型需要某種機制避免陷入局部最小值。解決方案：貝葉斯優化。該方法提供了一個優雅的框架可用於來解決上述定義的問題，並且能夠在儘可能少的步驟中找到全局最小值。

讓我們構造一個函數c(x)或者一個接收輸入x的模型，如下圖所示為c(x)的形狀。當然，優化器並不知道該函數，稱之為「目標函數」。

貝葉斯優化通過代理優化的方式來完成任務。一般來說，surrogate mother是指為另一個人生育孩子的代孕婦女——在本文的情況中，則是指目標函數的近似。

代理函數通過採樣點模擬構造（見下圖）。

根據代理函數，我們大致可以確定哪些點是可能的最小值。然後再這些點附近做更多的採樣，並隨之更新代理函數。

每一次迭代，我們都會繼續觀察當前的代用函數，通過採樣了解更多感興趣的區域，並更新函數。需要注意的是，代用函數在數學上的表達方式將大大降低評估成本（例如y=x是一個成本較高的函數的近似值，y=arcsin((1-cosx)/sin x)在一定範圍內）。

經過一定的迭代次數後，我們註定要到達一個全局最小值，除非函數的形狀非常詭異（就是它的上下波動很大很瘋狂），這時應該問一個比優化更好的問題：你的數據有什麼問題？

花點時間驚嘆一下這種方法的妙處。它不對函數做任何假設（除了它首先是可優化的），不需要導數的信息，並且能夠通過巧妙地使用不斷更新的逼近函數來進行常識性的推理。我們原來的目標函數的昂貴評估根本不是問題。

這是一種基於代用的優化方法。那麼，到底是什麼讓它成為貝葉斯的呢？

貝葉斯統計和建模的本質是根據新的信息更新前（前）信念，以產生一個更新的後（'後'）信念。這正是本案例中代償優化的作用，所以可以通過貝葉斯系統、公式和思想來最好地表示。

讓我們仔細看看代用函數，通常用高斯過程來表示，它可以被認為是擲骰子，返回與給定數據點（如sin、log）擬合的函數，而不是1到6的數字。這個過程會返回幾個函數，這些函數都附有概率。

左圖：四個數據點的幾個高斯過程生成的函數。右圖：函數匯總。來源：Oscar Knagg，圖片免費分享。

Oscar Knagg的這篇文章對GP的工作原理有很好的直觀認識。

為什麼用高斯過程，而不是其他的曲線擬合方法來模擬代用函數，有一個很好的理由：它是貝葉斯性質的。一個GP是一個概率分布，就像一個事件最終結果的分布（例如拋硬幣的1/2機會），但在所有可能的函數上。

例如，我們可以將當前的數據點集定義為40%可由函數a(x)表示，10%可由函數b(x)表示，等等。通過將代用函數表示為一個概率分布，它可以通過固有的概率貝葉斯過程與新信息進行更新。也許當引入新的信息時，數據只有20%可以用函數a(x)表示。這些變化是由貝葉斯公式來支配的。

這將是很難甚至不可能做到的，比如說，對新數據點進行多項式回歸擬合。

代用函數--表示為概率分布，即先驗--被更新為 "獲取函數"。這個函數負責在勘探和開發的權衡中提出新的測試點。

剝削力求在代用模型預測的目標好的地方採樣。這就是利用已知的有希望的點。但是，如果我們已經對某一區域進行了足夠的探索，那麼不斷地利用已知的信息就不會有什麼收穫。探索力求在不確定性較高的地點進行採樣。這就確保了空間的任何主要區域都不會未被探索--全局最小值可能恰好就在那裡。

一個鼓勵過多的開發和過少探索的獲取函數將導致模型只停留在它首先發現的最小值（通常是局部的--"只去有光的地方"）。一個鼓勵相反的獲取函數將不會首先停留在一個最小值，本地或全球。在微妙的平衡中產生良好的結果。

acquisition 函數，我們將其表示為a(x)，必須同時考慮開發和探索。常見的獲取函數包括預期改進和最大改進概率，所有這些函數都是在給定先驗信息（高斯過程）的情況下，衡量特定投入在未來可能得到回報的概率。

讓我們把這些東西整合起來。貝葉斯優化可以這樣進行。

1.初始化一個高斯過程 "代用函數 "的先驗分布。

2.選擇幾個數據點x，使在當前先驗分布上運行的獲取函數a(x)最大化。

3.評估目標成本函數c(x)中的數據點x，得到結果，y。

4.用新的數據更新高斯過程先驗分布，以產生一個後驗（它將成為下一步的先驗）。

5.重複步驟2-5進行多次迭代。

6.解釋當前的高斯過程分布（這是非常便宜的），以找到全局最小值。

貝葉斯優化就是把概率論的思想放在代入優化的思想後面。這兩種思想的結合創造了一個強大的系統，從醫藥產品的開發到自主汽車，都有很多應用。

但在機器學習中，最常見的是貝葉斯優化用於超參數優化。例如，如果我們要訓練一個梯度提升分類器，從學習率到最大深度再到最小雜質分割值，有幾十個參數。在這種情況下，x代表模型的超參數，c(x)代表模型的性能，給定超參數x。

使用貝葉斯優化的主要動機是在評估輸出非常昂貴的情況下。首先，需要用參數建立整個樹的合集，其次，它們需要通過多次預測來運行，這對於合集來說是非常昂貴的。

可以說，神經網絡評估給定參數集的損失更快：簡單的重複矩陣乘法，速度非常快，尤其是在專用硬體上。這也是使用梯度下降的原因之一，它使反覆查詢了解其走向。

綜上所述：

代用優化利用代用函數或近似函數通過抽樣來估計目標函數。貝葉斯優化將代用優化置於概率框架中，將代用函數表示為概率分布，可以根據新的信息進行更新。獲取函數用於評估在當前已知的先驗條件下，探索空間中某一點會產生 "好 "收益的概率，平衡探索與開發主要在目標函數評估成本很高的時候使用貝葉斯優化，常用於超參數調整。(這方面有很多庫，比如HyperOpt)。感謝您的閱讀!

雷鋒字幕組是一個由AI愛好者組成的翻譯團隊，匯聚五五多位志願者的力量，分享最新的海外AI資訊，交流關於人工智慧技術領域的行業轉變與技術創新的見解。

團隊成員有大數據專家，算法工程師，圖像處理工程師，產品經理，產品運營，IT諮詢人，在校師生；志願者們來自IBM，AVL，Adobe，阿里，百度等知名企業，北大，清華，港大，中科院，南卡羅萊納大學，早稻田大學等海內外高校研究所。

如果，你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起，學習新知，分享成長。

相關焦點

貝葉斯優化之美:精妙算法背後的直覺

當然，這個任務挺難的，比機器學習中的其他優化問題要難得多。例如，梯度下降可以獲得函數的導數，並利用數學捷徑來更快地計算表達式。另外，在某些優化場景中，函數的計算成本很低。如果可以在幾秒鐘內得到數百個輸入值x的變量結果，簡單的網格搜索效果會更好。另外，還可以使用大量非傳統的非梯度優化方法，如粒子群算法或模擬退火算法（simulated annealing）。
數學之美——貝葉斯網絡 (Bayesian Networks)

我們可以把上述的有向圖看成一個網絡，它就是貝葉斯網絡。其中每個圓圈表示一個狀態。當然，這些關係可以有一個量化的可信度 (belief)，用一個概率描述。我們可以通過這樣一張網絡估計出一個人的心血管疾病的可能性。在網絡中每個節點概率的計算，可以用貝葉斯公式來進行，貝葉斯網絡因此而得名。由於網絡的每個弧有一個可信度，貝葉斯網絡也被稱作信念網絡 (belief networks)。和馬爾可夫鏈類似，貝葉斯網絡中的每個狀態值取決於前面有限個狀態。
巧妙算法背後的直覺:淺談貝葉斯優化之美

毫無疑問，這是一個非常燒腦的任務，比機器學習所有的優化問題都燒腦，畢竟機器學習中的梯度下降就默認了導數可得。在其他優化問題下，能夠採用的方法非常多，即使不用梯度下降，粒子群或模擬退火等非梯度優化方法也是解決方案之一。再者，如果能夠以較低的計算成本得到輸入變量x的結果，那麼也能夠用簡單的網格搜索，從而得到良好的效果。
數學之美:貝葉斯公式估算災備切換概率

數學之美，在於使人一頭霧水詩歌之美，在於煽動男女出軌年少無知，不懂你的美狗日的中年，開始寫詩，編程，發現你的美災備，這麼冷門的詞彙，很多人覺得無趣然，災備也可以很有意思最近剛好在看數學相關的書看到一些有趣的理論，前面結合Python和自然語言處理用了一些今天繼續，
詳解凸優化、圖神經網絡、強化學習、貝葉斯方法等四大主題

2020-11-23 20:23:27　來源: 算法與數學之美舉報
擬合目標函數後驗分布的調參利器:貝葉斯優化

本文由機器之心編輯，「機器之心」專注生產人工智慧專業性內容，適合開發者和從業者閱讀參考。點擊右上角即刻關注。如何優化機器學習的超參數一直是一個難題，我們在模型訓練中經常需要花費大量的精力來調節超參數而獲得更好的性能。因此，貝葉斯優化利用先驗知識逼近未知目標函數的後驗分布從而調節超參數就變得十分重要了。
具有貝葉斯優化的XGBoost和隨機森林

貝葉斯優化是一種優化功能的技術，其評估成本很高。它建立目標函數的後驗分布，並使用高斯過程回歸計算該分布中的不確定性，然後使用獲取函數來決定採樣的位置。貝葉斯優化由兩個主要組成部分組成：用於對目標函數建模的貝葉斯統計模型和用於決定下一步採樣的採集函數。
數學背後的價值——讀《數學之美》

數學可能是大多數學生最頭疼的科目，因為其要求抽象思維能力較高，也就是從枯燥的表達方式背後思考邏輯所在，並且這種邏輯會隨著情景的變化而不斷變化，這也導致了離開校園之後，多數人忽略了數學這門學科，韓寒說的數學學到初二就夠了，能算帳就行了，當然對於一般日常用是足夠的，但是對於想要與眾不同的人來說
大學生學數學不容錯過的《數學之美》

統計方法、統計語言模型、中文信息處理、隱含馬爾科夫模型、布爾代數、圖論、網頁排名技術、資訊理論、動態規劃、餘弦定理、矩陣運算、信息指紋、密碼學、搜索技術、數學模型、最大熵模型、拼音輸入法、貝葉斯網絡、句法分析、維特比算法、各個擊破算法等。
貝葉斯定理：AI 不只是個理科生 | 贈書

可在貝葉斯的眼中，這種可信度也不過2%。原因無它，5%的誤報率在醫學界可謂非常高了。別看表面的數據，我們要相信貝葉斯的數學結論。看似冷酷的貝葉斯定理會溫柔的安慰你：別怕，不到2%的概率。還想聽更多關於數學、AI知識？由量子學派打造的《公式之美》來了！內容簡介：人類發明數學公式，來描繪浩瀚宇宙和人生百態。世界的繁華秀麗，映襯出符號公式的簡潔之美。
貝葉斯和貝葉斯公式

貝葉斯在數學方面主要研究概率論。他首先將歸納推理法用於概率論基礎理論，並創立了貝葉斯統計理論，對於統計決策函數、統計推斷、統計的估算等做出了貢獻。貝葉斯的另一著作《機會的學說概論》發表於1758年。貝葉斯所採用的許多術語被沿用至今。貝葉斯思想和方法對概率統計的發展產生了深遠的影響。今天，貝葉斯思想和方法在許多領域都獲得了廣泛的應用。從二十世紀20~30年代開始，概率統計學出現了「頻率學派」和「貝葉斯學派」的爭論，至今，兩派的恩恩怨怨仍在繼續。貝葉斯決策理論是主觀貝葉斯派歸納理論的重要組成部分。
深度學習貝葉斯,這是一份密集的6天速成課程(視頻與PPT)

貝葉斯方法研究團隊已經開發了一系列的大學課程，包括貝葉斯方法、深度學習、優化以及概率圖模型，擁有大量的教學經驗。學生該夏季課程面向：本科生（最好已完成至少兩年的大學課程），以及擁有很強數學背景、具備足夠機器學習知識（包括深度學習）的碩士生。想要擴展知識和技能的機器學習領域或相關領域研究者和行業專家。
貝葉斯定理

近日，中金所進一步優化股指期貨交易運行，今年以來，股市漲勢喜人。不過，從維護資本市場穩定的角度看，股市越上漲，投資者越需要有行之有效的套期保值和管理風險工具。此前有業內人士將期貨交易比喻為「賭博」，而貝葉斯定理或許是個提高獲勝率的好辦法。
DeepMind貝葉斯優化調參AlphaGo,自弈勝率大漲16.5%

研究人員使用貝葉斯優化作為自動調參解決方案，效果明顯，自對弈測試中的勝率從50%提高至66.5%，這下人類更沒法下了。在AlphaGo的開發過程中，它的許多超參數都經過多次貝葉斯優化調整。這種自動調參過程使其棋力顯著提高。在與李世乭的比賽之前，我們調整了最新的AlphaGo的參數，並在自弈對局測試中將勝率從50％提高到66.5％。這個經過調整的版本在最後一局比賽中應用。
2021考研數學備考指導:概率統計淺析貝葉斯公式及其應用

2021考研數學備考指導:概率統計淺析貝葉斯公式及其應用 2021考研已經進入緊張的備考強化階段，考生務必要重視，打好基礎，為將來做準備！
貝葉斯與貝葉斯公式

貝葉斯是一位與著名的牛頓同時代的牧師，同時是一位業餘數學家（數學在天才眼裡儼然成為了副業），平時就思考些有關上帝的事情。當時貝葉斯發現了古典統計學存在的一些缺點，從而提出了自己的一套貝葉斯統計學理論。貝葉斯的理論是基於條件概率的理論上的，所以讓我們來簡單看看條件概率是個什麼東西。比如我們擲一個骰子，得到1點的概率當然是1/6。
科普| 貝葉斯概率模型一覽

雷鋒網按：本文出自美圖數據研究院什麼是貝葉斯概率模型？機器學習狹義上是指代統計機器學習，如圖 1 所示，統計學習根據任務類型可以分為監督學習、半監督學習、無監督學習、增強學習等。圖 1在每類任務中，又可以將各類模型歸結為概率模型和非概率模型，以下以監督學習為例說明。
數學的美在於數學思想深刻之美

數學教育學報2011年第4期數學的美在於數學思想深刻之美顧沛（南開大學數學科學學院，天津 300071）關鍵詞：數學美；數學思想；數學文化南開大學的數學文化課程，從2001年2月開設，至今已經10年了．數學文化課受到廣大學生的歡迎
透徹理解貝葉斯推理

數學定義數學貝葉斯定理定義為：其中A和B是事件，P（A | B）是B事件在事件A已經發生時發生的條件概率（P（B | A）具有類似的含義，但A和B的作用相反）和P（A）和P（B）分別是事件A和事件B的邊際概率。舉例數學定義通常會覺得太抽象和可怕，所以讓我們試著通過一個例子來理解這一點。
數學的解法之美、結論之美、繪圖之美、體驗之美

數學之美是指從數學裡得出的美學。有數學家從數學中得到美的愉悅，形容數學是一種藝術形式，或是一種創造力活動，就如音樂和詩歌。伯特蘭·羅素以下列文字形容他心中的數學之美："數學，正確看待時，不僅具有真理，還具有至高的美-一種冷而嚴峻的美，一種屹立不搖的美，如雕塑一般，一種不為我們軟弱天性所動搖的美。

數學之美:貝葉斯優化

相關焦點

貝葉斯優化之美:精妙算法背後的直覺

數學之美——貝葉斯網絡 (Bayesian Networks)

巧妙算法背後的直覺:淺談貝葉斯優化之美

數學之美:貝葉斯公式估算災備切換概率

詳解凸優化、圖神經網絡、強化學習、貝葉斯方法等四大主題

擬合目標函數後驗分布的調參利器:貝葉斯優化

具有貝葉斯優化的XGBoost和隨機森林

數學背後的價值——讀《數學之美》

大學生學數學不容錯過的《數學之美》

貝葉斯定理：AI 不只是個理科生 | 贈書

貝葉斯和貝葉斯公式

深度學習貝葉斯,這是一份密集的6天速成課程(視頻與PPT)

貝葉斯定理

DeepMind貝葉斯優化調參AlphaGo,自弈勝率大漲16.5%

2021考研數學備考指導:概率統計淺析貝葉斯公式及其應用

貝葉斯與貝葉斯公式

科普| 貝葉斯概率模型一覽

數學的美 在於數學思想深刻之美

透徹理解貝葉斯推理

數學的解法之美、結論之美、繪圖之美、體驗之美

數學的美在於數學思想深刻之美