深度學習貝葉斯,這是一份密集的6天速成課程(視頻與PPT)

2021-01-11 機器之心Pro

選自GitHub

Bayesian Methods Research Group

機器之心整理

在 Deep|Bayes 夏季課程中,授課人將討論貝葉斯方法如何結合深度學習,並在機器學習應用中實現更好的結果。近期研究表明貝葉斯方法的利用可以帶來許多好處。學生將學到對理解當前機器學習研究非常重要的方法和技術。他們還將體會貝葉斯方法和強化學習之間的聯繫,學習神經網絡的現代隨機優化方法和正則化技術。在課程之後,授課人還設置了實踐環節。

項目地址:https://github.com/bayesgroup/deepbayes-2018視頻地址:https://www.youtube.com/playlist?list=PLe5rNUydzV9Q01vWCP9BV7NhJG3j7mz62PPT 地址:https://drive.google.com/drive/folders/1rJ-HTN3sNTvhJXPoXEEhfGlZWtjNY26C

教師

多數講師和助教都是貝葉斯方法研究團隊的成員以及來自世界頂級研究中心的研究者。很多講師曾經在頂級國際機器學習會議例如 NIPS、ICML、ICCV、CVPR、ICLR、AISTATS 等發表過論文。貝葉斯方法研究團隊已經開發了一系列的大學課程,包括貝葉斯方法、深度學習、優化以及概率圖模型,擁有大量的教學經驗。

學生

該夏季課程面向:

本科生(最好已完成至少兩年的大學課程),以及擁有很強數學背景、具備足夠機器學習知識(包括深度學習)的碩士生。想要擴展知識和技能的機器學習領域或相關領域研究者和行業專家。

學習本課程的必備基礎

機器學習的紮實基礎,熟悉深度學習。數學:熟練線性代數和概率論(很重要)。編程:Python、PyTorch 和 NumPy。Deep|Bayes 2018 夏季課程中使用英語,因此學生應該熟悉技術英語。

我在 Deep|Bayes 能學到什麼?

貝葉斯方法為什麼(在機器學習和日常生活中)這麼有用?隨機性到底是什麼?隱變量模型。如何訓練模型識別在訓練前未知的模式?可擴展的概率模型。為什麼將概率推斷問題轉換為優化問題是有用的?強化學習和貝葉斯方法之間的聯繫。如何訓練隨機計算圖?自動 Dropout 率的微調。神經網絡會過擬合嗎?(會的)隨機優化。如何以比計算一個點的函數值更快的速度來優化函數?

該課程的目標是展示在深度學習中使用貝葉斯方法可以擴展其應用範圍,並提升性能。儘管機器學習中有很多不同的問題設定,但貝葉斯網絡的概率推斷可以用相似的方式來解決它們。你,心動了嗎?

課程主要內容

整個課程涉及貝葉斯學習的方方面面,從最基礎的貝葉斯原理到比較難的變分推斷和馬爾可夫鏈蒙特卡洛方法。以下展示了整個課程的主題列表,機器之心將簡要介紹部分課程內容。

第一天:

貝葉斯方法簡介貝葉斯推理隱變量模型和 EM 算法EM 算法

第二天:

隨機優化簡介可擴展貝葉斯方法變分自編碼器狄利克雷隱變量

第三天:

變分推斷高級方法變分推斷視角下的強化學習強化學習分布式強化學習

第四天:

生成模型對抗學習擴展再參數化的技巧

第五天:

高斯過程貝葉斯優化深度高斯過程馬爾可夫鏈蒙特卡洛方法隨機馬爾可夫鏈蒙特卡洛方法

第六天:

貝葉斯神經網絡和變分 Dropout稀疏變分 Dropout 和方差網絡信息瓶頸

整個課程需要六天才能完成,且每一天的的課程量都非常大,因此機器之心只簡要介紹最基本的貝葉斯方法和隱變量模型,其中貝葉斯方法是整個課程的核心思想,而隱變量模型又是生成模型等很多高級方法的基礎。

貝葉斯方法簡介

我們首先圍繞「盲人摸象」的例子來介紹貝葉斯定理,然後簡單描述頻率學派和貝葉斯學派的區別。

1 貝葉斯定理:

首先貝葉斯定理的基本形式為

即後驗=似然度 x 先驗/證據

形式化的樣子是

現在我們開始討論「盲人摸象」問題。

一群「盲人」在摸一頭大象,試圖猜測摸的是什麼東西,然而沒有一個人猜的是正確的。在不確定的世界裡,這就是我們在用概率論理解世界時的樣子。

為簡單起見,我們把問題設置得簡單一些:一群「盲人」在摸一頭大象,並且知道這是一頭大象,他們希望根據摸到的東西猜測大象的重量。

貝葉斯方法是怎麼解決這個問題的呢?

我們假設這些盲人之間會互相交流觀察結果,並且都擁有一定的共同常識,也就是對大象重量的最初猜測:

然後他們可以這樣:

第一個人的觀察結果是摸到了尾巴,以及尾巴的長度 y1,然後重新猜測大象的重量;

第二個人將第一個人的猜測作為先驗,並且觀察結果是摸到了肚子,以及肚子的面積 y2,然後再次猜測大象的重量;

第三個人同理,根據第二個人的猜測,繼續觀察、猜測……

在此過程中,他們一開始的共有常識、大象的猜測重量即先驗 P(x),第一個人的觀察結果即似然度 P(y1|x),觀察結果本身出現的可能性就是證據 P(y1),最後就得到的是 P(x|y1),也就是根據觀察結果 y 得到的大象重量為 x 的可能性(概率分布):

而第二個人在此基礎上,將能得到 P(x|y1,y2):

第三個人將能得到 P(x|y1,y2,y3)……

好了,隨著觀察報告的增加,這頭大象的重量也越來越藏不住了(峰值變得尖銳):

當然,授課人在課程中會很詳細地把概念一步一步講清楚,包括條件分布、聯合分布、邊緣分布之間的關係,以及乘積規則、和規則的介紹,可以把上面這個例子涉及的各個概念串聯起來,幫助學生理解得更加透徹。

2 頻率學派和貝葉斯學派的聯繫和區別:

頻率學派不假設任何的先驗知識,不參照過去的經驗,只按照當前已有的數據進行概率推斷。而貝葉斯學派會假設先驗知識的存在(猜測大象的重量),然後再用採樣逐漸修改先驗知識並逼近真實知識。但實際上,在數據量趨近無窮時,頻率學派和貝葉斯學派得到的結果是一樣的,也就是說頻率方法是貝葉斯方法的極限。

以上就是貝葉斯方法的基礎理論部分的大致內容,之後還有生成、判別模型的區別,貝葉斯訓練過程以及貝葉斯方法優勢的討論。

隱變量模型

前面簡要介紹了貝葉斯方法的核心思想貝葉斯定理,而在這一章節中,Dmitry Vetrov 重點介紹了隱變量模型。隱變量模型是很多複雜方法的基礎,例如在變分自編碼器這一生成模型中,我們希望將圖像壓縮為一系列的隱變量,這些隱變量表示了圖像的高級語義信息,例如圖像主體的傾角、顏色和位置等。

這一部分我們會根據 Dmitry Vetrov 介紹的內容討論隱變量模型的直觀概念、KL 散度、混合分布和變分下界等。

如前所述,VAE 最大的優勢即中間編碼的短向量代表了圖像的某些語義特徵,但又因為我們不能明確地知道具體是哪些圖像特徵,因此我們可以把這個短向量稱之為隱變量。直觀上來說,完全從整體上一個個像素生成圖像是非常困難的,因為我們需要考慮的可能性太多。而如果先決定要生成圖像的特徵,再根據這幅藍圖生成圖像就會容易很多。

VAE 正是這樣,先學習如何將圖像正確地壓縮為一組隱變量,然後再學習如何根據隱變量生成圖像。當模型完成學習後,我們給定任意一組隱變量,模型都會嘗試生成正確的圖像。這也就是隱變量模型的直觀概念。

KL 散度一般作為兩個分布間距離的度量方法,它常用於生成模型的損失函數。以下展示了 KL 散度的直觀理解,即分布 Q(z) 與分布 P(Z) 之間越重合,那麼 KL 散度就越小,兩個分布之間的距離就越近。

在離散型變量的情況下,KL 散度衡量的是,當我們使用一種被設計成能夠使概率分布 Q 產生的消息的長度最小的編碼,發送包含由概率分布 P 產生的符號的消息時,所需要的額外信息量。KL 散度有很多有用的性質,最重要的是它是非負的。KL 散度為 0 若且唯若 P 和 Q 在離散型變量的情況下是相同的分布,或者在連續型變量的情況下是 『幾乎處處』相同的。

隨後 Dmitry Vetrov 展示了隱變量建模的案例,如果我們有一些服從未知高斯分布的樣本,那麼我們可以用最大似然估計或點估計等方法將該未知分布的均值和方差推斷出來。

而現在如果我們假設有一組採自不同高斯分布的樣本,且我們需要估計這些高斯分布的參數。這個問題看上去不能解決,但如果我們知道哪些樣本是從具體哪一個高斯分布中採樣,這個問題就比較容易解決。

但是如果我們不知道樣本是從哪個高斯分布中採樣的,那麼我們就只能使用隱變量模型。它主要的思想即先估計這些樣本屬於哪一個高斯分布,也就是將樣本映射到隱變量「均值」和「方差」。然後再基於隱變量完成對三個高斯分布的建模。

隨後順著這個想法,我們可以構建一個混合高斯模型,並希望將數據編碼為隱變量 Z,再根據該隱變量完成建模。如下所示當我們不知道隱變量 Z 的情況下,最大化從 Z 中採樣出樣本 X 的概率,就能推導出最大化變分下界,這也是變分自編碼器最核心的表達式。

變分自編碼器中最大化變分下界(ELBO)就可以作為整個模型的優化目標,或者說整個模型的損失函數。在上面的案例中,最大化這個變分下界就代表著找出一些高斯分布,且每一個樣本都最可能屬於某個高斯分布。

整個課程介紹了非常多的理論知識,尤其是關於貝葉斯學派的各種理論。如果讀者對數學比較有自信的話,可以詳細學一學該系列教程。

掃描下圖二維碼,參與Arm人工智慧開發者全球峰會↓

相關焦點

  • 學習了!谷歌今日上線基於TensorFlow的機器學習速成課程
    隨著機器學習越來越受到公眾的關注,很多初學者希望能快速了解機器學習及前沿技術。而今天谷歌上線了基於 TensorFlow 的機器學習速成課程,它包含 40 多項練習、25 節課程以及 15 個小時的緊湊學習內容。
  • 面向工程師的最佳統計機器學習課程,Fall 2017 美國聖母大學,28章節詳細講述(附PPT下載,課程目錄視頻)
    and Engineers  涵蓋了統計學習中的幾乎所有重要知識,包括《概率與統計、資訊理論、多維高斯分布、最大後驗估計、貝葉斯統計、指數族分布、貝葉斯線性回歸、蒙特卡洛方法、重要性採樣、吉布斯採樣、狀態空間模型、EM算法、主成分分析、連續隱變量模型、核方法與高斯過程等》,並提供視頻,PPT,課程作業及其參考答案與代碼,還有大量參考學習資源,是不可多得的統計學習課程。
  • 模式識別與機器學習(教學大綱)|向量|貝葉斯|算法|神經網絡_網易訂閱
    以貝葉斯學習思想貫穿始終,並適時與其他重要知識點(如支持向量機、深度學習)等進行交叉和關聯,便於讀者在形成良好知識體系的同時保持對整個領域知識的把握。  全書共14章和4個附錄,循序漸進地剖析模式識別與機器學習領域。
  • 7 Papers & Radios | ACL 2020獲獎論文;貝葉斯深度學習綜述
    在過去十年裡,感知任務已經陸續取得重大進展,比如視覺目標識別以及使用深度學習模型的語音識別。但是,對於更高層次的推理,具有貝葉斯屬性的概率圖模型(Probabilistic Graphical Model, PGM)仍然更加強大和靈活。
  • 機器學習算法集錦:從貝葉斯到深度學習及各自優缺點
    >https://static.coggle.it/diagram/WHeBqDIrJRk-kDDY目錄正則化算法(Regularization Algorithms)集成算法(Ensemble Algorithms)決策樹算法(Decision Tree Algorithm)回歸(Regression)人工神經網絡(Artificial Neural Network)深度學習
  • 12天博士速成是真是假?
    最近韓國留學12天博士速成上了新聞,一時間各大媒體議論紛紛,韓國留學讀博真的那麼簡單麼?這是真的還是造謠的?韓國留學真的可以速成嗎?那些熬夜熬到禿頭、發表做到吐血的日子難道都是不存在的麼?既然提到韓國文憑的含金量,今天博士就跟大家來聊聊,介紹一下韓國留學到底在幹什麼。
  • 這套1600贊的NLP課程已開放,面向實戰,視頻代碼都有丨資源
    這套課程用的是PyTorch和fast.a庫所有的Python代碼都在Jupyter Notebook中,還有全套視頻與你為伴。服用指南直接看課程裡面有什麼乾貨。1、概覽什麼是NLP2、傳統NLP方法佔整個課程三分之一的篇幅,介紹了使用SVD進行主題建模,通過樸素貝葉斯和邏輯回歸、以及正則表達式進行情感分類。
  • 詳解凸優化、圖神經網絡、強化學習、貝葉斯方法等四大主題
    為了迎合時代的需求,我們去年推出了《機器學習高端訓練營》班。這個訓練營的目的很簡單:想培養更多高端的人才,幫助那些即將或者目前從事科研的朋友,同時幫助已從事AI行業的提高技術深度。  在本期訓練營(第四期)中我們對內容做了大幅度的更新,一方面新增了對前沿主題的講解如圖神經網絡(GCN,GAT等),另外一方面對核心部分(如凸優化、強化學習)加大了對理論層面上的深度。
  • 專欄| 貝葉斯學習與未來人工智慧
    貝葉斯定理的相關論文在貝葉斯去世後才發表,此後法國大數學家拉普拉斯對這一理論進行了深入的研究,使之成為我們今天使用的形式,如下圖所示。貝葉斯定理說明在評判現象背後的原因時,不僅要看這個原因的可能性有多大(先驗概率),也要看這一原因產生現象的概率(似然概率)。
  • 選機器學習課程怕踩雷?有人幫你選出了top 5優質課
    如果可以堅持上完整個課程,你將在大約四個月內對機器學習有一個較好的基本了解。之後,你可以再學習感興趣的高階或專項課程,如深度學習、機器學習工程等。這門課程對於新手來說無疑是最好的課程。參考文章:資源 | 吳恩達《機器學習》筆記,哥大研究生獻上二、吳恩達深度學習專項課程該課程同樣是吳恩達開設的。
  • 清華大學朱軍:貝葉斯學習回顧與最新進展| YEF 2020
    作者 | 蔣寶尚  編輯 | 叢 末  6月6日,中國計算機學會(CCF)主辦的中國計算機學會青年精英大會(CCF YEF)在線上舉行,在「經典流傳的機器學習與數據挖掘算法」技術論壇上這個方向下有兩個主題,一個是用貝葉斯做深度學習(Bayesian Deep Learning),另一個是用深度學習做貝葉斯(Deep BayesianLearning)。  貝葉斯方法和深度學習方法的「聯姻」可以追溯到上世紀90年代的甚至更早,當時大家主要研究的是如何用貝葉斯方法進行神經網絡的計算,或者進行神經網絡結構的選擇。
  • 清華大學朱軍:貝葉斯學習回顧與最新進展|YEF 2020
    作者 | 蔣寶尚編輯 | 叢 末6月6日,中國計算機學會(CCF)主辦的中國計算機學會青年精英大會(CCF YEF)在線上舉行,在「經典流傳的機器學習與數據挖掘算法」技術論壇上,明略科技首席科學家、明略科學院院長吳信東;UCLA 副教授孫怡舟;微軟雷蒙德研究院高級研究科學家東昱曉;CCF高級會員、清華大學計算機系長聘教授朱軍;CCF高級會員、中科院計算所研究員沈華偉幾位特邀專家帶領了大家重溫經典
  • 想入門機器學習?機器之心為你準備了一份中文資源合集
    機器之心整理參與:機器之心編輯部機器學習日益廣為人知,越來越多的計算機科學家和工程師投身其中。不幸的是,理論、算法、應用、論文、書籍、視頻等信息如此之多,很容易讓初學者迷失其中,不清楚如何才能提升技能。本文作者依據自身經驗給出了一套快速上手的可行方法及學習資源的分類匯總,機器之心在其基礎上做了增益,希望對讀者有所幫助。
  • 曠視AI天團線上開講《深度學習實踐》 快來get北大同款課程
    最近,曠視研究院與北大數學科學學院機器學習實驗室聯合出品的《深度學習實踐》課程已經正式在B站向全社會免費開放,快來get北大同款課程,成為「學霸」吧!圖:曠視推出《深度學習實踐》課程 面向全社會免費開放事實上,以往的深度學習課程,不管是斯坦福CS系列,還是deepLearning.ai,雖然講得好,但基本上是英文課
  • 斯坦福CS224n《基於深度學習的NLP》課程更新,C.Manning主講
    新智元報導 來源:Stanford編輯:大明【新智元導讀】史丹福大學官方公布cs224n課程《基於深度學習的自然語言處理》詳細安排,主講人為史丹福大學人工智慧實驗室主任,著名計算機科學家Christopher Manning教授,1月份課程閱讀材料已公布。本課程自2017 年起開設,2017年該課程視頻已公開放出。
  • 最低三天拿證 微整形培訓速成班泛濫
    不過,火熱背後,這些速成班真的靠譜嗎?僅通過在速成班學習真的可以為消費者進行微整形項目嗎?業內人士表示,微整形歸屬於醫療行為。根據相關規定,醫療活動從業者必須有《執業醫師資格證》,醫療活動只能在被衛生部批准的醫療機構中進行。消費者在選擇機構時要謹慎,保障自身權益。
  • 吳恩達授課,斯坦福CS230深度學習課程資源開放
    課程簡介:深度學習是 AI 領域中最受歡迎的技能之一。這門課程將幫助你學好深度學習。你將學到深度學習的基礎,理解如何構建神經網絡,並學習如何帶領成功的機器學習項目。你將學到卷積神經網絡(CNN)、循環神經網絡(RNN)、長短期記憶網絡(LSTM)、Adam 優化器、Dropout 方法、BatchNorm 方法、Xavier/He 初始化方法等。
  • 培訓3天就能開店?「零基礎」速成美牙服務,你敢做嗎
    這樣速成的美牙服務,你敢使用嗎?近日,紅星新聞記者注意到,網上有些美牙機構,宣稱「三天速成樹脂貼片全套技術」。記者在網上搜索美牙培訓,留下聯繫方式後,就收到培訓導師發來的「驚喜」。點開學習資料,從植物水光美白、德國全瓷貼片到6D浮雕美白,培訓課程定位不同層次客戶。
  • 機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用...
    共4天8節,講解機器學習和深度學習的模型理論和代碼實踐,梳理機器學習、深度學習、計算機視覺的技術框架,從根本上解決如何使用模型、優化模型的問題;每次課中,首先闡述算法理論和少量公式推導,然後使用真實數據做數據挖掘、機器學習、深度學習的數據分析、特徵選擇、調參和結果比較。
  • 深度學習之視頻人臉識別系列三:人臉表徵
    DeepFace:2014年論文DeepFace: Closing the Gap toHuman-Level Performance in Face Verification提出了DeepFace算法,第一個真正將大數據和深度學習神經網絡結合應用於人臉識別與驗證。