深度學習必懂的13種概率分布

2021-01-09 雷鋒網

作為機器學習從業者,你需要知道概率分布相關的知識。這裡有一份最常見的基本概率分布教程,大多數和使用 python 庫進行深度學習有關。

概率分布概述

共軛意味著它有共軛分布的關係。在貝葉斯概率論中,如果後驗分布 p(θx)與先驗概率分布 p(θ)在同一概率分布族中,則先驗和後驗稱為共軛分布,先驗稱為似然函數的共軛先驗。共軛先驗維基百科在這裡。

多分類表示隨機方差大於 2。n 次意味著我們也考慮了先驗概率 p(x)。為了進一步了解概率,我建議閱讀 [pattern recognition and machine learning,Bishop 2006]。分布概率與特徵

1.均勻分布(連續)

代碼:https://github.com/graykode/distribution-is-all-you-need/blob/master/uniform.py

均勻分布在 [a,b] 上具有相同的概率值,是簡單概率分布。

2.伯努利分布(離散)

代碼:https://github.com/graykode/distribution-is-all-you-need/blob/master/bernoulli.py

先驗概率 p(x)不考慮伯努利分布。因此,如果我們對最大似然進行優化,那麼我們很容易被過度擬合。利用二元交叉熵對二項分類進行分類。它的形式與伯努利分布的負對數相同。

3.二項分布(離散)

代碼:https://github.com/graykode/distribution-is-all-you-need/blob/master/binomial.py

參數為 n 和 p 的二項分布是一系列 n 個獨立實驗中成功次數的離散概率分布。二項式分布是指通過指定要提前挑選的數量而考慮先驗概率的分布。

4.多伯努利分布,分類分布(離散)

代碼:https://github.com/graykode/distribution-is-all-you-need/blob/master/categorical.py

多伯努利稱為分類分布。交叉熵和採取負對數的多伯努利分布具有相同的形式。

5.多項式分布(離散)

代碼:https://github.com/graykode/distribution-is-all-you-need/blob/master/multinomial.py

多項式分布與分類分布的關係與伯努爾分布與二項分布的關係相同。

6.β分布(連續)

代碼:https://github.com/graykode/distribution-is-all-you-need/blob/master/beta.py

β分布與二項分布和伯努利分布共軛。利用共軛,利用已知的先驗分布可以更容易地得到後驗分布。當β分布滿足特殊情況(α=1,β=1)時,均勻分布是相同的。

7.Dirichlet 分布(連續)

代碼:https://github.com/graykode/distribution-is-all-you-need/blob/master/dirichlet.py

dirichlet 分布與多項式分布是共軛的。如果 k=2,則為β分布。

8.伽馬分布(連續)

代碼:https://github.com/graykode/distribution-is-all-you-need/blob/master/gamma.py

如果 gamma(a,1)/gamma(a,1)+gamma(b,1)與 beta(a,b)相同,則 gamma 分布為β分布。指數分布和卡方分布是伽馬分布的特例。

9.指數分布(連續)

代碼:https://github.com/graykode/distribution-is-all-you-need/blob/master/exponential.py

指數分布是 α 為 1 時 γ 分布的特例。

10.高斯分布(連續)

代碼:https://github.com/graykode/distribution-is-all-you-need/blob/master/gaussian.py

高斯分布是一種非常常見的連續概率分布。

11.正態分布(連續)

代碼:https://github.com/graykode/distribution-is-all-you-need/blob/master/normal.py

正態分布為標準高斯分布,平均值為 0,標準差為 1。

12.卡方分布(連續)

代碼:https://github.com/graykode/distribution-is-all-you-need/blob/master/chi-squared.py

k 自由度的卡方分布是 k 個獨立標準正態隨機變量的平方和的分布。卡方分布是 β 分布的特例

13.t 分布(連續)

代碼:https://github.com/graykode/distribution-is-all-you-need/blob/master/student-t.py

t 分布是對稱的鐘形分布,與正態分布類似,但尾部較重,這意味著它更容易產生遠低於平均值的值。

via:https://github.com/graykode/distribution-is-all-you-need

雷鋒網雷鋒網雷鋒網

相關焦點

  • 深度學習需要掌握的13個概率分布
    ,是簡單概率分布。/master/bernoulli.py先驗概率 p(x)不考慮伯努利分布。/master/binomial.py參數為 n 和 p 的二項分布是一系列 n 個獨立實驗中成功次數的離散概率分布。
  • 常用概率分布——二項分布分布
    下一篇我們介紹poisson分布。二項分布相對比較好理解:就是在相同的試驗條件下,每次試驗只會隨機出現兩種試驗結果中的任意一個(2種!2種!),因此又稱為Bernoulli試驗(伯努利試驗)。為什麼叫二項分布呢?
  • 深度學習與統計力學(I) :深度學習中的基礎理論問題
    這些見解產生了深度學習與各種物理和數學主題之間的聯繫,包括隨機曲面、自旋玻璃、幹擾、動態相變、混沌、黎曼幾何、隨機矩陣理論、自由概率和非平衡統計力學。事實上,統計力學和機器學習領域長期以來都有著豐富的強耦合相互作用的歷史,而統計力學和深度學習交叉點的最新進展表明,這些相互作用只會加深未來的發展。
  • 深度學習 vs. 概率圖模型 vs. 邏輯學
    【編者按】在上個月發表博客文章《深度學習 vs. 機器學習 vs. 模式識別》之後,CMU博士、MIT博士後及vision.ai聯合創始人Tomasz Malisiewicz這一次帶領我們回顧50年來人工智慧領域三大範式(邏輯學、概率方法和深度學習)的演變歷程。通過本文我們能夠更深入地理解人工智慧和深度學習的現狀與未來。
  • AP統計沒煩惱:解析最經典的三種概率分布|統計概率
    首先對看到這篇文章的同學們提一個問題:從小到大你們有沒有因為某幾次考試考得不好而懷疑自己不是學習的料?今天我們來科普一下在概率論當中非常典型的三種概率分布:分別叫做伯努利分布、二項分布以及正態分布。通過這三種分布的關係來跟大家分析一下考試好壞到底何天賦有何關係。
  • 收米小技巧:泊松分布 下篇如何計算比分波膽概率
    前言小敘 在上一篇我們主要學習了 泊松分布 公式模型的大小球分析法,這個方法也相對簡單實用,相信看過文章的彩民朋友都已經學會了,在以後面對大小盤無從下手的時候
  • 每個數據科學家都應該知道的5種概率分布
    在某種程度上,大多數其他數據科學或機器學習技能都基於對數據概率分布的某些假設。這使得概率知識成為統計學家構建工具箱的基礎。如果您正在尋找如何成為數據科學家的第一步。不用多說,讓我們切入正題。什麼是概率分布?在概率論和統計學中,隨機變量是一個隨機值的東西,比如「我看到的下一個人的身高」。
  • 通俗理解:概率分布函數、概率密度函數
    從公式上來看,概率函數一次只能表示一個取值的概率。比如P(X=1)=1/6,這代表用概率函數的形式來表示,當隨機變量取值為1的概率為1/6,一次只能代表一個隨機變量的取值。接下來講概率分布,顧名思義就是概率的分布,這個概率分布還是講概率的。我認為在理解這個概念時,關鍵不在於「概率」兩個字,而在於「分布」這兩個字。為了理解「分布」這個詞,我們來看一張圖。
  • 語音識別 AI 挑戰賽上線:用深度學習三種結構,對 50 種環境聲音...
    深度學習與語音識別在目前大多數語音識別應用中,深度學習是較為常見的一種方法。語言按一定的短語規則和句子規則生成深層結構 (語義介入),而深層結構經轉換規則處理後變成表層結構 (語音介入),於是轉換為了人類看得見聽得懂的話語。而生成深層結構則是使得機器能夠通過學習觀測數據高階相關性,或觀測數據和關聯類別之間的統計特徵分布來實現模式分類,從而轉換為機器可以識別語言的一類深層結構。
  • 深度學習入門:淺析卷積神經網絡
    至今已有數種深度學習方法,如卷積神經網絡(CNN)、自編碼神經網絡(包括Auto encoder和Sparse Coding)和深度置信網絡(DBN),並在各個領域中取得了極好的效果。根據廣義線性模型的假設,所給模型在給定x的條件下y的分布,通過最大化似然函數來求解最優參數,計算K個概率進行分類。
  • 從貝葉斯定理到概率分布:綜述概率論基本定義
    第一部分將會介紹概率論基礎知識。概率我們已經擁有十分強大的數學工具了,為什麼我們還需要學習概率論?我們用微積分來處理變化無限小的函數,並計算它們的變化。我們使用代數來解方程,我們還有其他幾十個數學領域來幫助我們解決幾乎任何一種可以想到的難題。難點在於我們都生活在一個混亂的世界中,多數情況下無法準確地測量事物。
  • 關於深度學習你必須知道的幾個信息理論概念
    資訊理論可以看作是微積分、概率論和統計學這些深度學習基本組成部分的複雜融合。相反,他根據概率分布和"不確定性"來量化信息。香農還引入了「bit」這個詞,這一革命性的想法不僅奠定了資訊理論的基礎,而且為人工智慧等領域的進步開闢了新的途徑。下面將討論深度學習和數據科學中四種流行的,廣泛使用的和必須已知的資訊理論概念:熵也可以稱為信息熵或香農熵。
  • 語音識別 AI 挑戰賽上線:用深度學習三種結構,對 50 種環境聲音分類!
    這不,難度再次升級的「50 種環境聲音分類」的語音識別挑戰賽,來了!深度學習與語音識別在目前大多數語音識別應用中,深度學習是較為常見的一種方法。根據深層神經網絡的構造方式、訓練方法等因素,我們將深度學習分為了 3 大類別:生成深層結構、判別深層結構以及混合深層結構。
  • scipy 常見統計檢驗與概率分布
    常用函數cdf:隨機變量的累積分布函數,是概率密度函數的積分,即概率值pfit:對一組隨機取樣進行擬合,找出最適合取樣數據的概率密度函數的係數二項分布伯努利試驗(Bernoulli experiment)是在同樣的條件下重複地、相互獨立地進行的一種隨機試驗,其特點是該隨機試驗只有兩種可能結果:發生或者不發生。
  • 深度學習助力數據壓縮,一文讀懂相關理論
    除去以統計概率為基礎的方法外,經典的數據壓縮方法還包括基於字典模型的壓縮技術,例如 LZ77、LZ78、LZW 等,以及熵編碼 (Entropy Encoding),遊程編碼 (Run-Length Encoding) 等。我們在日常中經常用到的數據壓縮的工具基本都是上述幾種經典方法的變種、組合或優化,很少有單獨使用某一種技術。
  • 深度| 理解深度學習中的卷積
    以下是正文:卷積現在可能是深度學習中最重要的概念。正是靠著卷積和卷積神經網絡,深度學習才超越了幾乎其他所有的機器學習手段。但卷積為什麼如此強大?它的原理是什麼?在這篇博客中我將講解卷積及相關概念,幫助你徹底地理解它。網絡上已經有不少博客講解卷積和深度學習中的卷積,但我發現它們都一上來就加入了太多不必要的數學細節,艱深晦澀,不利於理解主旨。
  • 考研數學一概率論與數理統計學習計劃
    注意:本計劃對應習題涵蓋在以下教材中:        《概率論與數理統計》第三版浙江大學 盛 驟 謝式千 潘承毅 編高等教育出版社        複習計劃使用說明:        (1) 學習時間是針對複習知識點在大綱中的要求而建議應該使用的學習時間,平時如果學習時間不夠
  • 在深度學習中對正則化的直觀認識
    開發複雜函數深度學習的核心原則之一是深度神經網絡作為通用函數逼近的能力。無論你感興趣的是什麼,疾病傳播,自動駕駛汽車,天文學等,都可以通過一個自學習模型來壓縮和表達,這種想法絕對是令人驚奇的!儘管你感興趣的問題實際上是是否可以用解析函數f來表示這些問題,但當你通過訓練來調整機器學習模型時,該模型採用的參數θ允許模型近似地學習 f*。
  • 必考知識點,CFA一級數量分析-常見概率分布-上
    「學習應該應用於實踐,實踐讓你的迷惑茅塞頓開。接下來,我們開始介紹概率分布相關的概念。概率分布(probability distribution):某一個事情有多個可能的結果,每一個結果發生,都各自對應一個概率。發生的結果和其概率的函數關係就叫做概率分布。
  • 論強化學習和概率推斷的等價性:一種全新概率模型
    然強化學習問題的一般形式可以有效地推理不確定性,但強化學習和概率推斷的聯繫並不是很明顯。在本文中,UC Berkeley EECS 助理教授 Sergey Levine 提出了一種新的概率模型和理論框架,證明了強化學習的一般形式即最大熵強化學習與概率推斷的等價性。