非參數貝葉斯統計:Dirichlet過程

2021-02-20 成吉思涵哥

50年前,UCLA數學系教授Ferguson在Annals of stats上發表12頁的論文:some analysis of nonparametric Bayesian statistics。此篇具有劃時代意義的論文第一次提出了「Dirichlet過程」並將它應用在了密度估計,分布函數估計等領域。自此,非參數貝葉斯統計學開始蓬勃發展。1974年,Ferguson博士又應邀在Annals of stats上發文「priors on spaces of probability measures」。這又是一篇重量級的論文,此論文總結了諸多在概率空間上構造先驗的方法(簡單滴講,即概率之概率)。

20年後的1994年,由Sethuraman等人提出了Dirichlet過程的等價定義,它們的構造方法用到了所謂的「斷棍構造」(stick-breaking construction)。自此,Dirichlet過程被瘋狂應用於聚類方法。

舉個例子,一個生物學家搞到了300個動物標本,其中大約有45個不同的物種,然而顯然物種個數遠超45個(有諸多瀕危動物是此生物學家無法搞到標本的)。因此,在聚類時,K將會遠遠大於45,甚至遠大於300,但數據有限(N=300),如何從有限的數據量來聚K可能為很大的類呢?Dirichlet過程混合模型提供了這種小N大K問題的解決範式。

又過了10年,在21世紀之初,由吳恩達,Michael Jordan等人提出了「層次Dirichlet過程」並將他應用在了自然語言處理領域,謂之「基於層次Dirichlet過程的Topic modelling」。之後,Michael Jordan逐漸成為非參數領域的權威人士,近年來,他及一群研究人員提出了所謂「MAD Bayes」的框架(我還沒仔細讀)。

總而言之,Dirichlet過程的應用正逐步被我們發掘出來,希望日後這些高深複雜的概率模型能以更加直觀的方式出現在我們面前,為更多人所用。老一輩的Ferguson博士早已退休,Michael Jordan也是花甲之年,數風流人物,還看Deep AR兼COVID 19 EDA大佬飄特Entropy-penalized框架創始人卡弗裡希裡亞諾等新一代生力軍也。

相關焦點

  • 傳說中的貝葉斯統計到底有什麼來頭?
    貝葉斯統計在機器學習中佔有一個什麼樣的地位,它的原理以及實現過程又是如何的?現在讓我們進一步了解:通過擲硬幣的例子我們就會明白頻率統計,目的是估計拋硬幣的公平性,下表是代表拋硬幣過程中頭在上的次數:我們知道在公平的擲硬幣過程中得到一個頭在上的那概率為
  • 介紹利用貝葉斯統計的一個實踐案例
    介紹利用貝葉斯統計的一個實踐案例 李倩 發表於 2018-07-16 17:14:59 為了大家可以對貝葉斯算法有更多的了解,人工智慧頭條為大家整理過一篇關於貝葉斯算法的文章
  • 貝葉斯及概率統計角度
    而當小孩子看到一隻貓時說,「這是一隻狗」時,他父母會糾正他說,「這是一隻貓,不是一隻狗」,這是在主動學習過程中給出負例的情形。心理研究表明,人在學習概念時往往只是來源於正例數據。理解一個詞的含義等同於概念學習,同時也等同於二元分類。即當輸入數據時一個概念的樣例時,定義f(x)=1;否則f(x)=0。
  • 貝葉斯和貝葉斯公式
    貝葉斯在數學方面主要研究概率論。他首先將歸納推理法用於概率論基礎理論,並創立了貝葉斯統計理論,對於統計決策函數、統計推斷、統計的估算等做出了貢獻。貝葉斯決策就是在不完全情報下,對部分未知的狀態用主觀概率估計,然後用貝葉斯公式對發生概率進行修正,最後再利用期望值和修正概率做出最優決策。貝葉斯決策理論方法是統計模型決策中的一個基本方法,其基本思想是:1、已知類條件概率密度參數表達式和先驗概率。2、利用貝葉斯公式轉換成後驗概率。3、根據後驗概率大小進行決策分類。
  • 天文學家求助「貝葉斯統計」
    新華社北京7月24日新媒體專電 外媒稱,近年來,一些天文學家嘗試利用一種被稱為貝葉斯統計的複雜分析形式,為宇宙中存在地外生命和智能的說法提供更多經驗依據。據《科學美國人》月刊網站7月16日報導,他們重點關注兩大未知數:類地行星上生命從無生命環境中誕生——這一過程被稱作生命起源——的概率,以及由此出現智能的概率。
  • 人人都可以當賭神的秘密:用Python學習神奇的貝葉斯統計
    貝葉斯統計是個神鳥呢?數學家貝葉斯,在200多年前寫的《機會學說中一個問題的解》這本書中提過個觀點,他說,支持某項屬性的事件發生得愈多,則該屬性成立的可能性就愈大。簡言之,如果你看到一個人總是做一些好事,那個人多半會是個好人。很好理解對吧?下面就從一個簡單的例子入手,來進一步理論結合Python學習如何進行貝葉斯統計。
  • 用Python貝葉斯統計試試
    貝葉斯統計的概念很簡單,有一些固定的數據(固定的意思是指我們無法改變觀測值),和一些感興趣的參數,剩下要做的就是探索這些參數可能的取值,其中所有的不確定性都通過概率進行建模。說句白話,能夠用已有的資料做基礎,嘗試預測未來。
  • 條件概率與貝葉斯統計
    迄今為止,我們使用的統計方法在統計學中都稱為頻率論方法。我們從樣本中得出的結論完全基於數據的頻率或比例。
  • 科普| 貝葉斯概率模型一覽
    雷鋒網按:本文出自美圖數據研究院什麼是貝葉斯概率模型?機器學習狹義上是指代統計機器學習,如圖 1 所示,統計學習根據任務類型可以分為監督學習、半監督學習、無監督學習、增強學習等。圖 1在每類任務中,又可以將各類模型歸結為概率模型和非概率模型,以下以監督學習為例說明。
  • 【乾貨】為機器學習從業人員提供的貝葉斯學習核心路線
    貝葉斯統計是統計的一個分支,它的特點是把我們感興趣的量(比如統計模型的參數)看作隨機變量。給定觀察數據後, 我們對這些量的後驗分布進行分析從而得出結論。雖然貝葉斯統計的核心思想已歷經很多年了, 但貝葉斯的思想在過去近20年對機器學習產生了重大影響, 因為它在對真實世界現象建立結構化模型時提供了靈活性。
  • 貝葉斯機器學習到底是什麼?看完這篇你就懂了
    從數據中推斷模型參數在貝葉斯機器學習中,我們同樣採用貝葉斯公式從data(D)中推導模型參數(θ)。P(θ|D) = P(D|θ) * P(θ) / P(data)值得說明的是,P(data)在通常情況下無法被計算,但這並不會帶來什麼問題。
  • 統計建模的理論和方法
    成功的統計建模可以儘可能完整的模擬出數據生成過程中變量的隨機性,進而幫助人們有效的估計該過程的核心參數值,並作出針對核心參數值的概率性決策。什麼是統計模型? 根據參數空間的數學性質,統計模型又可以被分為兩類模型:參數統計模型(parametric statistical model) 和 非參數統計模型 (non-parametric statistical
  • 使用非參數統計檢驗進行分析的指南
    統計檢驗用於制定決策。為了使用中位數進行分析,我們需要使用非參數檢驗。非參數測試是分布獨立的檢驗,而參數檢驗假設數據是正態分布的。說參數檢驗比非參數檢驗更加的臭名昭著是沒有錯的,但是前者沒有考慮中位數,而後者則使用中位數來進行分析。接下來我們就進入非參數檢驗的內容。**注意:**本文假定你具有假設檢驗,參數檢驗,單尾檢驗和雙尾檢驗的先決知識。
  • 透徹理解貝葉斯推理
    前邊在文章透徹理解最大似然估計,闡述如何理解最大似然進行參數估計,本文將討論使用貝葉斯推理進行參數估計。我還將展示如何將此方法視為最大似然的概括,以及在何種情況下這兩種方法是等價的。貝葉斯定理在介紹貝葉斯推理之前,有必要理解貝葉斯定理。貝葉斯定理真的很酷。
  • 貝葉斯線性回歸在期貨交易中的應用
    貝葉斯方法簡介  貝葉斯方法提供了一種通過計算假設概率來預測未來概率的方法,這種方法是基於假設的先驗概率、給定假設下觀察到不同數據的概率以及觀察到的數據本身而得出的。 其方法為,將關於未知參數的先驗信息與樣本信息綜合,再根據貝葉斯公式,得出後驗信息,然後根據後驗信息去推斷未知參數的方法,再由此推斷出未來待預測變量的概率分布。
  • 數學之美:貝葉斯優化
    那麼,到底是什麼讓它成為貝葉斯的呢?貝葉斯統計和建模的本質是根據新的信息更新前(前)信念,以產生一個更新的後('後')信念。這正是本案例中代償優化的作用,所以可以通過貝葉斯系統、公式和思想來最好地表示。讓我們仔細看看代用函數,通常用高斯過程來表示,它可以被認為是擲骰子,返回與給定數據點(如sin、log)擬合的函數,而不是1到6的數字。
  • 一文讀懂貝葉斯推理問題:MCMC方法和變分推斷
    即,統計推斷是基於一個總體或一些樣本中的某些觀察變量(通常是影響)得出結論的過程,例如關於總體或樣本中某些潛在變量(通常是原因)的準時估計、置信區間或區間估計等。而貝葉斯推理則是從貝葉斯的角度產生統計推斷的過程。
  • 入門| 貝葉斯線性回歸方法的解釋和優點
    本文對比了頻率線性回歸和貝葉斯線性回歸兩種方法,並對後者進行了詳細的介紹,分析了貝葉斯線性回歸的優點和直觀特徵。我認為貝葉斯學派和頻率學派之間的紛爭是「可遠觀而不可褻玩」的學術爭論之一。與其熱衷於站隊,我認為同時學習這兩種統計推斷方法並且將它們應用到恰當的場景之下會更加富有成效。
  • 貝葉斯優化之美:精妙算法背後的直覺
    讓我們來欣賞一下貝葉斯優化之美。它不做任何關於函數的假設(除了首先假設它本身是可優化的),不需要關於導數的信息,並且能夠巧妙地使用一個不斷更新的近似函數來使用常識推理,對原始目標函數的高成本評估根本不是問題。這是一種基於替代的優化方法。所以,貝葉斯理論到底是什麼呢?貝葉斯統計和建模的本質是根據新信息更新之前的函數(先驗函數),產生一個更新後的函數(後驗函數)。
  • 擬合目標函數後驗分布的調參利器:貝葉斯優化
    如何優化機器學習的超參數一直是一個難題,我們在模型訓練中經常需要花費大量的精力來調節超參數而獲得更好的性能。因此,貝葉斯優化利用先驗知識逼近未知目標函數的後驗分布從而調節超參數就變得十分重要了。本文簡單介紹了貝葉斯優化的基本思想和概念,更詳細的推導可查看文末提供的論文。超參數超參數是指模型在訓練過程中並不能直接從數據學到的參數。