50年前,UCLA數學系教授Ferguson在Annals of stats上發表12頁的論文:some analysis of nonparametric Bayesian statistics。此篇具有劃時代意義的論文第一次提出了「Dirichlet過程」並將它應用在了密度估計,分布函數估計等領域。自此,非參數貝葉斯統計學開始蓬勃發展。1974年,Ferguson博士又應邀在Annals of stats上發文「priors on spaces of probability measures」。這又是一篇重量級的論文,此論文總結了諸多在概率空間上構造先驗的方法(簡單滴講,即概率之概率)。
20年後的1994年,由Sethuraman等人提出了Dirichlet過程的等價定義,它們的構造方法用到了所謂的「斷棍構造」(stick-breaking construction)。自此,Dirichlet過程被瘋狂應用於聚類方法。
舉個例子,一個生物學家搞到了300個動物標本,其中大約有45個不同的物種,然而顯然物種個數遠超45個(有諸多瀕危動物是此生物學家無法搞到標本的)。因此,在聚類時,K將會遠遠大於45,甚至遠大於300,但數據有限(N=300),如何從有限的數據量來聚K可能為很大的類呢?Dirichlet過程混合模型提供了這種小N大K問題的解決範式。
又過了10年,在21世紀之初,由吳恩達,Michael Jordan等人提出了「層次Dirichlet過程」並將他應用在了自然語言處理領域,謂之「基於層次Dirichlet過程的Topic modelling」。之後,Michael Jordan逐漸成為非參數領域的權威人士,近年來,他及一群研究人員提出了所謂「MAD Bayes」的框架(我還沒仔細讀)。
總而言之,Dirichlet過程的應用正逐步被我們發掘出來,希望日後這些高深複雜的概率模型能以更加直觀的方式出現在我們面前,為更多人所用。老一輩的Ferguson博士早已退休,Michael Jordan也是花甲之年,數風流人物,還看Deep AR兼COVID 19 EDA大佬飄特,Entropy-penalized框架創始人卡弗裡希裡亞諾等新一代生力軍也。