人工智慧領域最重要的概率分布你必須知道:狄利克雷分布

2021-12-29 量化金融科技前沿

LDA也就是隱含狄利克雷分布(Latent Dirichlet Allocation)模型在無監督學習理論中有極為廣泛的應用,LDA由Blei, David M.、吳恩達和吳恩達的老師,機器學習理論的泰鬥Jordan, Michael於2003年提出。

狄利克雷分布是機器學習理論裡面最重要的一個概率分布,今天我們就來聊聊狄利克雷分布以及它的隨機數的Python和Matlab實現。

----「不懂LDA你都不好意思說你也會機器學習理論!LDA可是我和我老師發明的!」

在貝葉斯推斷中,狄利克雷分布作為多項分布的共軛先驗,被用於多項分布、二項分布和類型分布(categorical distribution)的參數估計。

在機器學習領域,狄利克雷分布和廣義狄利克雷分布被應用於構建混合模型(mixture model)以處理高維的聚類和特徵賦權(feature weighting)等非監督學習問題。

使用狄利克雷分布建立的主題模型(topic model),即隱含狄利克雷分布(Latent Dirichlet Allocation, LDA)被應用於自然語言處理(Natural Language Processing, NLP)和生物信息學研究(bioinfomatics)。

   

狄利克雷分布(Dirichlet distribution)或多元Beta分布(multivariate Beta distribution)是一類在實數域以正單純形(standard simplex)為支撐集(support)的高維連續概率分布,是Beta分布在高維情形的推廣 。

狄利克雷分布是指數族分布之一,也是劉維爾分布(Liouville distribution)的特殊形式,將狄利克雷分布的解析形式進行推廣可以得到廣義狄利克雷分布(generalized Dirichlet distribution)和組合狄利克雷分布(Grouped Dirichlet distribution)。

 在貝葉斯推斷(Bayesian inference)中,狄利克雷分布作為多項分布的共軛先驗得到應用 ,在機器學習(machine learning)中被用於構建狄利克雷混合模型(Dirichlet mixture model)。狄利克雷分布在函數空間內對應的隨機過程(stochastic process)是狄利克雷過程(Dirichlet process)。

 

狄利克雷分布的命名來自德國數學家約翰·彼得·古斯塔夫·勒熱納·狄利克雷(Johann P. G. Lejeune Dirichlet)以紀念其首次得到狄利克雷分布(積分形式)的解析形式 。

狄利克雷是德國數學家。1805年2月13日生於迪倫;1859年5月5日卒於哥廷根。狄利克雷出生於一個具有法蘭西血統的家庭。自幼喜歡數學,在12歲前就將零用錢攢起來買數學書閱讀。16歲中學畢業後,父母希望他學習法律,但狄利克雷卻決心攻讀數學,他先在迪倫學習,後到哥廷根受業於高斯。1822年到1827年間旅居巴黎當家庭教師。

在此期間,他參加了以傅立葉為首的青年數學家小組的活動,深受傅立葉學術思想的影響。1827年在波蘭布雷斯勞大學任講師。1829年任柏林大學講師,1839年升為教授。1855年,高斯逝世後,他作為高斯的繼任者被哥廷根大學聘任為教授,直至逝世。他1831年被選為普魯士科學院院士,1855年被選為英國皇家學會會員。

狄利克雷分布的隨機數實現有很多種方法,最常見的是以下方法:

狄利克雷分布的隨機數實現可以由Gamma分布的隨機數歸一化得到。具體地,首先生成尺度參數為1的Gamma分布隨機數,然後對所有隨機數求和,最後按隨機數除以求和結果輸出狄利克雷分布隨機數。

1.這裡給出Python 3環境下上述過程的編程實現:

2.Matlab實現

3.另外一種用Python實現的代碼

 

相關焦點

  • 11種概率分布,你了解幾個?
    這是昨天推送的 從概率統計到深度學習,四大技術路線圖譜,都在這裡!文章中的第一大技術路線圖譜如下所示,圖中左側正是本文要總結的所有常見概率分布。9 貝塔分布貝塔分布是定義在 (0,1) 之間的連續概率分布。如果隨機變量 X 服從貝塔分布,則其概率密度函數為:
  • 深度學習必須掌握的 13 種概率分布
    作為機器學習從業者,你需要知道概率分布相關的知識。這裡有一份最常見的基本概率分布教程,大多數和使用 python 庫進行深度學習有關。
  • Python中的端對端主題建模: 隱含狄利克雷分布(LDA)
    隱含狄利克雷分布(LDA)根據定義,LDA是給定語料庫的生成概率模型。其基本思想是將文檔表示為潛在主題的隨機混合,並對每個主題通過單詞分布進行特徵化。LDA的底層算法,(3)phi,表示文檔 i 的主題分布。
  • 學計量經濟學,你應該知道的六種概率分布
    在對一周的作業進行了檢查之後,你給所有的學生打了分數。你把這些打了分數的論文交給大學的數據錄入人員,並告訴他創建一個包含所有學生成績的電子表格。但這個人卻只存儲了成績,而沒有包含對應的學生。他又犯了另一個錯誤,在匆忙中跳過了幾項,但我們卻不知道丟了誰的成績。我們來看看如何來解決這個問題吧。一種方法是將成績可視化,看看是否可以在數據中找到某種趨勢。
  • 乾貨 | 一文詳解隱含狄利克雷分布(LDA)
    作者 | 玉龍一、簡介隱含狄利克雷分布
  • 貝葉斯、概率分布與機器學習
    p(e|f∈{f1,f2…})可以認為,從輸入的英文句子e,推出了很多種不同的法文句子f,p(e|f)就是從這些法文句子中的某一個推出原句子e的概率。
  • 從貝葉斯定理到概率分布:綜述概率論基本定義
    不確定性無處不在,我們必須馴服它以滿足我們的需要。只有如此,概率論和統計學才會發揮作用。如今,這些學科處於人工智慧,粒子物理學,社會科學,生物信息學以及日常生活中的中心。如果我們要談論統計學,最好先確定什麼是概率。其實,這個問題沒有絕對的答案。我們接下來將闡述概率論的各種觀點。頻率想像一下,我們有一枚硬幣,想驗證投擲後正反面朝上頻率是否相同。
  • 學計量經濟學,你應該知道的六種6個概率分布
    上面展示的圖形稱為數據的頻率分布。其中有一個平滑的曲線,但你注意到有一個異常情況了嗎?在某個特定的分數範圍內,數據的頻率異常低。所以,最準確的猜測就是丟失值了,從而導致在分布中出現了凹陷。
  • 每個數據科學專家都應該知道的六個概率分布
    本文重點介紹了日常生活中經常能遇到的六個重要分布,並解釋了它們的應用。假設你是一所大學的老師。在對一周的作業進行了檢查之後,你給所有的學生打了分數。你把這些打了分數的論文交給大學的數據錄入人員,並告訴他創建一個包含所有學生成績的電子表格。但這個人卻只存儲了成績,而沒有包含對應的學生。他又犯了另一個錯誤,在匆忙中跳過了幾項,但我們卻不知道丟了誰的成績。
  • 概率與概率分布
    共有4種可能:無人付費12.5%1人付費37.5%2人付費37.5%3人付費12.5%此類問題被稱為二項式概率分布,對於很大量的事件,最終產生某個特定時間的概率是多少數字型變量概率即分布,常見為正態分布,中間高左右對稱。可以快速的計算數據的概率分布使用Z評分法,如某同學本年度的成績平均值為70,標準差8,求成績大於75的概率。
  • 每個數據科學家都應該知道的六個概率分布
    其中有一個平滑的曲線,但你注意到有一個異常情況了嗎?在某個特定的分數範圍內,數據的頻率異常低。所以,最準確的猜測就是丟失值了,從而導致在分布中出現了凹陷。這個過程展示了你該如何使用數據分析來嘗試解決現實生活中的問題。對於任何一位數據科學家、學生或從業者來說,分布是必須要知道的概念,它為分析和推理統計提供了基礎。
  • Distribution is all you need:這裡有12種做ML不可不知的分布
    機器學習有其獨特的數學基礎,我們用微積分來處理變化無限小的函數,並計算它們的變化;我們使用線性代數來處理計算過程;我們還用概率論與統計學建模不確定性。在這其中,概率論有其獨特的地位,模型的預測結果、學習過程、學習目標都可以通過概率的角度來理解。與此同時,從更細的角度來說,隨機變量的概率分布也是我們必須理解的內容。
  • 每個數據科學家都應該知道的5種概率分布
    這使得概率知識成為統計學家構建工具箱的基礎。如果您正在尋找如何成為數據科學家的第一步。不用多說,讓我們切入正題。什麼是概率分布?在概率論和統計學中,隨機變量是一個隨機值的東西,比如「我看到的下一個人的身高」。給定一個隨機變量X,我們想要一種描述它的值的方法。更重要的是,我們想要描述該變量獲取特定值x的可能性。
  • 最重要最特殊的分布是什麼,非正態分布莫屬,看這一篇足夠了
    正態分布正態分布是一種連續分布,也稱「常態分布」或「高斯分布」,是連續隨機變量概率分布的一種,它用熟悉的鐘形曲線來描述,或許是統計學中使用的最重要分布。正態分布可以在眾多自然現象中觀察到。比如機械加工的零部件偏離準的程度、人類的身高和體重,以及其他眾多測量指標通常都是正態分布的。
  • 通俗理解:概率分布函數、概率密度函數
    概率分布函數和概率密度函數之前,我們先來看看概率函數和概率分布是咋回事。為什麼我們花這麼大的力氣去研究這個概念。因為它實在太重要了,為什麼呢?在這裡,直接引用陳希孺老師在他所著的《概率論與數理統計》這本書中說的:研究一個隨機變量,不只是要看它能取哪些值,更重要的是它取各種值的概率如何!這句是本文的核心內容,本文的所有概念,包括概率密度,概率分布,概率函數,都是在描述概率!
  • 概率|無處不在的高斯分布(1)——標準正態分布
    萬事開頭難,今天的第一講,我們來談一談無處不在的「高斯分布」(又叫「正態分布」,Normal Distribution)。在我看來,所有的統計分布裡最容易理解的是「均勻分布」(Uniform Distribution),但是最常用的分布,一定是高斯分布。
  • 必考知識點,CFA一級數量分析-常見概率分布-上
    如果你還是不明白貝葉斯公式的重要性,我這麼跟你說:因為蘑菇彈的存在世界的歷史被分成了兩半,而因為貝葉斯公式,統計學被分成了兩半,其中一半就叫做貝葉斯學派。在最新的發展中,貝葉斯公式已經在人工智慧領域大規模應用。也許多年以後,我們的人工智慧會通過貝葉斯公式找到他們的造物主。
  • 常見概率分布
    離散分布退化分布 若r.v. n,其概率分布為超幾何分布. Poisson分布的重要性質是幾何分布 在事件A發生的概率為p的伯努利試驗中,若以η記A首次出現時的試驗次數,則η為隨機變量,它可能取的值為1,2,3,…其概率分布為幾何分布:
  • 數據挖掘學習小組之(概率分布)
    均勻分布由兩個參數a和b定義,它們是數軸上的最小值和最大值,通常縮寫為U(a,b)。正態分布正態分布(Normal distribution),也稱「常態分布」,又名高斯分布(Gaussian distribution),最早由A.棣莫弗在求二項分布的漸近公式中得到。C.F.高斯在研究測量誤差時從另一個角度導出了它。P.S.拉普拉斯和高斯研究了它的性質。
  • 學好正態分布有多重要?
    為什麼大量數據科學和機器學習的文章都圍繞正態分布進行討論?我決定寫一篇文章,用一種簡單易懂的方式來介紹正態分布。在機器學習的世界中,以概率分布為核心的研究大都聚焦於正態分布。本文將闡述正態分布的概率,並解釋它的應用為何如此的廣泛,尤其是在數據科學和機器學習領域,它幾乎無處不在。