前言
數據分布是數據分析和機器學習的核心組成,可以幫助你更好的了解數據的分布形態,今天主要介紹一下我們在常見的數據分布。
1.BernoulliDistribution/Binomial(貝努利分布/二項分布)
在概率論和統計學中,二項分布是n個獨立的是/非試驗中成功的次數的離散概率分布,其中每次試驗的成功概率為p。這樣的單次成功/失敗試驗又稱為伯努利試驗。實際上,當
時,二項分布就是伯努利分布,二項分布是顯著性差異的二項試驗的基礎
2.Negative BinomialDistribution(負二項分布)
負二項分布是統計學上一種離散概率分布。滿足以下條件的稱為負二項分布:實驗包含一系列獨立的實驗,每個實驗都有成功、失敗兩種結果,成功的概率是恆定的,實驗持續到r次成功,r為正整數。
3.MultinomialDistribution(多項式分布)
二項分布的典型例子是扔硬幣,硬幣正面朝上概率為p, 重複扔n次硬幣,k次為正面的概率即為一個二項分布概率。把二項分布公式推廣至多種狀態,就得到了多項分布。
4.Geometric Distribution(幾何分布)
幾何分布(Geometric distribution)是離散型概率分布。其中一種定義為:在n次伯努利試驗中,試驗k次才得到第一次成功的機率。詳細地說,是:前k-1次皆失敗,第k次成功的概率。幾何分布是帕斯卡分布當r=1時的特例。
在伯努利試驗中,成功的概率為p,若ξ表示出現首次成功時的試驗次數,則ξ是離散型隨機變量,它只取正整數,且有P(ξ=k)=(1-p)的(k-1)次方乘以p (k=1,2,…,0<p<1),此時稱隨機變量ξ服從幾何分布。它的期望為1/p,方差為(1-p)/(p的平方)。
5.HypergeometricDistribution(超幾何分布)
超幾何分布是統計學上一種離散概率分布。它描述了由有限個物件中抽出n個物件,成功抽出指定種類的物件的次數(不歸還)。稱為超幾何分布,是因為其形式與「超幾何函數」的級數展式的係數有關
6.Poisson Distribution (泊松分布)
泊松分布的概率函數為:
泊松分布的參數λ是單位時間(或單位面積)內隨機事件的平均發生率。 泊松分布適合於描述單位時間內隨機事件發生的次數。
泊松分布與二項分布關係
當二項分布的n很大而p很小時,泊松分布可作為二項分布的近似,其中λ為np。通常當n≧20,p≦0.05時,就可以用泊松公式近似得計算。
事實上,泊松分布正是由二項分布推導而來的,具體推導過程參見本詞條相關部分。
7.UniformDistribution(均勻分布)
在概率論和統計學中,均勻分布也叫矩形分布,它是對稱概率分布,在相同長度間隔的分布概率是等可能的。均勻分布由兩個參數a和b定義,它們是數軸上的最小值和最大值,通常縮寫為U(a,b)
8.Normal Distribution /Guassian Distribution(正態分布/高斯分布)
正態分布(Normal distribution),也稱「常態分布」,又名高斯分布(Gaussian distribution),最早由A.棣莫弗在求二項分布的漸近公式中得到。
是一個在數學、物理及工程等領域都非常重要的概率分布,在統計學的許多方面有著重大的影響力。
正態曲線呈鍾型,兩頭低,中間高,左右對稱因其曲線呈鐘形,因此人們又經常稱之為鐘形曲線。
9.ExponentialDistribution(指數分布)
在概率理論和統計學中,指數分布(也稱為負指數分布)是描述泊松過程中的事件之間的時間的概率分布,即事件以恆定平均速率連續且獨立地發生的過程。這是伽馬分布的一個特殊情況。它是幾何分布的連續模擬,它具有無記憶的關鍵性質。除了用於分析泊松過程外,還可以在其他各種環境中找到。
指數分布與分布指數族的分類不同,後者是包含指數分布作為其成員之一的大類概率分布,也包括正態分布,二項分布,伽馬分布,泊松分布等等。
指數函數的一個重要特徵是無記憶性(Memoryless Property,又稱遺失記憶性)。這表示如果一個隨機變量呈指數分布,當s,t>0時有P(T>t+s|T>t)=P(T>s)。即,如果T是某一元件的壽命,已知元件使用了t小時,它總共使用至少s+t小時的條件概率,與從開始使用時算起它使用至少s小時的概率相等。
10.Lognormal Distribution(對數正態分布)
對數正態分布(logarithmic normal distribution)是指一個隨機變量的對數服從正態分布,則該隨機變量服從對數正態分布。對數正態分布從短期來看,與正態分布非常接近。但長期來看,對數正態分布向上分布的數值更多一些。
11.GammaDistribution(Gamma分布)
Gamma分布是指在地震序列的有序性、地震發生率的齊次性、計數特徵具有獨立增量和平穩增量情況下,可以導出地震發生i次時間的概率密度為Gamma密度函數。
12.Three Sampling Distribution(三大抽樣分布)
三大抽樣分布一般是指卡方分布(χ2分布)、t分布和F分布,是來自正態總體的三個常用的分布.
13.Chi-squareDistribution(卡方分布)
若n個相互獨立的隨機變量ξ,ξ,...,ξn ,均服從標準正態分布(也稱獨立同分布於標準正態分布),則這n個服從標準正態分布的隨機變量的平方和構成一新的隨機變量,其分布規律稱為卡方分布(chi-square distribution)
14.t-distribution(t分布)
在概率論和統計學中,學生t-分布(t-distribution),可簡稱為t分布,用於根據小樣本來估計呈正態分布且方差未知的總體的均值。如果總體方差已知(例如在樣本數量足夠多時),則應該用正態分布來估計總體均值。
t分布曲線形態與n(確切地說與自由度df)大小有關。與標準正態分布曲線相比,自由度df越小,t分布曲線愈平坦,曲線中間愈低,曲線雙側尾部翹得愈高;自由度df愈大,t分布曲線愈接近正態分布曲線,當自由度df=∞時,t分布曲線為標準正態分布曲線。
15.F-distribution(F-分布)
在概率論和統計學裡,F-分布(F-distribution)是一種連續概率分布,被廣泛應用於似然比率檢驗,特別是ANOVA中。一個F-分布的隨機變量是兩個卡方分布變量的比率:
關注微信公眾號:DT數據技術博文 或 DtDataInfo ,有更多爬蟲、大數據、人工智慧乾貨等著你.