數據挖掘學習小組之(概率分布)

2021-03-02 數據處理與分析

基本概念
隨機變量

隨機變量（random variable）表示隨機試驗各種結果的實值單值函數。隨機事件不論與數量是否直接有關，都可以數量化，即都能用數量化的方式表達！

古典概率

古典概率通常又叫事前概率，是指當隨機事件中各種可能發生的結果及其出現的次數都可以由演繹或外推法得知，而無需經過任何統計試驗即可計算各種可能發生結果的概率。

條件概率

條件概率是指事件A在另外一個事件B已經發生條件下的發生概率。

離散變量

離散變量指變量值可以按一定順序一一列舉，通常以整數位取值的變量。如職工人數、工廠數、機器臺數等。

連續變量

在一定區間內可以任意取值的變量叫連續變量，其數值是連續不斷的，相鄰兩個數值可作無限分割，即可取無限個數值

期望值

在概率論和統計學中，期望值（或數學期望、或均值，亦簡稱期望，物理學中稱為期待值）是指在一個離散性隨機變量試驗中每次可能結果的概率乘以其結果的總和

離散變量概率分布二項分布

二項分布是由伯努利提出的概念，指的是重複n次獨立的伯努利試驗。在每次試驗中只有兩種可能的結果，而且兩種結果發生與否互相對立，並且相互獨立，與其它各次試驗結果無關，事件發生與否的概率在每一次獨立試驗中都保持不變，則這一系列試驗總稱為n重伯努利實驗，當試驗次數為1時，二項分布服從0-1分布。

伯努利分布

與二項分布一樣

泊松分布

Poisson分布，是一種統計與概率學裡常見到的離散概率分布，由法國數學家西莫恩·德尼·泊松（Siméon-Denis Poisson）在1838年時發表。

連續變量概率分布均勻分布

在概率論和統計學中，均勻分布也叫矩形分布，它是對稱概率分布，在相同長度間隔的分布概率是等可能的。均勻分布由兩個參數a和b定義，它們是數軸上的最小值和最大值，通常縮寫為U（a，b）。

正態分布

正態分布（Normal distribution），也稱「常態分布」，又名高斯分布（Gaussian distribution），最早由A.棣莫弗在求二項分布的漸近公式中得到。C.F.高斯在研究測量誤差時從另一個角度導出了它。P.S.拉普拉斯和高斯研究了它的性質。是一個在數學、物理及工程等領域都非常重要的概率分布，在統計學的許多方面有著重大的影響力。

指數分布

在概率理論和統計學中，指數分布（也稱為負指數分布）是描述泊松過程中的事件之間的時間的概率分布，即事件以恆定平均速率連續且獨立地發生的過程。這是伽馬分布的一個特殊情況。它是幾何分布的連續模擬，它具有無記憶的關鍵性質。除了用於分析泊松過程外，還可以在其他各種環境中找到。

伽瑪分布

伽瑪分布（Gamma Distribution）是統計學的一種連續概率函數，是概率統計中一種非常重要的分布。「指數分布」和「χ2分布」都是伽馬分布的特例。

偏態分布

偏態分布是與「正態分布」相對，分布曲線左右不對稱的數據次數分布，是連續隨機變量概率分布的一種。可以通過峰度和偏度的計算，衡量偏態的程度。可分為正偏態和負偏態，前者曲線右側偏長，左側偏短；後者曲線左側偏長，右側偏短。

貝塔分布

貝塔分布（Beta Distribution) 是一個作為伯努利分布和二項式分布的共軛先驗分布的密度函數，在機器學習和數理統計學中有重要應用。在概率論中，貝塔分布，也稱Β分布，是指一組定義在(0,1) 區間的連續概率分布。

威布爾分布

威布爾分布，又稱韋氏分布，是可靠性分析和壽命檢驗的理論基礎。

威布爾分布在可靠性工程中被廣泛應用，尤其適用於機電類產品的磨損累計失效的分布形式。由於它可以利用概率值很容易地推斷出它的分布參數，被廣泛應用於各種壽命試驗的數據處理。

卡方分布

若n個相互獨立的隨機變量ξ₁，ξ₂，…,ξn ，均服從標準正態分布（也稱獨立同分布於標準正態分布），則這n個服從標準正態分布的隨機變量的平方和構成一新的隨機變量，其分布規律稱為卡方分布（chi-square distribution）。

F分布

F分布是1924年英國統計學家R.A.Fisher提出，並以其姓氏的第一個字母命名的。它是一種非對稱分布，有兩個自由度，且位置不可互換。F分布有著廣泛的應用，如在方差分析、回歸方程的顯著性檢驗中都有著重要的地位。

代碼

'''
Created on 2019年8月4日

@author: uYaoQi
'''

from scipy import stats as st
import matplotlib as mpl
import numpy as np
import matplotlib.pyplot as plt

mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False

n = 100
p = 0.05
k = np.arange(0,n)
binomial = st.binom.pmf(k,n,p)
plt.plot(k,binomial,'o-')
plt.title('伯努利分布:n=%i,p=%.2f'%(n,p),fontsize=15)
plt.xlabel('實驗成功次數')
plt.ylabel('成功概率',fontsize=15)
plt.grid(True)
plt.show()

x = np.random.poisson(lam=8, size=10000)
pillar = 30
a = plt.hist(x, bins=pillar, density=True, range=[0, pillar], color='g', alpha=0.5)
plt.title('泊松分布',fontsize=15)
plt.xlabel('x柱子個數')
plt.ylabel('概率',fontsize=15)
plt.plot(a[1][0:pillar], a[0], 'r')
plt.grid()
plt.show()

loc = 1
scale = 2.0
x = np.linspace(st.norm.ppf(0.01,loc,scale),st.norm.ppf(0.99,loc,scale),100)
plt.plot(x, st.norm.pdf(x,loc,scale),'b-',label = 'norm')
plt.title(u'正態分布概率密度函數')
plt.show()

lambdaUse = 2
loc = 0
scale = 1.0/lambdaUse
x = np.linspace(st.expon.ppf(0.01,loc,scale),st.expon.ppf(0.99,loc,scale),100)
plt.plot(x, st.expon.pdf(x,loc,scale),'b-',label = 'expon')
plt.title(u'指數分布概率密度函數')
plt.show()

x = np.linspace(0,20,100)
y = st.chi2.pdf(np.linspace(0,20,100),df=4)

plt.plot(x,y)
plt.fill_between(x,y,alpha=0.15)
plt.title(u'卡方分布:自由度為四')
plt.show()

dfn, dfd = 29, 18
x = st.f.rvs(dfn, dfd, size=500)
mu =np.mean(x)
sigma =np.std(x)
num_bins = 30
n, bins, patches = plt.hist(x, num_bins,density=1, facecolor='blue', alpha=0.5)

y = st.norm.pdf(bins, mu, sigma)
plt.plot(bins, y, 'r--')
plt.title(r'F分布')
plt.subplots_adjust(left=0.15)
plt.show()

相關焦點

「數據分析」之零基礎入門數據挖掘

，本文將學習應該從哪些角度分析數據？數據及背景https://tianchi.aliyun.com/competition/entrance/231784/information（阿里天池-零基礎入門數據挖掘）EDA的目標熟悉數據集，了解數據集，對數據集進行驗證來確定所獲得數據集可以用於接下來的機器學習或者深度學習使用。了解變量間的相互關係以及變量與預測值之間的存在關係。
數據挖掘中所需的概率論與數理統計知識(一)

，關於第四節正態分布的部分可以參考小君之前推出的正態分布的前世今生系列文章（徹底顛覆以前讀書時大學課本灌輸給你的觀念，一探正態分布之神秘芳蹤，知曉其前後發明歷史由來）。相信，每一個學過概率論與數理統計的朋友都有必要了解數理統計學簡史，因為，只有了解各個定理.公式的發明歷史,演進歷程.相關聯繫，才能更好的理解你眼前所見到的知識，才能更好的運用之。本文結合高等數學上下冊、微積分概念發展史，概率論與數理統計、數理統計學簡史等書，對數據挖掘中所需的概率論與數理統計相關知識概念作個總結梳理。
統計數據必備:直方圖,概率密度函數,累積分布函數EXCEL作圖實例

不管你是什麼學科，只要能接觸到數據，在學習工作中總會有一些用到直方圖、概率密度函數、累積分布函數曲線圖的地方，下面手把手教大家在Excel中製作直方圖
概率與概率分布

數字型數據取值可能在莫格範圍內的任何點，沒有明顯的邊界，可能是區間內的任何值。概率：用來衡量事件發生的可能性的比例事件所發生的次數除以所有發生的事件總數。類別型數據具體應用，100名客人進入到店，50位客人進行了消費，那麼可以說轉化率為50%。到店的顧客有消費與不消費兩種，因此為互斥事件，且概率均為50%。即，用戶到店消費概率為0.5，只有消費與不消費兩種決定，且相互獨立。
每個數據科學家都應該知道的5種概率分布

作者 | By Luciano Strika 來源 | CDA數據分析研究院 5 Probability Distributions Every Data Scientist Should Know概率分布就像3D眼鏡。它們允許熟練的數據科學家識別其他完全隨機變量的模式。在某種程度上，大多數其他數據科學或機器學習技能都基於對數據概率分布的某些假設。
貝葉斯、概率分布與機器學習

我們往往不用知道P(h|D)的具體的值，而是知道例如P(h1|D)，P(h2|D)值的大小關係就是了。這個公式就是機器學習中的貝葉斯公式，一般來說我們稱P(h|D)為模型的後驗概率，就是從數據來得到假設的概率，P(h)稱為先驗概率，就是假設空間裡面的概率，P(D|h)是模型的 likelihood概率。
數據挖掘——淺析分類算法

分類在數據挖掘中是一項非常重要的任務，有很多用途，比如說預測，即從歷史的樣本數據推算出未來數據的趨向，有一個比較著名的預測的例子就是大豆學習。它們在選擇測試屬性採用的技術、生成的決策樹的結構、剪枝的方法以及時刻，能否處理大數據集等方面都有各自的不同之處。
如何系統地學習數據挖掘?

在學習數據挖掘之前應該明白幾點：●數據挖掘目前在中國的尚未流行開，猶如屠龍之技。●數據初期的準備通常佔整個數據挖掘項目工作量的70%左右。●數據挖掘本身融合了統計學、資料庫和機器學習等學科，並不是新的技術。
數據挖掘入門指南!!!

很多模型假設數據服從正態分布，數據整體服從正態分布，樣本均值和方差則相互獨立。若頻數很失常，需對數據進行處理，例如進行log變換，使數據分布較均勻，可據處理後的數據進行預測，這也是預測問題常用的技巧。特徵分析數字特徵類別特徵數據清洗數據和特徵決定了機器學習的上限，而模型和算法只是逼近這個上限而已。
數據挖掘之--LDA主題建模

今天來告訴你一個高效挖掘信息的工具，簡單好用！無論你的手裡是文本、圖片還是其他的非結構化、結構化數據，都可用這個方法進行主題建模。今天我們通過一個新聞文本數據集進行 LDA 主題建模。LDA 本質上是在學習兩個概率分布，第一個是當給定一個文檔時，文檔-->主題的映射分布，第二個是當一個文檔的主題確定後，主題-->詞彙的映射分布。文章和詞彙都是我們看的見的東西，那麼主題呢？2.
每個數據科學家都應該知道的六個概率分布

在某個特定的分數範圍內，數據的頻率異常低。所以，最準確的猜測就是丟失值了，從而導致在分布中出現了凹陷。這個過程展示了你該如何使用數據分析來嘗試解決現實生活中的問題。對於任何一位數據科學家、學生或從業者來說，分布是必須要知道的概念，它為分析和推理統計提供了基礎。雖然概率為我們提供了數學上的計算，而分布卻可以幫助我們把內部發生的事情可視化。
數據分析與數據挖掘 - 05統計概率

我們現在擁有以下兩組數據，代表著兩組同學們的成績，現在我們要研究哪一組同學的成績更穩定一些。方差是中學就學過的知識，可能有的同學忘記了，一起來回顧下。A組 = [50,60,40,30,70,50] B組 = [40,30,40,40,100]為了便於理解，我們可以先使用平均數來看，它們的平均數都是50，無法比較出它們的離散程度的差異。
什麼叫數據挖掘_數據挖掘技術解析

數據挖掘（data mining）是指從大量的資料中自動搜索隱藏於其中的有著特殊關聯性的信息的過程。在全世界的計算機存儲中，存在未使用的海量數據並且它們還在快速增長，這些數據就像待挖掘的金礦，而進行數據分析的科學家、工程師、分析員的數量變化一直相對較小，這種差距稱為數據挖掘產生的主要原因。
從貝葉斯定理到概率分布:綜述概率論基本定義

編者按：本文選自 Medium & analyticsvidhya，機器之心編譯。本文從最基礎的概率論到各種概率分布全面梳理了基本的概率知識與概念，這些概念可能會幫助我們了解機器學習或開拓視野。這些概念是數據科學的核心，並經常出現在各種各樣的話題上。重溫基礎知識總是有益的，這樣我們就能發現以前並未理解的新知識。
每個數據科學專家都應該知道的六個概率分布

一種方法是將成績可視化，看看是否可以在數據中找到某種趨勢。上面展示的圖形稱為數據的頻率分布。其中有一個平滑的曲線，但你注意到有一個異常情況了嗎？在某個特定的分數範圍內，數據的頻率異常低。所以，最準確的猜測就是丟失值了，從而導致在分布中出現了凹陷。這個過程展示了你該如何使用數據分析來嘗試解決現實生活中的問題。
大數據採集之大數據挖掘流程及方法總結

二、數據挖掘流程定義問題：清晰地定義出業務問題，確定數據挖掘的目的。數據準備：數據準備包括：選擇數據–在大型資料庫和數據倉庫目標中提取數據挖掘的目標數據集;數據預處理–進行數據再加工，包括檢查數據的完整性及數據的一致性、去噪聲，填補丟失的域，刪除無效數據等。數據挖掘：根據數據功能的類型和和數據的特點選擇相應的算法，在淨化和轉換過的數據集上進行數據挖掘。
一文理清:大數據、數據挖掘、數據分析、數理統計之間的關係

數理統計與數據挖掘的聯繫從兩者的理論來源來看，它們都來源於統計基礎理論，因此它們的很多方法在很多情況下都是同根同源的。例如，概率論和隨機事件是統計學的核心理論之一，統計分析中的抽樣估計需要應用該理論，而數據挖掘技術的樸素貝葉斯分類就是這些統計理論的發展和延伸。
清華大學領銜《2020升級版:人工智慧之數據挖掘》重磅發布

【導讀】近日，由清華大學人工智慧研究院、北京智源人工智慧研究院、清華 — 中國工程院知識智能聯合研究中心共同編寫的《人工智慧之數據挖掘》報告正式發布。報告針對數據挖掘的情況進行了深度剖析，從數據挖掘的概念內涵、關鍵技術、人才研究、應用場景、發展趨勢 5 個部分，介紹數據挖掘的最近研究進展，並展望了數據挖掘的未來發展趨勢。
如何學習基於SPSS Modeler的數據挖掘

William Frawley & Gregory Piatetsky Shapiro, 1991數據挖掘目的：建立起決策模型,根據過去的行動來預測未來的行為數據挖掘不是無規律可循的，在進行數據挖掘勘探工作中，我們一般遵循CRISP-DM流程。包含商業理解-數據理解-數據前處理-數據建模-模型評估-模型發布六個步驟。
數據概率分布形態的兩個指標:峰度與偏度及其實際運用

基礎準備草堂君在前面已經比較詳細的介紹了各種概率分布形態，包括離散性概率分布和連續性概率分布，大家可以點擊下方文章連結回顧：接下來草堂君介紹概率分布形態的兩個數值型指標：峰度與偏度，它們在沒有直方圖時，能夠幫助分析者對數據集合的分布形態有一個初步的了解。

數據挖掘學習小組之(概率分布)

相關焦點

「數據分析」之零基礎入門數據挖掘

數據挖掘中所需的概率論與數理統計知識(一)

統計數據必備:直方圖,概率密度函數,累積分布函數EXCEL作圖實例

概率與概率分布

每個數據科學家都應該知道的5種概率分布

貝葉斯、概率分布與機器學習

數據挖掘——淺析分類算法

如何系統地學習數據挖掘?

數據挖掘入門指南!!!

數據挖掘之--LDA主題建模

每個數據科學家都應該知道的六個概率分布

數據分析與數據挖掘 - 05統計概率

什麼叫數據挖掘_數據挖掘技術解析

從貝葉斯定理到概率分布:綜述概率論基本定義

每個數據科學專家都應該知道的六個概率分布

大數據採集之大數據挖掘流程及方法總結

一文理清:大數據、數據挖掘、數據分析、數理統計之間的關係

清華大學領銜《2020升級版:人工智慧之數據挖掘》重磅發布

如何學習基於SPSS Modeler的數據挖掘

數據概率分布形態的兩個指標:峰度與偏度及其實際運用