常見數據分布-機器學習與數據分析常用術語(三)

2021-01-08 DT數據技術博文

前言

數據分布是數據分析和機器學習的核心組成,可以幫助你更好的了解數據的分布形態,今天主要介紹一下我們在常見的數據分布。

1.BernoulliDistribution/Binomial(貝努利分布/二項分布)

在概率論和統計學中,二項分布是n個獨立的是/非試驗中成功的次數的離散概率分布,其中每次試驗的成功概率為p。這樣的單次成功/失敗試驗又稱為伯努利試驗。實際上,當

時,二項分布就是伯努利分布,二項分布是顯著性差異的二項試驗的基礎

2.Negative BinomialDistribution(負二項分布)

負二項分布是統計學上一種離散概率分布。滿足以下條件的稱為負二項分布:實驗包含一系列獨立的實驗,每個實驗都有成功、失敗兩種結果,成功的概率是恆定的,實驗持續到r次成功,r為正整數。

3.MultinomialDistribution(多項式分布)

二項分布的典型例子是扔硬幣,硬幣正面朝上概率為p, 重複扔n次硬幣,k次為正面的概率即為一個二項分布概率。把二項分布公式推廣至多種狀態,就得到了多項分布。

4.Geometric Distribution(幾何分布)

幾何分布(Geometric distribution)是離散型概率分布。其中一種定義為:在n次伯努利試驗中,試驗k次才得到第一次成功的機率。詳細地說,是:前k-1次皆失敗,第k次成功的概率。幾何分布是帕斯卡分布當r=1時的特例。

在伯努利試驗中,成功的概率為p,若ξ表示出現首次成功時的試驗次數,則ξ是離散型隨機變量,它只取正整數,且有P(ξ=k)=(1-p)的(k-1)次方乘以p (k=1,2,…,0<p<1),此時稱隨機變量ξ服從幾何分布。它的期望為1/p,方差為(1-p)/(p的平方)。

5.HypergeometricDistribution(超幾何分布)

超幾何分布是統計學上一種離散概率分布。它描述了由有限個物件中抽出n個物件,成功抽出指定種類的物件的次數(不歸還)。稱為超幾何分布,是因為其形式與「超幾何函數」的級數展式的係數有關

6.Poisson Distribution (泊松分布)

泊松分布的概率函數為:

泊松分布的參數λ是單位時間(或單位面積)內隨機事件的平均發生率。 泊松分布適合於描述單位時間內隨機事件發生的次數。

泊松分布與二項分布關係

當二項分布的n很大而p很小時,泊松分布可作為二項分布的近似,其中λ為np。通常當n≧20,p≦0.05時,就可以用泊松公式近似得計算。

事實上,泊松分布正是由二項分布推導而來的,具體推導過程參見本詞條相關部分。

7.UniformDistribution(均勻分布)

在概率論和統計學中,均勻分布也叫矩形分布,它是對稱概率分布,在相同長度間隔的分布概率是等可能的。均勻分布由兩個參數a和b定義,它們是數軸上的最小值和最大值,通常縮寫為U(a,b)

8.Normal Distribution /Guassian Distribution(正態分布/高斯分布)

正態分布(Normal distribution),也稱「常態分布」,又名高斯分布(Gaussian distribution),最早由A.棣莫弗在求二項分布的漸近公式中得到。

是一個在數學、物理及工程等領域都非常重要的概率分布,在統計學的許多方面有著重大的影響力。

正態曲線呈鍾型,兩頭低,中間高,左右對稱因其曲線呈鐘形,因此人們又經常稱之為鐘形曲線。

9.ExponentialDistribution(指數分布)

在概率理論和統計學中,指數分布(也稱為負指數分布)是描述泊松過程中的事件之間的時間的概率分布,即事件以恆定平均速率連續且獨立地發生的過程。這是伽馬分布的一個特殊情況。它是幾何分布的連續模擬,它具有無記憶的關鍵性質。除了用於分析泊松過程外,還可以在其他各種環境中找到。

指數分布與分布指數族的分類不同,後者是包含指數分布作為其成員之一的大類概率分布,也包括正態分布,二項分布,伽馬分布,泊松分布等等。

指數函數的一個重要特徵是無記憶性(Memoryless Property,又稱遺失記憶性)。這表示如果一個隨機變量呈指數分布,當s,t>0時有P(T>t+s|T>t)=P(T>s)。即,如果T是某一元件的壽命,已知元件使用了t小時,它總共使用至少s+t小時的條件概率,與從開始使用時算起它使用至少s小時的概率相等。

10.Lognormal Distribution(對數正態分布)

對數正態分布(logarithmic normal distribution)是指一個隨機變量的對數服從正態分布,則該隨機變量服從對數正態分布。對數正態分布從短期來看,與正態分布非常接近。但長期來看,對數正態分布向上分布的數值更多一些。

11.GammaDistribution(Gamma分布)

Gamma分布是指在地震序列的有序性、地震發生率的齊次性、計數特徵具有獨立增量和平穩增量情況下,可以導出地震發生i次時間的概率密度為Gamma密度函數。

12.Three Sampling Distribution(三大抽樣分布)

三大抽樣分布一般是指卡方分布(χ2分布)、t分布和F分布,是來自正態總體的三個常用的分布.

13.Chi-squareDistribution(卡方分布)

若n個相互獨立的隨機變量ξ,ξ,...,ξn ,均服從標準正態分布(也稱獨立同分布於標準正態分布),則這n個服從標準正態分布的隨機變量的平方和構成一新的隨機變量,其分布規律稱為卡方分布(chi-square distribution)

14.t-distribution(t分布)

在概率論和統計學中,學生t-分布(t-distribution),可簡稱為t分布,用於根據小樣本來估計呈正態分布且方差未知的總體的均值。如果總體方差已知(例如在樣本數量足夠多時),則應該用正態分布來估計總體均值。

t分布曲線形態與n(確切地說與自由度df)大小有關。與標準正態分布曲線相比,自由度df越小,t分布曲線愈平坦,曲線中間愈低,曲線雙側尾部翹得愈高;自由度df愈大,t分布曲線愈接近正態分布曲線,當自由度df=∞時,t分布曲線為標準正態分布曲線。

15.F-distribution(F-分布)

在概率論和統計學裡,F-分布(F-distribution)是一種連續概率分布,被廣泛應用於似然比率檢驗,特別是ANOVA中。一個F-分布的隨機變量是兩個卡方分布變量的比率:

關注微信公眾號:DT數據技術博文 或 DtDataInfo ,有更多爬蟲、大數據、人工智慧乾貨等著你.

相關焦點

  • 乾貨:FlowJo流式數據分析常見術語整理!
    FlowJo是美國史丹福大學Leonard Herzenberg(FACS機器的發明者)實驗室在90年代研發的一款流式數據分析軟體。FlowJo由於功能強大,簡單易用,已經被領域內的科學家、實驗室廣泛引用;同時FlowJo也是各高影響力核心期刊引用最多的流式數據分析軟體。但是在使用FlowJo進行流式數據分析的時候,有些術語的含義非常常見,但是其具體含義又是什麼呢?
  • 機器學習與數據分析常用術語-基礎篇(一)
    本篇文章將著重介紹機器學習與數據挖掘領域常用的專業術語,希望能在機器學習路上的你帶來幫助,假如你正準備學機器學習或數據挖掘建議你先了解該篇文章後在去學習。一.基礎1.數據集(DataSet)數據集,又稱為資料集、數據集合或資料集合,是一種由數據所組成的集合。程式設計師可以簡單的理解成資料庫表。
  • 考考你,這些數據分析常用術語你都分清楚了嗎?
    一般從事數據分析行業的朋友對這類詞並不陌生,但是像市場運營人員就會把這類些名詞概念搞混,導致結果不準確。數據分析相關概念多且雜,容易搞混。為了便於大家區分,今天小編就來盤點一下數據分析常用的術語解釋。建議大家收藏起來方便查看。按照以下三類進行匯總。
  • 數據分析的方法(一)
    描述統計主要是通過圖表或者數學方法,對已有的數據資料進行整理、分析,把數據的分布狀態、數字特徵和隨機變量三者之間的關係進行估計和描述呈現。假設檢驗的方法主要分為t-檢驗、z-檢驗和F-檢驗,與此相關的統計學知識也是數據分析師需要學習掌握的。 — — 信度分析 數據分析中的信度分析主要多用於SPSS中,那其實就是信度檢驗和效度檢驗。這兩種檢驗方式相互獨立但是檢驗結果相輔相成。
  • 數據產品經理之數據分析與挖掘
    (3)統計分析方法數據分析時需要選擇合適的統計分析方法進行數據的分析,常用統計分析方法有集中趨勢、離散程度、相關強度、參數估計、假設檢驗等,通過常用統計分析方法能夠描述數據的特徵。(4)數據挖掘方法數據挖掘時需要運用數據挖掘方法來從數據中挖掘價值,常用數據挖掘的方法有分類、回歸、關聯、聚類等,這些方法能夠從不同的角度對數據進行挖掘。
  • 數據分析學習:入數據科學大坑,我需要什麼樣的數學水平?
    所以,本文作者闡釋了數據科學和機器學習為何離不開數學,並提供了統計學與概率論、多變量微積分、線性代數以及優化方法四個數學分支中需要熟悉的一些數學概念。本文的作者是物理學家、數據科學教育者和作家 Benjamin Obi Tayo 博士,他的研究興趣在於數據科學、機器學習、AI、Python 和 R 語言、預測分析、材料科學和生物物理學。
  • 常用的數據分析方法及案例講解
    常用的數據分析方法有描述統計、信度分析、相關分析、回歸分析、聚類分析等。本文將結合實際案例,為大家一一講解這些數據分析的方法。如果你想了解如何做數據分析,就接著看下去吧~描述性統計分析是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。這也是我們在日常生活最常用的一種數據分析方法,因此這裡就不再用案例展開講解了。2、信度分析信度即可靠性,它是指採用同樣的方法對同一對象重複測量時所得結果的一致性程度。企業在招聘員工時會有一套性格測試題,這裡面就用到了信度分析。
  • 正態分布的常用數據 - CSDN
    #尋找真知派#如上一篇文章所述,樣本所屬總體服從正態分布是數據分析和數據挖掘等數據處理的重要前提。如果我們採集的樣本並不能確認其總體是否服從正態分布,那麼數據處理的結果就是不可靠的。因此,對樣本數據進行正態分布檢驗十分必要。
  • 大數據分析學習之路
    4.機器和傳感器數據(MACHINE AND SENSOR DATA)這包括功能設備創建或生成的數據,例如智能電錶、智能溫度控制器、工廠機器和連接網際網路的家用電器。這些設備可以配置為與網際網路中的其他節點通信,還可以自動向中央伺服器傳輸數據,這樣就可以對數據進行分析。機器和傳感器數據是來自新興的物聯網(IoT)所產生的主要例子。
  • 數據可視化,職場數據分析都需要哪些常用的圖表?
    使用圖表數據可視化的作用  使用圖表來展示數據主要有三個作用:  表達形象化:使用圖表可以化冗長為簡潔,化抽象為具體,化深奧為形象,使讀者或聽眾更容易理解主題和觀點。  突出重點:通過對圖表中數據的顏色和字體等信息的特別設置,可以把問題的重點有效地傳遞給讀者或聽眾。
  • 論文常用數據分析方法分類總結-4
    繼續我們的知識總結,本文總結包括:多選題研究、聚類分析研究、權重研究、非參數檢驗、數據分布。查看本系列之前的文章,可點擊下面的連結:論文常用數據分析方法分類總結-2論文常用數據分析方法分類總結-316.
  • 小白學數據小抄放送 Python,R,大數據,機器學習
    我記得還有幾張關於Python常用庫NumPy和Panda的小抄也特別實用? 答:是的。這些常用庫可以使你輕鬆進行探索性數據分析和各種數據整理。以下3張小抄表幾乎涵蓋了所有常用的語句啦! 3. Python用於NumPy的數據科學小抄表 NumPy是Python用於科學計算的核心包。
  • 什麼樣的人適合學習數據分析?小白如何自學數據分析?
    主圖時下的大數據時代與人工智慧熱潮,有很多人對數據分析感興趣,卻下手無從。零基礎小白剛接觸數據分析會有這樣的疑問,沒有數學基礎,可以學習數據分析嗎?如何找到一份數據分析的實習呢?什麼叫數據分析?什麼樣的人適合學習數據分析?應該學習哪些內容?需要用到哪些學習資料?自學數據分析如何安排時間?不是相關專業,如何打造簡歷?
  • 五種常用大數據分析方法
    漏鬥分析法  漏鬥分析模型是業務分析中的重要方法,最常見的是應用於營銷分析中,由於營銷過程中的每個關鍵節點都會影響到最終的結果,所以在精細化運營應用廣泛的今天,漏鬥分析方法可以幫助我們把握每個轉化節點的效率,從而優化整個業務流程。  其中,我們往往關注三個要點:  第一,從開始到結尾,整體的轉化效率是多少?
  • 小白學數據28張小抄放送 Python,R,大數據,機器學習
    我記得還有幾張關於Python常用庫NumPy和Panda的小抄也特別實用?  答:是的。這些常用庫可以使你輕鬆進行探索性數據分析和各種數據整理。以下3張小抄表幾乎涵蓋了所有常用的語句啦! 3. Python用於NumPy的數據科學小抄表 NumPy是Python用於科學計算的核心包。
  • 經典試驗設計與大數據建模培訓通知
    課程大綱  第一天  一、 DOE介紹及發展  1.DOE重要性及作用  2.DOE中常用術語介紹(因子、水平、響應、主效應、交互作用)  3.DOE分析思路及實施步驟  二、全因子設計  1.基於Minitab
  • 深度學習和拓撲數據分析的六大驚人之舉
    將深度學習與拓撲數據分析結合在一起完全能夠達到此目的,並且還綽綽有餘。1、它能在幾分鐘內創建一張數據圖,其中每一個點都是一個數據項或一組類似的數據項。基於數據項的相關性和學習模式,系統將類似的數據項組合在一起。這將使數據有唯一的表示方式,並且會讓你更清晰地洞察數據。可視化圖中的節點由一個或多個數據點構成,而點與點之間的連結則代表數據項之間高相似性。
  • 常用數據分析方法:方差分析及實現!
    方差分析是一種常用的數據分析方法,其目的是通過數據分析找出對該事物有顯著影響的因素、各因素之間的交互作用及顯著影響因素的最佳水平等。本文介紹了方差分析的基礎概念,詳細講解了單因素方差分析、雙因素方差分析的原理,並且給出了它們的python實踐代碼。
  • 9種常用數據分析方法
    分類分類是一種基本的數據分析方式,數據根據其特點,可將數據對象劃分為不同的部分和類型,再進一步分析,能夠進一步挖掘事物的本質。2.聚類聚類是根據數據的內在性質將數據分成一些聚合類,每一聚合類中的元素儘可能具有相同的特性,不同聚合類之間的特性差別儘可能大的一種分類方式,其與分類分析不同,所劃分的類是未知的,因此,聚類分析也稱為無指導或無監督的學習。
  • 【新書推薦】《機器學習及R應用》目錄
    編者薦語:  《機器學習及R應用》終於上市啦!不少讀者想知道《機器學習及R應用》的目錄。這裡附上詳細的二、三級目錄清單,讓我們先睹為快!  以下文章來源於計量經濟學及Stata應用,作者愛計量。  內容簡介  本書對於機器學習的核心方法,進行了深入而詳細的介紹,並特別關注各學科常用的算法。