偏度與峰度的正態性分布判斷

2021-02-08 深度學習初學者

        偏度與峰度的正態性分布判斷

        當我們應用統計方法對數據進行分析時,會發現許多分析方法如T檢驗、方差分析、相關分析以及線性回歸等等,都要求數據服從正態分布或近似正態分布,正態分布在機器學習的重要性後期會講述。上一篇文章用Q-Q圖來驗證數據集是否符合正態分布,本文首先介紹了偏度與峰度的定義,然後用偏度與峰度檢測數據集是否符合正態分布,最後分析該檢測算法的適用條件以及SPSS的結果分析。

1、 偏度與峰度

(1) 偏度(Skewness)

        偏度衡量隨機變量概率分布的不對稱性,是相對於平均值不對稱程度的度量,通過對偏度係數的測量,我們能夠判定數據分布的不對稱程度以及方向。

具體來說,對於隨機變量X,我們定義偏度為其的三階標準中心距:


對於樣本的偏度,我們一般記為SK,我們可以基於矩估計,得到有:


        偏度的衡量是相對於正態分布來說,正態分布的偏度為0,即若數據分布是對稱的,偏度為0。若偏度大於0,則分布右偏,即分布有一條長尾在右;若偏度小於0,則分布為左偏,即分布有一條長尾在左(如下圖);同時偏度的絕對值越大,說明分布的偏移程度越嚴重。

【注意】數據分布的左偏或右偏,指的是數值拖尾的方向,而不是峰的位置。


(2) 峰度(Kurtosis)

        峰度,是研究數據分布陡峭或平滑的統計量,通過對峰度係數的測量,我們能夠判定數據相對於正態分布而言是更陡峭還是平緩。比如正態分布的峰度為0,均勻分布的峰度為-1.2(平緩),指數分布的峰度為6(陡峭)。

峰度,定義為四階中心距除以方差的平方減3。

若峰度≈0,分布的峰態服從正態分布;

若峰度>0,分布的峰態陡峭(高尖);

若峰度<0,分布的峰態平緩(矮胖);


2、 正態性檢驗

        利用變量的偏度和峰度進行正態性檢驗時,可以分別計算偏度和峰度的Z評分(Z-score)。

偏度Z-score = 偏度值 ÷偏度值的標準差

峰度Z-score = 峰度值 ÷峰度值的標準差


在α=0.05的檢驗水平下,偏度Z-score和峰度Z-score是否滿足假設條件所限制的變量範圍,若都滿足則可認為服從正態分布,若一個不滿足則認為不服從正態分布。


3、 正態性檢驗的適用條件

        樣本的增加會減小偏度值和峰度值的標準差,相應的Z-score會變大,最終會拒絕條件假設,會給正確判斷樣本數據的正態性情況造成一定的幹擾。因此,當樣本量小於100時,用偏度和峰度來判斷樣本的正態分布性比較合理。


4、 SPSS結果分析


峰度Z-score = 5.166/0.425 > Z(α),α=0.05;因此該特徵不符合正態分布。

相關焦點

  • 多種判斷正態性的方法詳細說明
    正態圖正態分布圖可直觀地展示數據分布情況,並結合正態曲線判斷數據是否符合正態分布。03.正態性檢驗利用統計圖分析正態性,往往是依靠分析者的主觀判斷進行。因而容易產生結果偏差。因此需要結合其他方法,對數據的正態性指標進行統計描述。正態性檢驗是用於分析定量數據是否具有正態分布特質。
  • 數據概率分布形態的兩個指標:峰度與偏度及其實際運用
    峰度及峰度係數正態分布曲線的形態是一個倒置的鐘形,中間是單峰,兩邊逐漸平緩,但不是所有的單峰分布都是正態分布,這些分布與正態分布的差異在於峰度與偏度的差異。如下圖所示,單峰分布可以分為尖峰態、常峰態和低峰態等類型,尖峰態曲線的單峰尖而陡峭,低峰態曲線的單峰則低矮平緩。
  • SPSS教程|手把手教你如何判斷數據是否服從正態分布
    在進行統計推斷前,你一定要首先了解數據分布,否則得到的統計結論就是無效的!比如,T檢驗、方差檢驗的前提假設都是數據呈正態分布,如果你的數據不滿足正態分布,則需要轉化成正態分布或使用非參數檢驗方法。小編今天帶大家了解一下,如何判斷數據是否服從正態分布呢?!
  • 正態分布的常用數據 - CSDN
    #尋找真知派#如上一篇文章所述,樣本所屬總體服從正態分布是數據分析和數據挖掘等數據處理的重要前提。如果我們採集的樣本並不能確認其總體是否服從正態分布,那麼數據處理的結果就是不可靠的。因此,對樣本數據進行正態分布檢驗十分必要。
  • 第三節 正態性檢驗與兩方差的齊性檢驗
    (4)查附表6得P值,作出推斷結論,按n查得W(n,α),α是檢驗前指定的檢驗水準,若W>W(n,α)則在α水準上按受H0,資料來自正態分布總體,或服從正態分布;若W≤W(n,α),則在α水準上拒絕H0,接受H1,資料非正態。
  • 機器學習基礎 - 偏度、正態化以及 Box-Cox 變換
    1引言對於數據挖掘、機器學習中的很多算法,往往會假設變量服從正態分布。例如,在許多統計技術中,假定誤差是正態分布的。這個假設使得能夠構建置信區間並進行假設檢驗。因此,在數據預處理階段會查看目標變量以及各個特徵是否服從或接近正態分布,如果偏離就通過一定變換將該數據的分布正態化。一般來說,數據的直方圖如果單峰並近似正態但看上去又有些扭曲,可以考慮正態化。
  • STATA:一次性實現變量的9種正態變換
    開學的這幾天,已經有好幾位萌新來問我數據不正態該怎麼辦?今天我們就一起來看一看可以怎麼辦。1.為什麼要進行正態檢驗?我們經常使用的參數檢驗,方差分析,線性回歸分析等統計方法只有在變量服從正態分布時才能表現最佳,所以保證變量的正態性是非常重要的,這也是進行統計分析的重要步驟。2.如何檢驗數據正態與否?
  • 用 BOX-COX 變換進行數據正態性處理
    筆者之前寫了題為《用Python講解偏度和峰度》的文章,在那篇文章裡,筆者介紹了偏度、峰度以及如何基於二者進行數據正態性的判斷,而今天筆者將介紹一下如何將數據進行正態性轉換。在我們進行數據分析時,遇到的數據往往不是呈正態分布的,而如果數據不是正態性的,那麼在部分情況下會帶來一些問題。
  • SAS統計分析系列:描述性統計分析 (三)-- 描述性統計量
    當偏度係數小於0時,若和正態分布向比較,數據分布偏向數據小的一側,數據的均值小於中位數,稱數據呈負偏態分布或偏左分布;當偏度係數大於0時,若和正態分布相比較,數據分布偏向數據大的一側,數據的均值大於中位數,稱數據呈正偏態分布或偏右分布。峰度係數的計算公式為當峰度係數<0時,分布稱為低峰分布(Platykurtic Distribution)。
  • SPSSAU描述性分析指標如何選擇?
    描述性統計分析,就是用來概括、描述數據整體狀況以及數據各特徵的統計方法。對於定量數據,比如量表評分(非常不滿意,不滿意,非常滿意等)或者身高體重的值,可以通過描述性分析,計算數據的集中性特徵和波動性特徵等。
  • 正態分布的應用——基於描述性統計與分布的推論
    本期給大家介紹的是數據分析基礎系列,包括分布的基本類型,集中趨勢與分布的關係,離散趨勢與分布的關係,再結合國民收入案例探討分布與描述性統計分析在實際生活的應用。文章內容適合數據分析小白,內容深入淺出,案例貼合實際。下期給大家介紹偏度係數,歡迎大家關注。
  • 統計學——常用統計量以及統計三大分布
    ⑦ 樣本峰度 它反映出總體峰度的信息。峰度反映了密度函數曲線在眾數附近的「峰」的尖峭程度。如果滿足 ,則峰度為0。統計三大分布精確的抽樣分布大多是在正態總體情況下得到的。在正態總體條件下,主要有卡方分布,t分布,F分布,常稱為統計三大分布。χ2分布χ2分布即卡方分布。若隨機變量X,X,… , Xn相互獨立,且數學期望為0,方差為1(即服從標準正態分布),則隨機變量X稱為服從自由度為n的卡方分布。
  • 描述性統計分析指標介紹
    描述性統計分析對調查總體所有變量的有關數據進行統計性描述,主要包括數據的頻數分析、集中趨勢分析、離散程度分析、分布以及一些基本的統計圖形。下面介紹一些常用統計描述指標。幾何均數:用於反映一組經對數轉換後呈對稱分布的變量值在數量上的平均水平(適用範圍:對數正態分布數據或等比數據)。
  • 帶你一文了解描述性統計分析
    你想想一張PPT裡面的圖表,餅圖、折線圖、條形圖、柱狀圖、散點圖等等,哪一個是脫離了描述性統計得到的?最基本的就是直接呈現,啥也不處理,得到一張折線圖分布,那其實是什麼?是頻數分布啊。幾何均數:用於反映一組經對數轉換後呈對稱分布的變量值在數量上的平均水平(適用範圍:對數正態分布數據或等比數據)。簡單幾何平均數的計算公式:
  • 數據分析|數據分布特徵的描述
    它分為正偏態和負偏態。偏態分布的資料有時取對數後可以轉化為正態分布,反映偏態分布的集中趨勢往往用中位數。偏度係數反映數據分布偏移中心位置的程度,記為SK,則有SK= (均值一中位數)/標準差.在正態分布條件下,由於均值等於中位數,所以偏度係數等於0。當偏度係數大於0時,則為正偏態;當偏度係數小於0時,則為負偏態
  • SPSS數據分析—描述性統計分析
    ,這些都可以通過描述性統計分析加以判斷,我們也會發現,很多分析方法的結果中,或多或少都會穿插一些描述性分析的結果。描述性統計主要關注數據的三大內容:1.集中趨勢2.離散趨勢3.數據分布情況描述集中趨勢的指標有均值、眾數、中位數,其中均值包括截尾均值、幾何均值、調和均值等。描述離散趨勢的指標有頻數、相對數、方差、標準差、標準誤、全距、四分位間距、四分位數、百分位數、變異係數等。注意:連續型變量和離散型變量的指標有所不同。