偏度與峰度的正態性分布判斷

2021-03-01 深度學習初學者

        偏度與峰度的正態性分布判斷

        當我們應用統計方法對數據進行分析時,會發現許多分析方法如T檢驗、方差分析、相關分析以及線性回歸等等,都要求數據服從正態分布或近似正態分布,正態分布在機器學習的重要性後期會講述。上一篇文章用Q-Q圖來驗證數據集是否符合正態分布,本文首先介紹了偏度與峰度的定義,然後用偏度與峰度檢測數據集是否符合正態分布,最後分析該檢測算法的適用條件以及SPSS的結果分析。

1、 偏度與峰度

(1) 偏度(Skewness)

        偏度衡量隨機變量概率分布的不對稱性,是相對於平均值不對稱程度的度量,通過對偏度係數的測量,我們能夠判定數據分布的不對稱程度以及方向。

具體來說,對於隨機變量X,我們定義偏度為其的三階標準中心距:

對於樣本的偏度,我們一般記為SK,我們可以基於矩估計,得到有:

        偏度的衡量是相對於正態分布來說,正態分布的偏度為0,即若數據分布是對稱的,偏度為0。若偏度大於0,則分布右偏,即分布有一條長尾在右;若偏度小於0,則分布為左偏,即分布有一條長尾在左(如下圖);同時偏度的絕對值越大,說明分布的偏移程度越嚴重。

【注意】數據分布的左偏或右偏,指的是數值拖尾的方向,而不是峰的位置。

(2) 峰度(Kurtosis)

        峰度,是研究數據分布陡峭或平滑的統計量,通過對峰度係數的測量,我們能夠判定數據相對於正態分布而言是更陡峭還是平緩。比如正態分布的峰度為0,均勻分布的峰度為-1.2(平緩),指數分布的峰度為6(陡峭)。

峰度,定義為四階中心距除以方差的平方減3。

若峰度≈0,分布的峰態服從正態分布;

若峰度>0,分布的峰態陡峭(高尖);

若峰度<0,分布的峰態平緩(矮胖);

2、 正態性檢驗

        利用變量的偏度和峰度進行正態性檢驗時,可以分別計算偏度和峰度的Z評分(Z-score)。

偏度Z-score = 偏度值 ÷偏度值的標準差

峰度Z-score = 峰度值 ÷峰度值的標準差

在α=0.05的檢驗水平下,偏度Z-score和峰度Z-score是否滿足假設條件所限制的變量範圍,若都滿足則可認為服從正態分布,若一個不滿足則認為不服從正態分布。

3、 正態性檢驗的適用條件

        樣本的增加會減小偏度值和峰度值的標準差,相應的Z-score會變大,最終會拒絕條件假設,會給正確判斷樣本數據的正態性情況造成一定的幹擾。因此,當樣本量小於100時,用偏度和峰度來判斷樣本的正態分布性比較合理。

4、 SPSS結果分析

峰度Z-score = 5.166/0.425 > Z(α),α=0.05;因此該特徵不符合正態分布。

相關焦點

  • 多種判斷正態性的方法詳細說明
    正態圖正態分布圖可直觀地展示數據分布情況,並結合正態曲線判斷數據是否符合正態分布。Q-Q圖是將實際數據作為X軸,將對應正態分布分位數作為Y軸,作散點圖,反映變量的實際分布與理論分布的符合程度。無論是P-P圖還是Q-Q圖,如數據服從正態分布,則散點分布應近似呈現為一條對角直線。反之則說明數據非正態。兩種圖的功能完全一致,使用時沒有區別。03.正態性檢驗利用統計圖分析正態性,往往是依靠分析者的主觀判斷進行。
  • 正態分布的常用數據 - CSDN
    #尋找真知派#如上一篇文章所述,樣本所屬總體服從正態分布是數據分析和數據挖掘等數據處理的重要前提。如果我們採集的樣本並不能確認其總體是否服從正態分布,那麼數據處理的結果就是不可靠的。因此,對樣本數據進行正態分布檢驗十分必要。
  • SPSSAU描述性分析指標如何選擇?
    描述性統計分析,就是用來概括、描述數據整體狀況以及數據各特徵的統計方法。對於定量數據,比如量表評分(非常不滿意,不滿意,非常滿意等)或者身高體重的值,可以通過描述性分析,計算數據的集中性特徵和波動性特徵等。
  • 描述性統計分析指標介紹
    描述性統計分析對調查總體所有變量的有關數據進行統計性描述,主要包括數據的頻數分析、集中趨勢分析、離散程度分析、分布以及一些基本的統計圖形。下面介紹一些常用統計描述指標。幾何均數:用於反映一組經對數轉換後呈對稱分布的變量值在數量上的平均水平(適用範圍:對數正態分布數據或等比數據)。
  • 統計學——常用統計量以及統計三大分布
    ⑦ 樣本峰度 它反映出總體峰度的信息。峰度反映了密度函數曲線在眾數附近的「峰」的尖峭程度。如果滿足 ,則峰度為0。統計三大分布精確的抽樣分布大多是在正態總體情況下得到的。在正態總體條件下,主要有卡方分布,t分布,F分布,常稱為統計三大分布。χ2分布χ2分布即卡方分布。若隨機變量X,X,… , Xn相互獨立,且數學期望為0,方差為1(即服從標準正態分布),則隨機變量X稱為服從自由度為n的卡方分布。
  • 帶你一文了解描述性統計分析
    你想想一張PPT裡面的圖表,餅圖、折線圖、條形圖、柱狀圖、散點圖等等,哪一個是脫離了描述性統計得到的?最基本的就是直接呈現,啥也不處理,得到一張折線圖分布,那其實是什麼?是頻數分布啊。幾何均數:用於反映一組經對數轉換後呈對稱分布的變量值在數量上的平均水平(適用範圍:對數正態分布數據或等比數據)。簡單幾何平均數的計算公式:
  • 幣安研究院高級分析師江金澤:BTC收益率分布具有尖峰、肥右尾、正...
    從跨資產相關性的角度,在下面的圖表中看到,無論是在長周期還是短周期內,比特幣的回報與主流大類資產的相關性極低(相關性絕對值最低,意味著既無明顯正相關也無明顯負相關),我們選取的參照物包括美國股市、全球股市、美國債券、國際債券、黃金、美國房地產、國際房地產、自然資源。」
  • Scipy_常見隨機分布
    sf:生存功能(1-CDF)ppf:百分比點函數(CDF的逆)isf:逆生存函數(SF的逆)統計信息:返回均值,方差,(費舍爾)偏度或(費舍爾)峰度矩:分布的非中心矩常見連續變量1.指數分布mean,var,skew,kurt=expon.stats(moments='mvsk')mean,var,skew,kurt#均值,方差,偏度,峰度(array(1.), array(1.), array(2.), array(6.))
  • 機器學習數學基礎:數理統計與描述性統計
    偏度與峰度偏度(skewness):也稱為偏態,是統計數據分布偏斜方向和程度的度量,是統計數據分布非對稱程度的數字特徵。直觀看來就是密度函數曲線尾部的相對長度。偏度刻畫的是分布函數(數據)的對稱性。關於均值對稱的數據其偏度係數為0,右側更分散的數據偏度係數為正,左側更分散的數據偏度係數為負。
  • 碩博學術專欄——偏態與峰度
    除了變異量數,描述統計量還可以利用偏態(skewness)與峰度(kurtosis)來描述數據的分布特徵。尤其是當研究者關注數據的分布是否為常態時,偏態與峰度時非常重要的指標。一個變量的數值除了具有中心位置與一定的分散程度,其數值的分布可能為對稱或不對稱。描述一個變量的對稱性(symmetry)的量數稱為偏態係數。
  • 平穩性檢驗結果分析專題及常見問題 - CSDN
    平穩性是當前時間序列分析的前提條件,因為我們的建模過程基本都是以大數定理和中心極限定理為理論基礎(比如ARMA,ARIMA模型等),而大數定理和中心極限定理也是有前提條件的,那就是要求樣本同分布(等價於時間序列的平穩性)。如果這個條件不滿足,那麼我們的很多分析結果是不可靠的。白噪聲屬於平穩序列,因為它的均值為0,方差為常數,協方差為0。
  • 規定「學生成績必須服從正態分布」
    中南大學吳嘉老師怒懟教務辦規定「學生成績必須服從正態分布」?中南大學要求老師對學生的成績必須服從正態分布。請問這樣的做法真的好嗎?吳嘉老師站出來發聲我們發現許多的學校明確要求學生學業成績必須符合正態分布。
  • 小白快速上手數據分析模型10 | 描述性統計案例
    ○輸入:單列或者多列定量數據○輸出:對總體的各項統計指標(欄位)進行整體描述分析,包括樣本量、最大值、最小值等統計量描述性統計(又稱敘述統計)用於對調查總體所有變量的有關數據進行統計性描述。它的作用是通過描繪統計圖、統計表或者計算數據分布特徵的基本統計量,來了解樣本觀察值的分布情況,為進一步的統計推斷打下基礎[2]。
  • 正態分布 線性回歸 - CSDN
    採用最小二乘法進行線性回歸時,需要滿足特定的條件:正態性:一定範圍內,給定任意x值,對應的y均服從正態分布獨立:即誤差項間不存在相關,一般時間序列數據會存在自相關線性:因變量和自變量有線性關係同方差性:即模型誤差項的方差相等。
  • [道贏·科技] | 鋰電生產製程數據不服從正態分布,正常嗎?
    在日常工作中,正態分布是我們最為常見的數據分布類型。但很多時候,我們會發現自己的數據分布樣式 」千奇百怪「 ,與正態分布相比相去甚遠。那麼,一組數據不服從正態分布,正常嗎?如果不服從正態分布的數據暗示著某些異常的話,發生的又是什麼問題呢?為了回答這些問題,先要從正態分布的產生原理說起......正態分布是如何產生的?