數據的分布形態:偏態係數與峰態係數

2021-02-19 超智星球

大家好,我是老喬,這裡是超智星球的《超智·統計學》系列課程。


本文是系列課程的第十八期,1511個字,預計用時4分鐘。

「超智·挖坑」簡單談談統計學

「超智」統計學核心思想:一切用數據說話

統計學說到底了,主要就這兩件事,萬變不離其宗~

雖然我經常用Python,但我強烈推薦一下R

雖然R主導了統計學,但我堅持使用Python

人類度量世間萬物的尺子:談數據及數據的分類

矛盾與發展,分類型數據的整理與展示

小學生都能掌握的,數值型數據的分類、排序與計算方法

各種常見可視化圖表的用法:箱線圖、散點圖、折線圖、雷達圖、直方圖

前面兩篇文章,我們分別講了如何衡量一組數據的集中趨勢、離散趨勢。

集中趨勢和離散程度是數據分布的兩個重要特徵,尤其是均值和標準差。對於正態分布,只要知道了均值和標準差,就可以確定其分布。

但對於未知的分布,要想全面了解數據分布的特點,我們不僅要掌握數據的集中趨勢和離散程度,還需要知道數據分布的形狀是否對稱、偏斜的程度以及分布的扁平程度等,統稱為分布的形態。

偏態和峰態就是對分布形態的測度。其中:


前面咱講了箱線圖和直方圖,也講了眾數、中位數和平均數,利用這些,很容易就能知道數據分布是對稱、左偏還是右偏。

要是想要精準的測度偏態,其統計量是偏態係數(coefficient of skewness),記作SK。

根據未分組的原始數據計算偏態係數時,通常採用下面的公式:

根據分組數據計算偏態係數,可採用下面的公式:

式中,s^3是樣本標準差的三次方。

利用Excel中的SKEW函數可以計算一組數值型數據的偏態係數。

如果一組數據的分布是對稱的,則偏態係數等於O; 如果偏態係數明顯不等於0,表明分布是非對稱的。

偏態係數為正,則為右偏分布;偏態係數為負,則為左偏分布。

偏態係數越接近0,偏斜程度就越小。若偏態係數大於1或小於—1,稱為高度偏態分布;若偏態係數在0.5~1或—1~—0.5之間,則認為是中等偏態分布。


利用繪圖,也可以看出峰度是尖峰還是扁平。

要是想要精準的測度峰態,其統計量是峰態係數(coefficient of kurtosis),記作K。

根據未分組數據計算峰態係數,可採用下面的公式:

根據分組數據計算峰態係數,可採用下面的公式:

式中,s^4 是樣本標準差的四次方。

利用Excel中的KURT函數可以計算一組數值型數據的峰態係數。

用峰態係數說明分布的尖峰和扁平程度,是通過與標準正態分布的峰態係數進行比較來實現的。


如果你看到了這裡,那我真的是很開心了。如果您覺得本文有所收穫。

參考文獻:

1. 孫靜娟主編.《統計學》.清華大學出版社.2015:18-20.

2. 袁衛,劉超.《統計學--思想、方法與應用》(第二版).中國人民大學出版社.2011.

3. 賈俊平,何曉群,金勇進.《統計學》(第七版).中國人民大學出版社.2018.

科技造福人類

人機共贏共生

一起為超智星球

挖坑播種開荒

相關焦點

  • 偏度與峰度的正態性分布判斷
    上一篇文章用Q-Q圖來驗證數據集是否符合正態分布,本文首先介紹了偏度與峰度的定義,然後用偏度與峰度檢測數據集是否符合正態分布,最後分析該檢測算法的適用條件以及SPSS的結果分析。1、 偏度與峰度(1) 偏度(Skewness)        偏度衡量隨機變量概率分布的不對稱性,是相對於平均值不對稱程度的度量,通過對偏度係數的測量,我們能夠判定數據分布的不對稱程度以及方向。
  • 數據概率分布形態的兩個指標:峰度與偏度及其實際運用
    峰度及峰度係數正態分布曲線的形態是一個倒置的鐘形,中間是單峰,兩邊逐漸平緩,但不是所有的單峰分布都是正態分布,這些分布與正態分布的差異在於峰度與偏度的差異。如下圖所示,單峰分布可以分為尖峰態、常峰態和低峰態等類型,尖峰態曲線的單峰尖而陡峭,低峰態曲線的單峰則低矮平緩。
  • [理論+spss實戰]一組數據的描述性統計分析
    右偏分布:分布的形狀偏態與峰態的度量偏態是對數據對稱性的測度峰態是對數據分布平峰或尖峰程度的測度偏態係數與峰態係數:多用於不組數據之間的比較。3分布形狀:(參考理論部分圖進行判斷)偏態係數(-0.631)< 0,故數據屬於左偏分布,由於該值在-1~-0.5之間,被認為是中等偏態分布,偏斜程度不大。
  • SPSS峰度係數結果怎麼看
    (以下簡稱bk),以前沒有深究,只知道大於0是尖峰,小於0是低峰,正態分布的峰度是等於0的。現在用SPSS軟體生成一組服從標準正態分布的隨機數,繪製帶正態曲線的直方圖,結果如下:平均值0.030,標準差0.965,峰度係數(kurtosis)bk=-0.057。百度百科上說,正態分布的峰度係數是常數3,均勻分布的峰度係數為常數1.8。
  • 數據分析|數據分布特徵的描述
    :',np.std(scores)/np.mean(scores))最大值: 52最小值: 12極差: 40四分位差 11標準差: 10.312340907863742方差: 106.34437499999999離散係數: 0.3627912368641598三、分布形狀偏態分布
  • 用Excel做數據間的相關係數
    今天給大家講一下用Excel做數據間的相關係數。
  • 審稿人說,你的數據是偏態分布的,統計方法不對?怎麼辦?
    經常地,有人諮詢我,鄭老師,論文雜誌單位返修時,審稿人說我的數據的偏態的
  • 一名合格的數據分析師,統計基礎不可或缺!
    分類數據描述(1) 頻數分布表——單變量分布表主要用於計數和匯總一個分類變量的數據,通過它可以使頻數、比例等一目了然,從而為進一步分析做準備。用於展示數據分布特徵的圖形主要有以下幾種:(2) 直方圖它可以用來展示分組數據的分布特徵。它用矩形的面積來表示頻數分布,在矩形的高度表示每一組的頻數或頻率,寬度則表示各組的組距。
  • 相關係數簡介及R計算
    Pearson相關係數計算如下:rxy,變量x和y的Pearson相關係數;n,觀測對象的數量;xi,x的第i個觀測值;yi,y的第i個觀測值。 Pearson相關係數應用於連續變量,假定兩組變量均為正態分布、存在線性關係且等方差。
  • Pearson(皮爾遜)相關係數
    相關係數:考察兩個事物(在數據裡我們稱之為變量)之間的相關程度。如果有兩個變量:X、Y,最終計算出的相關係數的含義可以有如下理解:(1)、當相關係數為0時,X和Y兩變量無關係。(2)、當X的值增大(減小),Y值增大(減小),兩個變量為正相關,相關係數在0.00與1.00之間。
  • 相關係數(三):Kendall相關及所有相關分析在SPSS中的操
    Kendall 相關係數的計算相對而言比較複雜,用於反映分類變量相關性的指標,適用於兩個分類變量均為有序分類的情況。在專家諮詢法中,是檢驗專家對指標的評分結果是否一致的指標。當資料不服從雙變量正態分布或總體分布型未知或原始數據是用等級表示時,宜用Spearman或Kendall 相關。使用Kendall 相關時要特別謹慎,一旦不恰當使用,會得出相關係數偏小的結論。
  • 正態分布的常用數據 - CSDN
    #尋找真知派#如上一篇文章所述,樣本所屬總體服從正態分布是數據分析和數據挖掘等數據處理的重要前提。如果我們採集的樣本並不能確認其總體是否服從正態分布,那麼數據處理的結果就是不可靠的。因此,對樣本數據進行正態分布檢驗十分必要。
  • SPSS教程|手把手教你如何判斷數據是否服從正態分布
    在進行統計推斷前,你一定要首先了解數據分布,否則得到的統計結論就是無效的!比如,T檢驗、方差檢驗的前提假設都是數據呈正態分布,如果你的數據不滿足正態分布,則需要轉化成正態分布或使用非參數檢驗方法。小編今天帶大家了解一下,如何判斷數據是否服從正態分布呢?!
  • SPSS統計分析案例:相關分析之kendall係數
    發起人數據小兵,資深數據分析師,SPSS套件愛好者,願與科研工作者、行業數據分析者學習交流,歡迎訂閱。相關分析中最為常用的是pearson相關係數,嚴格來說它有自己的適用性,數據最好是正態分布且為連續型的數值,比如一個班級男生的身高數據和體重數據。
  • 課件-回歸係數意義
    多元回歸的標準回歸方程(一元回歸,標準回歸係數等於相關係數理想:圍繞著0正態分布,0附近最多。右下是自相關,往往出現在追蹤數據中。回歸方程一樣,但是散點圖不一致圖4不適合做回歸圖2適合做線性回歸啟發:對數據的描述是更基礎的,不要拿到數據就去做回歸。
  • 【乾貨】統計學×數據分析|信度|卡方|施測|統計量|正態分布_網易...
    集中趨勢分析  集中趨勢分析主要靠平均數、中數、眾數等統計指標來表示數據的集中趨勢。 例如被試的平均成績多少? 是正偏分布還是負偏分布?  離中趨勢分析  離中趨勢分析主要靠全距、四分差、平均差、方差(協方差: 用來度量兩個隨機變量關係的統計量)、標準差等統計指標來研究數據的離中趨勢。
  • 第270期|皮爾森相關係數簡述
    相關係數:考察兩個事物(在數據裡我們稱之為變量)之間的相關程度。      如果有兩個變量:X、Y,最終計算出的相關係數的含義可以有如下理解:(1)、當相關係數為0時,X和Y兩變量無關係。(2)、當X的值增大(減小),Y值增大(減小),兩個變量為正相關,相關係數在0.00與1.00之間。
  • ...利率總結:兩類保險合同折現率分別呈「馬鞍形」分布和偏正態分布
    分紅險、萬能險和投連險合同折現率呈偏正態分布。這說明,這種產品的競爭仍然主要靠投資收益率的高低。3、本文中變異係數指的是近五年某公司折現率的樣本偏差與平均值的比值。該比值越大,表示公司保險合同折現率的波動性越高。