數據的分布形態:偏態係數與峰態係數

2021-03-02 超智星球

大家好,我是老喬,這裡是超智星球的《超智·統計學》系列課程。


本文是系列課程的第十八期,1511個字,預計用時4分鐘。

「超智·挖坑」簡單談談統計學

「超智」統計學核心思想:一切用數據說話

統計學說到底了,主要就這兩件事,萬變不離其宗~

雖然我經常用Python,但我強烈推薦一下R

雖然R主導了統計學,但我堅持使用Python

人類度量世間萬物的尺子:談數據及數據的分類

矛盾與發展,分類型數據的整理與展示

小學生都能掌握的,數值型數據的分類、排序與計算方法

各種常見可視化圖表的用法:箱線圖、散點圖、折線圖、雷達圖、直方圖

前面兩篇文章,我們分別講了如何衡量一組數據的集中趨勢、離散趨勢。

集中趨勢和離散程度是數據分布的兩個重要特徵,尤其是均值和標準差。對於正態分布,只要知道了均值和標準差,就可以確定其分布。

但對於未知的分布,要想全面了解數據分布的特點,我們不僅要掌握數據的集中趨勢和離散程度,還需要知道數據分布的形狀是否對稱、偏斜的程度以及分布的扁平程度等,統稱為分布的形態。

偏態和峰態就是對分布形態的測度。其中:


前面咱講了箱線圖和直方圖,也講了眾數、中位數和平均數,利用這些,很容易就能知道數據分布是對稱、左偏還是右偏。

要是想要精準的測度偏態,其統計量是偏態係數(coefficient of skewness),記作SK。

根據未分組的原始數據計算偏態係數時,通常採用下面的公式:

根據分組數據計算偏態係數,可採用下面的公式:

式中,s^3是樣本標準差的三次方。

利用Excel中的SKEW函數可以計算一組數值型數據的偏態係數。

如果一組數據的分布是對稱的,則偏態係數等於O; 如果偏態係數明顯不等於0,表明分布是非對稱的。

偏態係數為正,則為右偏分布;偏態係數為負,則為左偏分布。

偏態係數越接近0,偏斜程度就越小。若偏態係數大於1或小於—1,稱為高度偏態分布;若偏態係數在0.5~1或—1~—0.5之間,則認為是中等偏態分布。


利用繪圖,也可以看出峰度是尖峰還是扁平。

要是想要精準的測度峰態,其統計量是峰態係數(coefficient of kurtosis),記作K。

根據未分組數據計算峰態係數,可採用下面的公式:

根據分組數據計算峰態係數,可採用下面的公式:

式中,s^4 是樣本標準差的四次方。

利用Excel中的KURT函數可以計算一組數值型數據的峰態係數。

用峰態係數說明分布的尖峰和扁平程度,是通過與標準正態分布的峰態係數進行比較來實現的。


如果你看到了這裡,那我真的是很開心了。如果您覺得本文有所收穫。

參考文獻:

1. 孫靜娟主編.《統計學》.清華大學出版社.2015:18-20.

2. 袁衛,劉超.《統計學--思想、方法與應用》(第二版).中國人民大學出版社.2011.

3. 賈俊平,何曉群,金勇進.《統計學》(第七版).中國人民大學出版社.2018.

科技造福人類

人機共贏共生

一起為超智星球

挖坑播種開荒

相關焦點

  • 偏度與峰度的正態性分布判斷
  • 碩博學術專欄——偏態與峰度
    除了變異量數,描述統計量還可以利用偏態(skewness)與峰度(kurtosis)來描述數據的分布特徵。尤其是當研究者關注數據的分布是否為常態時,偏態與峰度時非常重要的指標。一個變量的數值除了具有中心位置與一定的分散程度,其數值的分布可能為對稱或不對稱。描述一個變量的對稱性(symmetry)的量數稱為偏態係數。
  • 一名合格的數據分析師,統計基礎不可或缺!
    分類數據描述(1) 頻數分布表——單變量分布表主要用於計數和匯總一個分類變量的數據,通過它可以使頻數、比例等一目了然,從而為進一步分析做準備。(2) 頻數分布表——雙變量列聯表主要用於計數和匯總兩個分類變量的數據,通過它可以使兩個變量交叉分類的頻數、比例等一目了然,從而為進一步分析做準備。
  • SPSS之簡單相關係數
    在實際的客觀分析研究中,相關係數一般都是利用樣本數據計算的,因而帶有一定 的隨機性,樣本容量越小其可信程度就越差。因此也需要進行檢驗,即對總體相關係數 ρ 是否等於 0 進行檢驗。 解:(1)根據表 5 的數據創建 SPSS 數據文件。 (2)選擇 Analyze=>Correlate=>Bivariate,在顯示的對話框中,選擇變量Y和X進入 Variables 框。
  • 相關係數種類
    首先,Pearson相關係數的前提條件是要兩個變量滿足近似正態分布。這要求在計算相關係數前,要作正態性檢驗。而且,多數情況下變量不一定滿足正態分布的,這就無法使用Pearson相關係數。其次,Pearson相關係數是在方差和協方差的基礎上得到的,對離群值比較敏感。
  • Pearson(皮爾遜)相關係數
    相關係數:考察兩個事物(在數據裡我們稱之為變量)之間的相關程度。如果有兩個變量:X、Y,最終計算出的相關係數的含義可以有如下理解:(1)、當相關係數為0時,X和Y兩變量無關係。(2)、當X的值增大(減小),Y值增大(減小),兩個變量為正相關,相關係數在0.00與1.00之間。
  • 正態分布的常用數據 - CSDN
    #尋找真知派#如上一篇文章所述,樣本所屬總體服從正態分布是數據分析和數據挖掘等數據處理的重要前提。如果我們採集的樣本並不能確認其總體是否服從正態分布,那麼數據處理的結果就是不可靠的。因此,對樣本數據進行正態分布檢驗十分必要。
  • 【R語言】相關性分析、相關係數的顯著性檢驗及可視化
    相關係數是對變量之間的相關程度的定量描述,相關係數值介於-1~1之間,越接近0相關性越低,越接近-1或1相關性越高;正負號表明相關方向,正號為正相關、負號為負相關。當數據呈正態分布時,才可以使用相關性分析。可以使用Shapiro-Wilk test進行檢查數據是否滿足正態分布。
  • 【乾貨】統計學×數據分析|信度|卡方|施測|統計量|正態分布_網易...
    集中趨勢分析  集中趨勢分析主要靠平均數、中數、眾數等統計指標來表示數據的集中趨勢。 例如被試的平均成績多少? 是正偏分布還是負偏分布?  離中趨勢分析  離中趨勢分析主要靠全距、四分差、平均差、方差(協方差: 用來度量兩個隨機變量關係的統計量)、標準差等統計指標來研究數據的離中趨勢。
  • 第270期|皮爾森相關係數簡述
    相關係數:考察兩個事物(在數據裡我們稱之為變量)之間的相關程度。      如果有兩個變量:X、Y,最終計算出的相關係數的含義可以有如下理解:(1)、當相關係數為0時,X和Y兩變量無關係。(2)、當X的值增大(減小),Y值增大(減小),兩個變量為正相關,相關係數在0.00與1.00之間。
  • 皮爾森和斯皮爾曼相關係數
    那我們都無法通過皮爾森相關性係數的計算來判斷心跳與跑步速度到底相不相關。此外,實驗數據通常假設是成對地來自於正態分布。因為我們在求皮爾森相關係數之後,通常還會用t檢驗之類的方法來進行皮爾森相關檢驗,而 t檢驗是基於數據呈正態分布的假設的。
  • K-S檢驗,皮爾遜相關係數,spearman相關係數總結
    K-S檢驗Kolmogorov-smirnov是一個比較頻率分布f(x)與理論分布g(x)或者兩個觀測值分布的檢驗辦法
  • 回歸係數顯著性t檢驗 - CSDN
    假設:正態性假設                        (12)  在正態假設下,原假設H0 : β1 = 0 成立時,  缺點:接近於1的程度與數據組數 n 有關(n 較小時,相關係數的波動較大,|r| 接近於1,n 較大時,|r|易偏小,n 較小時,不能僅憑 r 判定 x 與 y 之間有密切的線性關係)  另外補充一點,Pearson相關係數的適用範圍:  ① 兩個變量之間是線性關係
  • 數學建模筆記——相關係數
    所謂描述性統計,就是通過表格,圖形等手段從各個方面對數據進行展示的過程。其主要作用就是從總體上看一看數據變量的特徵、分布、變化趨勢等等。簡單的描述性統計主要有兩個內容,一是對數據變量進行五數概括,看一看變量的位置分布;另一個就是展示一下數據變量的均值與方差。除此之外,出於美觀以及方便的需要,我們還會把數據進行可視化操作,以更好地進行展示。
  • 光伏組件熱模型係數的確定方法和回歸分析
    U0為熱損失係數,為常數,U1是和風速有關的變量。WS是風速。3、PVsyst組件熱模型PVsyst組件熱模型是在Faiman模型的基礎上發展而來,但是有點區別,溫度是組件內部電池的溫度。公式中Tc為電池溫度,Ta為環境溫度,EPOA為組件斜面輻照度,是組件實際工況下的轉換效率,默認情況下是10%,α是組件電池的吸收率,默認值為0.9。U0U1為熱損失係數,WS是風速。
  • 這到底是左偏啊還是右偏?私授你偏態分布的正確讀取方式
    小兵我是跨專業學統計的半吊子昏析獅,常常分不清楚正態分布的左偏和右偏,好不容易自認為分得清楚了,隔一大段時間再猛然遇到偏態時
  • 檢驗回歸係數的顯著性excel_excel相關係數顯著性檢驗 - CSDN
    Excel數據分析工具庫是個很強大的工具,可以滿足基本的統計分析,這裡介紹用Excel數據分析工具庫中的回歸做回歸分析。本文僅作為學習筆記之用,歡迎各位交流指正。
  • 相關係數計算(Spearman,Pearson,Kendall)
    Spearman相關係數又稱秩相關係數,是利用兩變量的秩次大小作線性相關分析,對原始變量的分布不作要求,屬於非參數統計方法,適用範圍要廣些。斯皮爾曼等級相關是根據等級資料研究兩個變量間相關關係的方法。它是依據兩列成對等級的各對等級數之差來進行計算的,所以又稱為「等級差數法」斯皮爾曼等級相關對數據條件的要求沒有積差相關係數嚴格,只要兩個變量的觀測值是成對的等級評定資料,或者是由連續變量觀測資料轉化得到的等級資料,不論兩個變量的總體分布形態、樣本容量的大小如何,都可以用斯皮爾曼等級相關來進行研究對於服從Pearson相關係數的數據亦可計算Spearman相關係數,但統計效能要低一些
  • 內生性會造成回歸係數的巨大誤差
    回歸分析是數據分析中最基礎也是最重要的分析工具,絕大多數的數據分析問題,都可以使用回歸的思想來解決。回歸分析的任務就是,通過研究自變量X和因變量Y的相關關係,嘗試去解釋Y的形成機制,進而達到通過X去預測Y的目的。