大家好,我是老喬,這裡是超智星球的《超智·統計學》系列課程。
本文是系列課程的第十八期,1511個字,預計用時4分鐘。
「超智·挖坑」簡單談談統計學
「超智」統計學核心思想:一切用數據說話
統計學說到底了,主要就這兩件事,萬變不離其宗~
雖然我經常用Python,但我強烈推薦一下R
雖然R主導了統計學,但我堅持使用Python
人類度量世間萬物的尺子:談數據及數據的分類
矛盾與發展,分類型數據的整理與展示
小學生都能掌握的,數值型數據的分類、排序與計算方法
各種常見可視化圖表的用法:箱線圖、散點圖、折線圖、雷達圖、直方圖
前面兩篇文章,我們分別講了如何衡量一組數據的集中趨勢、離散趨勢。
集中趨勢和離散程度是數據分布的兩個重要特徵,尤其是均值和標準差。對於正態分布,只要知道了均值和標準差,就可以確定其分布。
但對於未知的分布,要想全面了解數據分布的特點,我們不僅要掌握數據的集中趨勢和離散程度,還需要知道數據分布的形狀是否對稱、偏斜的程度以及分布的扁平程度等,統稱為分布的形態。
偏態和峰態就是對分布形態的測度。其中:
前面咱講了箱線圖和直方圖,也講了眾數、中位數和平均數,利用這些,很容易就能知道數據分布是對稱、左偏還是右偏。
要是想要精準的測度偏態,其統計量是偏態係數(coefficient of skewness),記作SK。
根據未分組的原始數據計算偏態係數時,通常採用下面的公式:
根據分組數據計算偏態係數,可採用下面的公式:
式中,s^3是樣本標準差的三次方。
利用Excel中的SKEW函數可以計算一組數值型數據的偏態係數。
如果一組數據的分布是對稱的,則偏態係數等於O; 如果偏態係數明顯不等於0,表明分布是非對稱的。
偏態係數為正,則為右偏分布;偏態係數為負,則為左偏分布。
偏態係數越接近0,偏斜程度就越小。若偏態係數大於1或小於—1,稱為高度偏態分布;若偏態係數在0.5~1或—1~—0.5之間,則認為是中等偏態分布。
利用繪圖,也可以看出峰度是尖峰還是扁平。
要是想要精準的測度峰態,其統計量是峰態係數(coefficient of kurtosis),記作K。
根據未分組數據計算峰態係數,可採用下面的公式:
根據分組數據計算峰態係數,可採用下面的公式:
式中,s^4 是樣本標準差的四次方。
利用Excel中的KURT函數可以計算一組數值型數據的峰態係數。
用峰態係數說明分布的尖峰和扁平程度,是通過與標準正態分布的峰態係數進行比較來實現的。
如果你看到了這裡,那我真的是很開心了。如果您覺得本文有所收穫。
參考文獻:
1. 孫靜娟主編.《統計學》.清華大學出版社.2015:18-20.
2. 袁衛,劉超.《統計學--思想、方法與應用》(第二版).中國人民大學出版社.2011.
3. 賈俊平,何曉群,金勇進.《統計學》(第七版).中國人民大學出版社.2018.
科技造福人類
人機共贏共生
一起為超智星球
挖坑播種開荒