•本文字數:約2100字
•閱讀時長:約5分鐘
斑點魚對描述性統計大致分為四部分:集中趨勢、離散程度、分布形式及相關程度。
一般做數據分析的時候,對數據的探索性分析是第一步,均值等集中趨勢的指標是最常用的,像大眾點評的評分,不就是由消費者的評分的平均數所得麼~豆瓣評分,人均工資,人均消費,人均GDP等等,都是些簡單的描述性統計;結婚率,離婚率,男女佔比,各類佔比,都是描述性統計中簡單的頻數分析而已。
你想想一張PPT裡面的圖表,餅圖、折線圖、條形圖、柱狀圖、散點圖等等,哪一個是脫離了描述性統計得到的?
最基本的就是直接呈現,啥也不處理,得到一張折線圖分布,那其實是什麼?是頻數分布啊。
接著,數據分析師們,對數據進行簡單處理,取平均,取佔比等等,做成餅圖、箱線圖等等,都是集中趨勢和離散趨勢的指標啊。
然後,數據分析師們和其他業務人員區別開來的地方,是什麼?
就是統計學的專業知識啊。
如正態分布、相關性分析用起來啊,也就是真正開始進行數據分析的時候,其他業務人員可能是看圖說話,通過散點圖,覺得兩個數據之間有關係,而你作為一個數據分析師可以直接通過一個公式,一個指標相關係數,告訴他們是否真的有關係,關係的強弱。
所以啊,學好描述性統計是數據分析師的基礎,魚粉們還不趕緊學起來吖!
本文將對描述性統計的重要名詞進行解釋,後續幾篇會為各個描述性統計的指標用Python進行展示及應用,期待下吧~~
描述性統計分析要對調查總體所有變量的有關數據做統計性描述,主要包括數據的頻數分析、數據的集中趨勢分析、數據離散程度分析、數據的分布、以及一些基本的統計圖形。
1. 集中趨勢:
平均數(算數平均數、幾何平均數、調和平均數、算術-幾何平均數、平均數不等式)、眾數、中位數等。
平均數:指在一組數據中所有數據之和再除以數據的個數。
幾何均數:用於反映一組經對數轉換後呈對稱分布的變量值在數量上的平均水平(適用範圍:對數正態分布數據或等比數據)。
簡單幾何平均數的計算公式:
加權幾何平均數的計算公式:
中位數:又稱中點數,中值。中位數是按順序排列的一組數據中居於中間位置的數,即在這組數據中,有一半的數據比他大,有一半的數據比他小。
計算公式:
眾數:在一組數據中,出現次數最多的數據;是樣本觀測值在頻數表中頻數最多的那一組的組中值。
百分位數:如果將一組數據從小到大排序,並計算相應的累計百分位,則某一百分位所對應數據的值就稱為這一百分位的百分位數。第25百分位數又稱第一個四分位數,常用Q1表示;第50百分位數(中位數)又稱第二個四分位數,常用Q2表示;第75百分位數又稱第三個四分位數,常用Q3表示。
2. 離散程度:
總體方差計算公式:
樣本方差計算公式:
標準差:是總體各單位標準值與其平均數離差平方的算術平均數的平方根。它反映組內個體間的離散程度,一個較大的標準差,代表大部分數值和其平均值之間差異較大;一個較小的標準差,代表這些數值較接近平均值。計算公式就是方差的算術平方根。
變異係數:當需要比較兩組數據離散程度大小的時候,如果兩組數據的測量尺度相差太大,或者數據量綱的不同,直接使用標準差來進行比較不合適,此時就應當消除測量尺度和量綱的影響,此時可以用變異係數來進行比較,變異係數的計算公式為:變異係數 C·V =( 標準差 S / 平均值Mean )× 100%,在進行數據統計分析時,如果變異係數大於15%,則要考慮該數據可能不正常,應該剔除。。
3. 分布形式:
頻數:在一組依大小順序排列的測量值中,當按一定的組距將其分組時出現在各組內的測量值的數目,分類變量的頻數即落在各類別中的數據個數。
累計頻數:累積頻數就是將各類別的頻數逐級累加起來。
偏態係數、峰度係數:反映數據偏離正態分布的程度。
偏度係數:描述分布偏離對稱性程度的一個特徵數。當分布左右對稱時,偏度係數為0。當偏度係數大於0時,即重尾在右側時,該分布為右偏。當偏度係數小於0時,即重尾在左側時,該分布左偏。
樣本偏度的計算公式:
公式1:
公式2:
峰度係數:用來反映頻數分布曲線頂端尖峭或扁平程度的指標。在正態分布情況下,峰度係數值是3,峰度係數>3,呈現尖峭峰形態,說明觀察量更集中,有比正態分布更短的尾部;峰度係數<3,呈現平闊峰形態,說明觀測量不那麼集中,有比正態分布更長的尾部。
樣本峰度計算公式:
公式1:
公式2:
4. 相關程度
統計學中,通常用相關係數描述兩個變量之間的相關程度。
相關係數是最早由統計學家卡爾·皮爾遜設計的統計指標,是研究變量之間線性相關程度的量,一般用字母 r 表示。由於研究對象的不同,相關係數有多種定義方式,較為常用的是皮爾遜相關係數。
常見的相關係數為簡單相關係數,簡單相關係數又稱皮爾遜相關係數或者線性相關係數,其定義式為:
r值的絕對值介於0~1之間。通常來說,r越接近1,表示x與y兩個量之間的相關程度就越強,反之,r越接近於0,x與y兩個量之間的相關程度就越弱。
一起學習的小夥伴如果有什麼想法或者意見,歡迎溝通~
投稿|溝通郵箱:yzhmry1314@163.com