最近加入一個數據挖掘學習小組,熱心的群主制定了一個詳細的每周學習計劃,分為統計學和機器學習兩大知識點。學習完要提交作業,以文章輸出或者其它方式都行,現在開始第一周的統計學相關知識輸出啦,先上一張思維導圖。前面部分以文字為主,涉及到的數學公式放在最後。
01
—
一、集中趨勢
集中趨勢反映各數據向其中心值靠攏或聚集的程度。
㈠ 眾數
數據集合中出現次數最多的變量值被稱為眾數。眾數可能有一個,也可能有多個。如果所有數據出現的次數都一樣,那麼這組數據沒有眾數。在高斯分布(正態分布)中,眾數位於峰值,和平均數、中位數相同。一般情況下,只有在數據量比較大的情況下,眾數才有意義。㈡ 中位數
將一組數據按大小順序排列後,處於中間位置上的變量值就是中位數。計算中位數有兩種情況,根據數據個數而定。中位數是一個位置代表值,同樣不受極端值的影響。
㈢ 分位數
也許大家都比較熟悉十分位數,百分位數,但對於四分位數就沒那麼了解了吧。四分位數是一組數據排序後處於25%(下四分位數)和75%(上四分位數)位置上的值。
箱線圖就是利用數據中的五個統計量:最小值、上四分位數、中位數、下四分位數與最大值來描述數據的一種圖。額,箱線圖經常應用在識別檢測異常值方面。
㈣ 平均數
平均數也稱為均值,是一組數據相加後除以數據個數得到的結果。它是集中趨勢的最主要測度值。對未經分組數據計算的平均數稱為簡單平均數,也就是常說的平均數。每年都會看到說哪個城市的平均薪資出爐了,大PK之類的,不看不知道,一看就扎心!
對分組數據計算的平均數稱為加權平均數。幾何平均數是n個變量值乘積的n次方根,主要用於計算平均比率。
對於具有單峰分布的大多數數據而言,眾數、中位數和平均數之間具有以下的關係:
如果數據是對稱分布,眾數=中位數=平均數如果數據是左偏分布,說明數據存在極小值,必然拉動平均數向極小值一方靠。而眾數和中位數是位置代表值,不受極值的影響,所以平均數< 中位數< 眾數如果數據是右偏分布,說明數據存在極大值,必然拉動平均數向極大值一方靠,則眾數< 中位數 < 平均數
均值、中位數、眾數優缺點:
02
—
二、離散程度
離散程度反映各數據遠離其中心值的趨勢。
㈠ 數值型數據
① 極差
極差:一組數據的最大值和最小值之差,也稱全距,用R表示。極差容易受極端值的影響,不能反映出中間數據的分散情況。
② 平均差
平均差也稱平均絕對離差、平均偏差,它是各變量值與其平均數離差絕對值的平均數。平均差以平均數為中心,反映了每個數據與平均數的平均差異程度。為了避免離差之和等於零而無法計算平均差這個問題,因此採取了絕對值,以離差的絕對值來表示總離差。
③ 方差
方差是各變量值與其平均數離差平方的平均數。
④ 標準差
標準差是方差的平方根。
★ 注意 ★
方差和標準差能較好地反映出數據的離散程度,是應用最廣的離散程度的測度值。樣本方差是用樣本數據個數減1後去除離差平方和,其中樣本數據個數減1,即n-1稱為自由度。與方差不同的是,標準差是有量綱的,它與變量值的計量單位相同,其實際意義比方差清楚。因此,在對實際問題進行分析時會更多地使用標準差。㈡ 順序數據
四分位差
四分位差 IQR(四分位距):是上四分位數和下四分位數之差。它反映了中間50%的數據的離散程度,其數值越小,說明中間的數據越集中,反之則越分散。同樣不受極值的影響。
㈢ 分類數據
異眾比率
異眾比率指非眾數組的頻數佔總頻數的比例。主要用于衡量眾數對一組數據的代表程度。異眾比率越大說明眾數的代表性越差,越小說明眾數的代表性越好。
㈣ 相對離散程度
離散係數
離散係數又稱變異係數, 它是一組數據的標準差與其相應的平均數之比。離散係數主要用於比較不同樣本數據的離散程度。離散係數大,說明數據的離散程度越大,離散係數小,說明數據的離散程度也小。
03
—
三、分布的形狀
㈠ 偏態係數
偏態是對數據分布對稱性的測度。測度偏態的統計量是偏態係數,用SK表示。SK的值越大,表示偏斜的程度越大。
如果一組數據的分布是對稱的,離差三次方(具體公式看後面的圖)後正負離差可以相互抵消,則SK等於0。如果分布是非對稱的,偏態係數有正有負。SK為正值時,表示正離差值較大,判斷為正偏或右偏。SK為負值時,表示負離差值較大,判斷為負偏或左偏。
㈡ 峰態係數
峰態是對數據分布平峰或尖峰程度的測度。測度峰態的統計量是峰態係數,用K表示。峰態通常是相對於標準正態分布而言的:
如果一組數據服從標準正態分布,則峰態係數的值為0;如果峰態係數的值明顯不等於0,則表明分布比正態分布更平或更尖,稱為平峰分布或尖峰分布。K大於0時為尖峰分布,數據分布更集中;小於0時為扁平分布,數據的分布越分散。相關的數學公式如下:(手寫一遍,加深記憶,哈哈...)
方差、離散係數、偏態係數和峰態係數:
自認為是自己寫得很用心的一篇文章啦,嘻嘻!總體來說,上述知識也算消化了大半了,比較不熟悉的是後面的偏態係數和峰態係數,有待後面繼續深入探索。下周開始結合Python進行描述性統計實踐。在看的小夥伴們如果覺得對你有用的話點個在看,發現有不對的地方歡迎留言指正,謝謝~