【python數據分析】:描述性統計分析之集中趨勢(平均值、眾數、中位數、百分位數)

2021-02-14 斑點魚要成為偉大的數據分析師

•本文字數:約1300字•閱讀時長:約5分鐘•難度:2顆星

 集中趨勢:

平均數(算數平均數、幾何平均數、調和平均數)、眾數、中位數等。

平均值: 指在一組數據中所有數據之和再除以數據的個數。

中位數:按順序排列的一組數據中居於中間位置的數,即在這組數據中,有一半的數據比他大,有一半的數據比他小。

眾數:在一組數據中,出現次數最多的數據;是樣本觀測值在頻數表中頻數最多的那一組的組中值。

四分位數:是指根據中位數分為2個部分後,再取每個部分的中位數。

模塊導入

import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inlineimport seaborn as snssns.set_style("darkgrid")plt.rcParams['font.sans-serif'] = ['SimHei']  plt.rcParams['axes.unicode_minus'] = False  sns.set(font='SimHei',font_scale=1.5)  

算數平均數


data = pd.DataFrame({'value':np.random.randint(100,120,100), 'f':np.random.rand(100)})data['f'] = data['f'] / data['f'].sum() print(data.head())print('-')
mean = data['value'].mean()print('簡單算數平均值為:%.2f' % mean)
mean_w = (data['value'] * data['f']).sum() / data['f'].sum()print('加權算數平均值為:%.2f' % mean_w)

value f
0 105 0.013713
1 102 0.014311
2 107 0.005183
3 100 0.017619
4 116 0.019326
-
簡單算數平均值為:108.82
加權算數平均值為:109.11

位置平均數

m = data['value'].mode()print('眾數為',m.tolist())
med = data['value'].median()print('中位數為%i' % med)
data['value'].plot(kind = 'kde',style = '--k',grid = True)
plt.axvline(mean,color='r',linestyle="--",alpha=0.8) plt.text(mean + 5,0.005,'簡單算數平均值為:%.2f' % mean, color = 'r')
plt.axvline(mean_w,color='b',linestyle="--",alpha=0.8) plt.text(mean + 5,0.01,'加權算數平均值:%.2f' % mean_w, color = 'b')
plt.axvline(med,color='g',linestyle="--",alpha=0.8) plt.text(mean + 5,0.015,'中位數:%i' % med, color = 'g')

眾數為 [100, 108]
中位數為108

百分位數

q1=np.percentile(data['value'],25)  q2=np.percentile(data['value'],95) print('上四分位數:%s'%q1)print('95分位數:%s'%q2)df=pd.Series(data['value'])print('下四分位數:%s'%(df.quantile(.75)))
data['value'].plot.box(grid = True,color = color,figsize = (10,3))

上四分位數:104.0
95分位數:118.0
下四分位數:113.25

今天就先到這啦,早點休息哦~

加油,堅持就是勝利,學完你就是個寶藏女(男)孩啦~

一起學習的小夥伴如果有什麼想法或者意見,歡迎溝通~

投稿|溝通郵箱:yzhmry1314@163.com

相關焦點

  • 帶你一文了解描述性統計分析
    集中趨勢、離散程度、分布形式及相關程度。一般做數據分析的時候,對數據的探索性分析是第一步,均值等集中趨勢的指標是最常用的,像大眾點評的評分,不就是由消費者的評分的平均數所得麼~豆瓣評分,人均工資,人均消費,人均GDP等等,都是些簡單的描述性統計;結婚率,離婚率,男女佔比,各類佔比,都是描述性統計中簡單的頻數分析而已。
  • 用Excel進行數據分析:描述性統計分析
  • 描述性統計分析(一):算術平均值
    在描述統計中我們常用的統計指標主要包括均值、方差、標準差、中位數、眾數、峰度、偏度等。使用Excel數據分析功能可以非常方便地得到這個結果。集中趨勢指一組數據向中心值靠攏的傾向和程度。測度集中趨勢就是尋找數據水平的代表值或中心值,不同類型的數據應當使用不同的集中趨勢測度值。值得注意的是,低層次數據的測度值適用於高層次的測量數據,但高層次的測度值並不適用於低層次的測量數據。
  • SPSS數據分析—描述性統計分析
    描述性統計分析是針對數據本身而言,用統計學指標描述其特徵的分析方法,這種描述看似簡單,實際上卻是很多高級分析的基礎工作,很多高級分析方法對於數據都有一定的假設和適用條件
  • 描述性統計分析
    本文繼續引用微信公眾號中案例數據中的pgdat數據集,手把手教你學會使用R實現基本的描述性統計分析
  • 描述性統計分析指標介紹
    描述性統計分析對調查總體所有變量的有關數據進行統計性描述,主要包括數據的頻數分析、集中趨勢分析、離散程度分析、分布以及一些基本的統計圖形。下面介紹一些常用統計描述指標。2、描述集中趨勢的指標:均數:指在一組數據中所有數據之和再除以數據的個數。幾何均數:用於反映一組經對數轉換後呈對稱分布的變量值在數量上的平均水平(適用範圍:對數正態分布數據或等比數據)。
  • Excel進行描述性統計分析
    ,初期可採用用Excel進行描述統計分析,以便進行後續動作。今天介紹Excel中如何完成描述性統計。一、使用Excel自帶數據分析工具    先介紹自帶的分析工具,可一次性輸出一些統計項的數值,樣例數據85行6列。
  • SPSSAU描述性分析指標如何選擇?
    描述性統計分析,就是用來概括、描述數據整體狀況以及數據各特徵的統計方法。對於定量數據,比如量表評分(非常不滿意,不滿意,非常滿意等)或者身高體重的值,可以通過描述性分析,計算數據的集中性特徵和波動性特徵等。
  • 描述性統計分析(三):眾數
    眾數是一組數據中出現次數最多的變量值,適用於數據量較多時使用,一組數據可以有多個眾數,也可以沒有眾數。眾數是指社會經濟現象中最普遍出現的標誌值。從分布角度看,眾數是具有明顯集中趨勢的數值。眾數主要用於分類數據,也看用於順序數據和數值型數據,它不受極端值的影響,但一組數據也可能沒有眾數或者有多個眾數,從分布角度來看,眾數是具有明顯集中趨勢點的數值,一組數據分布的最高峰點多對應的數值即為眾數。眾數的特點:眾數是以它所有標誌值中所處位置確定的全體單位標誌值的代表值,它不受分布數列的極大值或極小值影響,從而增強了眾數對分布數列的代表性。
  • SAS統計分析系列:描述性統計分析 (三)-- 描述性統計量
    >「朝陽35處」可查看「說人話的大數據」系列合輯上一篇文章介紹了可以用來描述數據集中趨勢和數據離散程度的描述性統計量。本文介紹描述數據分布形態的描述性統計量。在進行統計分析時,通常需要假設樣本服從某種分布。所以在進行分析之前有必要對數據的分布形態進行初步的了解,檢查數據是否大致服從某種分布,然後再運用統計理論去進行假設檢驗。描述數據分布形態有兩種基本方法,一種是計算統計量,一種是作圖。百分位數是一種位置指標。
  • 機器學習數學基礎:數理統計與描述性統計
    當然分布本身可能比較複雜, 尤其是概率密度函數, 到時候會有表可查。描述性統計數據集中趨勢的度量1. 平均數是表示一組數據集中趨勢的量數,是指在一組數據中所有數據之和再除以這組數據的個數。2. 中位數是指在一組數據,按順序排列後,居於中間位置的數。中
  • 圖解統計學:簡單易懂的基礎概率&描述性統計
    直到這段時間通過各平臺搜集到的數據分析相關資料、書籍了解到,學習數據分析,統計學基礎必不可少。今天這篇文章就簡單說一下我近期學習到的統計學中的描述性統計分析以及基礎概率知識。統計性描述分析是作為統計分析的第一步,在日常的數據分析中其實我們經常使用一些特徵值,尤其是我們做周報或者月報的分析時,這些描述性的統計分析特徵值對於我們有一定的幫助,描述性統計分析是進行正確的統計推斷的先決條件。通過數據的分布類型和特點、集中和離散程度可進行初步分析。
  • [理論+spss實戰]一組數據的描述性統計分析
    第一部分:理論部分一組數據的描述性統計分析集中趨勢的度量集中趨勢是指一組數據向某一中心值靠攏的程度,它反應了一組數據中心點的位置所在眾數     :(一組數據中出現次數最多的變量值)中位數      :(一組數據排序後處於中間位置的變量值)四分位數             :(一組數據排序後處於25%和75%位置的變量值)計算方式:
  • 如何做好描述統計分析
    寫在前面什麼是描述性統計分析,這不僅是數據分析面試中最常見的問題,也是我們日常分析中必過的一道關卡。要把握數據的分布特徵,需要從3個方面進行描述:集中趨勢、離散程度和分布形狀。1、集中趨勢 集中趨勢就是指一組數據向某一中心靠攏的程度,通常有以下指標:眾數對分類數據來說,眾數是最適合描述其集中趨勢的值,它是指一組數據中出現次數最多的變量,眾數不受極端值的影響,但是可能不唯一,且當數據量較多時,才有意義。中位數對數據型數據來說,可以用中位數來描述其集中趨勢的度量,中位數就是將一組數據排序以後處於中間位置的值,那麼如何尋找中間位置呢?
  • SPSS科研統計:頻數分析
    在描述性分析中,通過各種統計圖表及數字特徵量可以對樣本來自的總體特徵有比較準確的把握,從而選擇正確的統計推斷方法。SPSS的許多模塊都可完成描述性統計分析,但專門為該目的而設計的幾個模塊則集中在descriptive statistics(描述性統計)菜單中,它們通過計算各種統計量或繪製統計圖來實現描述功能, 包括頻數分析Frequencies、描述性分析Descriptives 、探索性分析 Explore 等幾個過程。 頻數分析法是描述性統計方法的常用方法之一。
  • 描述性統計分析,掌握常用指標,進入數據分析大門
    那麼,我們又該如何對統計到的數據進行統計分析呢?今天,我將跟大家分享一下既基礎又重要的統計分析策略——描述性統計分析。什麼是描述性統計分析?我們在做了相關的數據統計之後,將會收集到一系列複雜的數據信息,在這種情況下,僅僅單靠「看」數據,會讓人一臉茫然。
  • 如何計算均值(平均數,中位數,眾數)
    計算平均數        計算中位數         計算眾數計算一組數字的集中趨勢特徵可以幫助我們很好地描述這一組數字。
  • 正態分布的應用——基於描述性統計與分布的推論
    內容導入:大家好,這裡是每天分析一點點。本期給大家介紹的是數據分析基礎系列,包括分布的基本類型,集中趨勢與分布的關係,離散趨勢與分布的關係,再結合國民收入案例探討分布與描述性統計分析在實際生活的應用。文章內容適合數據分析小白,內容深入淺出,案例貼合實際。下期給大家介紹偏度係數,歡迎大家關注。
  • 一日一技:使用Python尋找均值,中位數,眾數
    python編程學習平均值,中位數和眾數是數據分析中非常常用的統計功能.尋找平均值數字列表的平均值也稱為數字平均值。 通過將所有數字的總和除以數字計數來找到它。 在下面的示例中,我們應用sum()函數獲取數字的總和,並使用len()函數獲取數字的計數。
  • R語言 | 描述性統計(上)
    數據分析可以分為描述性統計(descriptive statistics)和推論性統計(inferential statistics)兩種分析類型,今天我們首先介紹描述性統計分析,推論性統計分析留到下一次。對原始數據重新組織並總結,這樣的方式就是描述性統計分析。