統計學之描述性統計 | Descriptive Statistics

2021-01-08 中捷佳信企業管理諮詢

「統計學就像比基尼,你所看到的就是真實顯露的,但隱藏起來的才是至關重要的」——無名氏

統計是有一些枯燥,但同時也可以很有趣,不是麼?

我們知道統計學包括描述性統計和推論統計,而今天的主題是描述性統計的介紹。

什麼是描述性統計呢?維基百科的定義:

"A descriptive statistic is a summary statistic that quantitatively describes orsummarizes features of a collection of information."

中文翻譯:描述性統計是一種匯總統計,用於定量描述或總結信息集合的特徵。

這裡把關鍵詞勾劃一下:

1、Describe-描述

2、Summarize-總結

注意:描述性統計的對象既可以是總體,也可以總體的一部分即是樣本。

一、描述性統計的分類

描述性統計又分為

§ 集中趨勢 Measures of central tendency

§ 離散趨勢 Measures of Dispersion

1、集中趨勢 Measures of Central Tendency

集中趨勢又稱 「數據的中心位置」,它是一組數據的代表值。集中趨勢的概念就是平均數(Average)的概念,它能夠對總體的某一特徵具有代表性,表明所研究的對象在一定時間、空間條件下的共同性質和一般水平。

常用的集中趨勢統計量(statistics)有:

§ 算數均值

§ 中位數

§ 眾數

再強調下,在統計學中,這三個統計量都有 average(平均) 的含義。

1、均值 Mean

某組觀測值的算術平均數(Arithmetic mean)

2、中位數 Median

按大小順序排列的數據組之中點位置對應的數值,該數值把數據組分成兩半

3、眾數 Mode

出現頻次最高的觀測值。

看起來集中趨勢的概念很簡單,那麼有什麼現實價值?

這裡我們舉兩個簡化的例子加以說明:

某創業公司A有10個員工,其中1人月薪10萬,9人月薪2萬;創業公司B也有10個員工,其中1人月薪5萬,9人月薪2.5萬。

現在假設你要對兩家公司員工的收入水平進行對比,你會如何做呢?

通過簡單計算我們可得:

公司A:

算術平均 Mean 2.8萬;中位數 Median 2萬;眾數 Mode 2萬

公司B:

算術平均 Mean 2.75萬;中位數 Median 2.5萬;眾數 Mode 2.5萬

如果看均值 Mean,結果是A公司比B公司高(少數高收入者會把整體平均拉高);如果看中位數 Median,顯然B公司更高。

那麼應該用Mean還是Median?這取決於我們的目的。

如果我們的目的是研究大多數人的薪資水平,顯然用中位數更好,因為B公司90%的人的薪水要高於A公司。

但是在現實生活中,我們往往看到的是用均值mean進行統計說明,尤其是國內媒體,經常用均值來描述某地區某時間段的收入水平。一個不好的結果是,大部分人都會覺得自己「被平均」了。這樣做出來的數據固然好看(就像上述公司A),但並不能更準確地展示普通大眾真實的收入水平。

看到這裡,你應該就能深刻理解「統計學就像比基尼,你所看到的就是真實顯露的,但隱藏起來的才是至關重要的」這句話的含義了是不。

二、離散趨勢 Measure of Dispersion

所謂離散趨勢就是研究觀測值偏離中心值(center) 的程度。僅僅研究集中趨勢往往是不夠的,所以還需要研究離散趨勢Measure of Dispersion.

常用離散統計量有:

§ 極差

§ 標準差(方差)

§ 四分位數間距

§ 變異係數(相對標準差)

1、極差 Range

為一組數據的最大值和最小值之差。極差的計算較簡單,但是它只考慮了數據中的最大值和最小值,而忽略了全部觀察值之間的差異。極差在SPC控制圖中有大量應用。

2、方差或標準差 Variance or Standard deviation

方差和標準差所反映的是一組數據與其均值為代表的中心的平均離散水平。因為標準差的計算應用到每一個變量值,所以,會受到極端值的影響,當數據中有較明顯的極端值(outlier)時不宜使用。必須知道這一點,所有方差/標準差分析的前提是:樣本總體服從正態分布,如果不服從,就要有補救措施,比如數據轉換。

3、四分位數間距 Inter Quartile Range (IQR)

即把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值就是四分位數。第三 "四分位數" 與第一 "四分位數" 的差距又稱四分位距, 常和中位數一起使用。比如箱型圖。

4、變異係數 Coefficient of Variation (CV)

又叫相對標準差(RSD),變異係數CV是原始數據標準差與原始數據平均數的比。標準差只能度量一組數據對其均值的偏離程度。但若要比較兩組數據的離散程度,用兩個標準差直接進行比較有時就顯得不合適了。例如一個總體的標準差是10,均值是100;如果另有一個總體的標準差是20,均值是2000。如果直接用標準差來進行比較,後一總體的標準差是前一總體標準差的2倍,似乎前一總體的分布集中,而後一總體的分布分散。但前一總體用標準差來衡量的各數據的差異量是其均值的1/10;後一總體用標準差來衡量的各數據差異是其均值的1/100,是微不足道的。可見用標準差與均值的比值大小來衡量不同總體數據的相對分散程度更合理。

三、圖形化工具

前文剛開始我們提到關於描述性統計的兩個關鍵詞是 Describe(描述) 和 Summarize(總結);同時我們也介紹了可以通過集中趨勢統計量以及離散趨勢統計量來對目標數據進行描述、總結。但這些統計量基本都是數學計算,比較抽象,有沒有更好的方法呢?

答案是有:Visulization!

沒錯,那就是一系列的圖形化工具。

在Excel軟體或者Minitab軟體都有很多圖形化工具用以描述、總結和展示數據,下面摘選部分:

§ 柱狀圖

§ 條形圖

§ 箱型圖

§ 散點圖

§ 雷達圖

§ 氣泡圖

相關焦點

  • 統計學入門級-描述性統計理論
    最近加入一個數據挖掘學習小組,熱心的群主制定了一個詳細的每周學習計劃,分為統計學和機器學習兩大知識點。學習完要提交作業,以文章輸出或者其它方式都行,現在開始第一周的統計學相關知識輸出啦,先上一張思維導圖。前面部分以文字為主,涉及到的數學公式放在最後。
  • 《中華醫學統計百科全書. 描述性統計分冊》
    描述性統計分冊》 作者 總主編:徐天和   分冊主編:田考聰書號 ISBN 978-7-5037- 6468-4開本 16開裝幀 平裝出版時間 2012年4月定價 38元內容簡介:    《中華醫學統計百科全書》是一部醫學統計參考工具書
  • 碩博學術專欄——什麼是描述統計?
    描述統計(descriptive statistics)是一套用以整理、描述、解釋資料的系統方法與統計技術,也是數據從初始狀態(raw data)成為可被理解的統計量數的一套操作程序。由於量化研究所搜集的資料數量通常十分龐大,如何以簡單明白的統計量數來描述大量資料,並作為彼此溝通的共同符號語言,便成為描述統計的主要責任。
  • 小白快速上手數據分析模型10 | 描述性統計案例
    ○輸入:單列或者多列定量數據○輸出:對總體的各項統計指標(欄位)進行整體描述分析,包括樣本量、最大值、最小值等統計量描述性統計(又稱敘述統計)用於對調查總體所有變量的有關數據進行統計性描述。 ○ 集中趨勢中的主要統計指標有:中位數和幾何均數、算術均數(均數)等○ 離散趨勢中的主要統計指標有:分位數區間、方差、標準差、變異係數(CV)等○ 偏度和峰度可用於判斷數據正態性情況。
  • 美國留學申請「專業解讀」– 統計學(強學國際)
    3.得出結論:通過對數據的分析及其意義的詮釋,得出對研究對象現狀描述性的或對研究對象未來發展趨勢的判斷性的結論。描述統計學(descriptive statistics) :描述統計學是研究如何取得反映客觀現象的數據,並通過圖表形式對所搜集的數據進行加工處理和顯示,進而通過綜合概括與分析得出反映客觀現象的規律性數量特徵的一門學科。
  • 徵服統計學01|什麼是統計分布?
    ❝之前讀書期間學的概率統計什麼的都忘得七七八八了,工作中也常在用,一直想系統再學習下,苦於無好的教材,最近發現了一個有趣的統計學課程(「 StatQuest!」 )現在決定站在巨人的肩膀上系統梳理一遍統計學基礎知識,希望能學到最後~~~。 StatQuest!
  • 生物統計學-數理統計對生命的詮釋
    Inference-統計推斷Modern Regression Analysis-現代回歸分析Statistical Computing-統計計算Stochastic Processes-隨機過程Multivariable Calculus-多元微積分Theoretical and applied statistics-理論和應用統計學One statistical system R(SAS)-一門統計學軟體比如
  • 機器學習數學基礎:數理統計與描述性統計
    統計量與抽樣分布數理統計的任務是採集和處理帶有隨機影響的數據,或者說收集樣本並對之進行加工,以此對所研究的問題作出一定的結論,這一過程稱為統計推斷。從樣本中提取有用的信息來研究總體的分布及各種特徵數就是構造統計量的過程, 因此,統計量是樣本的某種函數。
  • 19個數學和統計學公開課推薦
    選自analyticscvidhya機器之心編譯在創造萬物之前,上帝只是在做純理論的數學。後來他想,做點應用數學應該是個有趣的變化。——數學家 John Edensor Littlewood數學和統計學是數據科學和機器學習的基礎。就我所知,大多數成功的數據科學家都來自這些領域——計算機科學、應用數學和統計學、經濟學。
  • 統計小知識
    (一)「統計」一詞的由來「統計」一詞,英語為statistics,用作複數名詞時,意思是統計資料,作單數名詞時,指的是統計學。一般來說,統計這個詞包括三個含義:統計工作、統計資料和統計學。這三者之間存在著密切的聯繫,統計資料是統計工作的成果,統計學來源於統計工作。原始的統計工作即人們收集數據的原始形態已經有幾千年的歷史,而它作為一門科學,還是從17世紀開始的。英語中統計學家和統計員是同一個(statistician),但統計學並不是直接產生於統計工作的經驗總結。
  • 管理心理學之統計(5)變異性
    心理學家們需要通過統計模型來區分正常和非正常行為。首先,他們需要取一個大樣本並記錄每個人在特定的一天中洗手的次數,結果如下圖:要檢驗王先生的行為是否屬於極端的異常行為,我們需要用到統計中的兩個基本概念:集中趨勢(測量平均數)和變異性(偏離平均數值的測量)。如果王先生的分數處在平均的正常的行為這個區間中,那麼他的行為是正常的。
  • 描述性統計分析指標介紹
    描述性統計分析對調查總體所有變量的有關數據進行統計性描述,主要包括數據的頻數分析、集中趨勢分析、離散程度分析、分布以及一些基本的統計圖形。下面介紹一些常用統計描述指標。一、分類變量的常用描述指標頻數:在一組依大小順序排列的測量值中,當按一定的組距將其分組時出現在各組內的測量值的數目,分類變量的頻數即落在各類別中的數據個數。
  • 帶你一文了解描述性統計分析
    一般做數據分析的時候,對數據的探索性分析是第一步,均值等集中趨勢的指標是最常用的,像大眾點評的評分,不就是由消費者的評分的平均數所得麼~豆瓣評分,人均工資,人均消費,人均GDP等等,都是些簡單的描述性統計;結婚率,離婚率,男女佔比,各類佔比,都是描述性統計中簡單的頻數分析而已。
  • 統計學——常用統計量以及統計三大分布
    統計學中最重要的提取信息的方式就是對原始數據進行一定的運算,得出某些代表性的數字,以反映數據某些方面的特徵,這種數字稱為統計量。用統計學語言表述就是:統計量是樣本的函數,它不依賴於任何未知參數。常用統計量① 樣本均值它反映出總體X數學期望的信息。樣本均值是最常用的統計量。② 樣本方差 它反映的是總體X方差的信息。樣本方差和樣本標準差也是最常用的統計量。
  • SPSS Statistics軟體高級應用培訓
    在國際學術界有條不成文的規定,即在國際學術交流中,凡是用SPSS軟體完成的計算和統計分析,可以不必說明算法,由此可見其影響之大和信譽之高。  主講老師  譚英平,副教授、經濟學博士,對外經濟貿易大學保險學院統計與精算學系主任。  主要研究方向是經濟統計分析和風險管理與保險精算。  發表論文數十篇,出版專著5篇,包括:  賈俊平,譚英平,《應用統計學(第三版)》,中國人民大學出版社,2017.3。
  • 醫學論文稿件中常見的統計描述問題
    統計學在醫學科學研究中佔有重要地位,統計學內容豐富且不斷發展,如未充分了解,容易導致在科研過程中普遍誤用。下面,達晉編譯對國內外醫學論文中常見的統計描述問題進行歸納:一、統計圖表問題。在對研究資料或研究結果進行描述時,統計表和統計圖是呈現數據特徵和分析結果的重要工具。製作統計表時要求層次清楚、主次分明、符合邏輯。醫學論文中的統計表經常存在以下問題:1.主謂顛倒:統計表的標目由橫標目(主語)和縱標目(謂語)構成,主語(被研究的事物)一般置於表的左側,謂語(說明主語的各項指標)一般置於表的右側,醫學論文中經常會發生主謂安排不合理或重複的情況。
  • 統計學中p值的含義和顯著差異性分析
    通常,許多的科學領域中產生p值的結果≤0.05被認為是統計學意義的邊界線,但是這顯著性水平還包含了相當高的犯錯可能性。結果0.05≥p>0.01被認為是具有統計學意義,而0.01≥p≥0.001被認為具有高度統計學意義。但要注意這種分類僅僅是研究基礎上非正規的判斷常規。所有的檢驗統計都是正態分布的嗎?
  • 第三章 描述性研究--一、相關性研究
    第三章 描述性研究   描述性研究(descriptive study)是描述疾病和健康狀況在時間、地點和人群方面的分布信息,向公共衛生管理人員和流行病學家提供最基本的數據資料。
  • CNDA:生物等效性研究的統計學指導原則
    在開展生物等效性研究時,除參考本指導原則的內容外,尚應綜合參考《以藥動學參數為終點評價指標的化學藥物仿製藥人體生物等效性研究技術指導原則》和《藥物臨床試驗的生物統計學指導原則》等相關指導原則。研究設計(一)總體設計考慮生物等效性研究可採用交叉設計或者平行組設計。1.交叉設計生物等效性研究一般建議採用交叉設計的方法。