統計學之描述性統計 | Descriptive Statistics

2021-01-09 中捷佳信企業管理諮詢

「統計學就像比基尼,你所看到的就是真實顯露的,但隱藏起來的才是至關重要的」——無名氏

統計是有一些枯燥,但同時也可以很有趣,不是麼?

我們知道統計學包括描述性統計和推論統計,而今天的主題是描述性統計的介紹。

什麼是描述性統計呢?維基百科的定義:

"A descriptive statistic is a summary statistic that quantitatively describes orsummarizes features of a collection of information."

中文翻譯:描述性統計是一種匯總統計,用於定量描述或總結信息集合的特徵。

這裡把關鍵詞勾劃一下:

1、Describe-描述

2、Summarize-總結

注意:描述性統計的對象既可以是總體,也可以總體的一部分即是樣本。

一、描述性統計的分類

描述性統計又分為

§ 集中趨勢 Measures of central tendency

§ 離散趨勢 Measures of Dispersion

1、集中趨勢 Measures of Central Tendency

集中趨勢又稱 「數據的中心位置」,它是一組數據的代表值。集中趨勢的概念就是平均數(Average)的概念,它能夠對總體的某一特徵具有代表性,表明所研究的對象在一定時間、空間條件下的共同性質和一般水平。

常用的集中趨勢統計量(statistics)有:

§ 算數均值

§ 中位數

§ 眾數

再強調下,在統計學中,這三個統計量都有 average(平均) 的含義。

1、均值 Mean

某組觀測值的算術平均數(Arithmetic mean)

2、中位數 Median

按大小順序排列的數據組之中點位置對應的數值,該數值把數據組分成兩半

3、眾數 Mode

出現頻次最高的觀測值。

看起來集中趨勢的概念很簡單,那麼有什麼現實價值?

這裡我們舉兩個簡化的例子加以說明:

某創業公司A有10個員工,其中1人月薪10萬,9人月薪2萬;創業公司B也有10個員工,其中1人月薪5萬,9人月薪2.5萬。

現在假設你要對兩家公司員工的收入水平進行對比,你會如何做呢?

通過簡單計算我們可得:

公司A:

算術平均 Mean 2.8萬;中位數 Median 2萬;眾數 Mode 2萬

公司B:

算術平均 Mean 2.75萬;中位數 Median 2.5萬;眾數 Mode 2.5萬

如果看均值 Mean,結果是A公司比B公司高(少數高收入者會把整體平均拉高);如果看中位數 Median,顯然B公司更高。

那麼應該用Mean還是Median?這取決於我們的目的。

如果我們的目的是研究大多數人的薪資水平,顯然用中位數更好,因為B公司90%的人的薪水要高於A公司。

但是在現實生活中,我們往往看到的是用均值mean進行統計說明,尤其是國內媒體,經常用均值來描述某地區某時間段的收入水平。一個不好的結果是,大部分人都會覺得自己「被平均」了。這樣做出來的數據固然好看(就像上述公司A),但並不能更準確地展示普通大眾真實的收入水平。

看到這裡,你應該就能深刻理解「統計學就像比基尼,你所看到的就是真實顯露的,但隱藏起來的才是至關重要的」這句話的含義了是不。

二、離散趨勢 Measure of Dispersion

所謂離散趨勢就是研究觀測值偏離中心值(center) 的程度。僅僅研究集中趨勢往往是不夠的,所以還需要研究離散趨勢Measure of Dispersion.

常用離散統計量有:

§ 極差

§ 標準差(方差)

§ 四分位數間距

§ 變異係數(相對標準差)

1、極差 Range

為一組數據的最大值和最小值之差。極差的計算較簡單,但是它只考慮了數據中的最大值和最小值,而忽略了全部觀察值之間的差異。極差在SPC控制圖中有大量應用。

2、方差或標準差 Variance or Standard deviation

方差和標準差所反映的是一組數據與其均值為代表的中心的平均離散水平。因為標準差的計算應用到每一個變量值,所以,會受到極端值的影響,當數據中有較明顯的極端值(outlier)時不宜使用。必須知道這一點,所有方差/標準差分析的前提是:樣本總體服從正態分布,如果不服從,就要有補救措施,比如數據轉換。

3、四分位數間距 Inter Quartile Range (IQR)

即把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值就是四分位數。第三 "四分位數" 與第一 "四分位數" 的差距又稱四分位距, 常和中位數一起使用。比如箱型圖。

4、變異係數 Coefficient of Variation (CV)

又叫相對標準差(RSD),變異係數CV是原始數據標準差與原始數據平均數的比。標準差只能度量一組數據對其均值的偏離程度。但若要比較兩組數據的離散程度,用兩個標準差直接進行比較有時就顯得不合適了。例如一個總體的標準差是10,均值是100;如果另有一個總體的標準差是20,均值是2000。如果直接用標準差來進行比較,後一總體的標準差是前一總體標準差的2倍,似乎前一總體的分布集中,而後一總體的分布分散。但前一總體用標準差來衡量的各數據的差異量是其均值的1/10;後一總體用標準差來衡量的各數據差異是其均值的1/100,是微不足道的。可見用標準差與均值的比值大小來衡量不同總體數據的相對分散程度更合理。

三、圖形化工具

前文剛開始我們提到關於描述性統計的兩個關鍵詞是 Describe(描述) 和 Summarize(總結);同時我們也介紹了可以通過集中趨勢統計量以及離散趨勢統計量來對目標數據進行描述、總結。但這些統計量基本都是數學計算,比較抽象,有沒有更好的方法呢?

答案是有:Visulization!

沒錯,那就是一系列的圖形化工具。

在Excel軟體或者Minitab軟體都有很多圖形化工具用以描述、總結和展示數據,下面摘選部分:

§ 柱狀圖

§ 條形圖

§ 箱型圖

§ 散點圖

§ 雷達圖

§ 氣泡圖

相關焦點

  • 【漫畫統計學】統計「情趣」
    ——讀《漫畫統計學》有感        前幾天,偶然間拿到一本《漫畫統計學》,初次遇見,便目不能移、愛不釋手了,雖然在統計知識上自己可以說是大半個門外漢,可是看到書中有故事,心中不免一陣驚喜,畢竟自己是個很喜歡故事的人。
  • 通過Python 代碼實現時間序列數據的統計學預測模型
    在本篇中,我們將展式使用 Python 統計學模型進行時間序列數據分析。** 問題描述 **目標:根據兩年以上的每日廣告支出歷史數據,提前預測兩個月的廣告支出金額。單變量時間序列統計學模型,如:平均方法、平滑方法、有/無季節性條件的 ARIMA 模型。
  • 一周薦書丨統計學也可以有漫畫
    其實不僅現實世界有新海誠,我們統計學世界裡也有一部像新海誠電影一樣精彩的書籍——歐姆社的《漫畫統計學入門》。沒錯,就是以漫畫形式講解統計學,讓你在看動漫的過程中順便學完統計學的幾大基本概念。我們來看看李亞傑和陳櫻教授是如何點評的。
  • 什麼是Descriptive Analytics?
    描述性分析是一個統計領域,專注於收集和匯總原始數據以便於解釋。通常,描述性分析專注於歷史數據,提供對理解信息和數字至關重要的上下文。該領域用於各種行業和需求,可涵蓋各種用途,從庫存跟蹤到年度收入和銷售基準。
  • | 劇場中的拋硬幣統計學
    粗略算一下就知道,這個情況實際發生的可能性是10的27次方分之一,根據美國國家海洋和大氣管理局網站上的描述,它比一個人在一年中被閃電擊中四次的可能性還要小。當然,更有趣的是去想一下,這一荒謬場景發生的前提是什麼,誰都知道擲硬幣時出現正反兩面的機率應該是50/50,那麼冥冥之中一定發生了什麼,才會造成這樣奇特的偏差。
  • 就業篇丨統計學類:開啟數字人生新篇章
    知識是數學與現實的融合,比如某一理想的統計情景下所得出的結論,如果應用於現實會得出怎樣的結論;實踐是軟體的靈活應用,在熟練掌握常見統計軟體之外,還需要有快速自學新軟體的能力,要能趕上軟體的更新迭代速度。在美國,統計學專業屬於熱門專業之一,尤其是統計學的碩士和博士。
  • 技術硬、薪資高、好就業,卻一直默默無聞的統計學專業
    統計學強調解決實際問題,重視學生應用統計軟體的能力和動手能力。 一般來說,統計學可以分為以下 3 個分支: 理論統計:顧名思義,理論統計偏重統計理論的研究,如 Bayes 理論、決策論、非參數統計、序列分析、圖像模型等。
  • 美本俄亥俄州立大學——統計學專業簡介
    美本統計學Statistics (BS)專業開設在文理學院。 統計,是美國發展最迅速的行業之一,幾乎每一個領域都會用到統計知識,包括商業,教育,娛樂,金融,政府,保險,製造,市場營銷,醫藥和製藥。 統計是在不確定下進行決策的科學,既需要對數據的評估、管理的知識,也需要掌握各種模型,作為推斷工具,以加深我們對於世界的理解。
  • 簡簡的語法8——形容詞:描述與限制
    形容詞也確實有限制範圍的意思,但與限制範圍的限定詞來比較,還是有不同之處。例如「黃」蘋果確實限定了所有顏色是黃的蘋果,但是與「這些」蘋果、「你的」蘋果這樣不涉及名詞本身的屬性的限定詞相比,有明顯的、也很好理解的區別,大家看的時候心裡有數就可以了。我們在後面擇機將更詳細地介紹限定詞。
  • 德克薩斯大學奧斯汀分校統計專業
    -11-25 09:52:04 來源: 杭州立思辰留學 舉報   德克薩斯大學奧斯汀分校統計學碩士由統計和數據科學部管理
  • 東營【韓國統計學專業留學】_北京伯樂育星
    東營【韓國統計學專業留學】,北京伯樂育星,目前已成為北京市最具競爭力、最資深、實力最強的成人學歷教育和EDP教育的培訓機構之一。東營北京伯樂育星, 幾乎沒有不適用統計學的領域。
  • 2020年自考《社會統計學》真題
    自考社會統計學是自考的一門公共課,小編整理了一些模擬試題及答案,供大家參考。點擊進入:自考報名有疑問、不知道如何選擇主考院校及專業、自考當地政策不了解,點擊立即報考諮詢》》2020年自考《社會統計學》真題一、填空題(本大題共10小題,每空1分,共10分)請在每小題的空格中填上正確答案。錯填、不填均無分。1.________是統計上特有的方法。
  • 山東財經大學考研——21年應用統計考前最後衝刺複習建議
    21年應用統計考前最後衝刺複習建議回歸教材,查缺補漏第一章:簡單了解統計學這門學科的具體內容,掌握一些基本概念1.1統計、統計學、統計資料....1.2描述統計學。推斷統計學1.3知道何為總體、樣本、總體單位,樣本單位統計數據的計量尺度如何區分?
  • 原來看看漫畫就可以輕鬆學好統計學
    今天給大家分享的一本書,是日本作家高橋編著的《漫畫統計學之回歸分析》,其實這是一個系列書,就是《漫畫統計學》這麼一個系列。聽這個名字你就知道這是一本通過漫畫的形式來展開的統計學書,裡面所有的內容都是通過兩個女生的對話來進行的,基本上就是一個前輩和一個新生之間的這麼一個對話。為什麼會推薦這個方向的書呢?
  • 逆推「結果」,統計學揭開寫作真相,原來名家都在恪守這2條原則
    甚至,統計學還揭開了歷史上三位美國開國元勳著作權署名疑案!要知道,在統計學介入以前,這個爭論長達150多年之久。作為美國憲法的聖經——《聯邦黨人文集》是美國政黨重要文集,出於種種原因,當年出版之際,其中有12篇文章作者未署名。但是,大眾都知道全國只有漢密爾頓、麥迪遜、傑伊三位元勳才有資格撰寫這部巨作,這成為一個公開的秘密,並沉默了十多年。
  • 美國哥倫比亞大學統計專業怎麼樣?附申請條件
    哥倫比亞統計學,曾一度被人稱作「水項目」,原因不外乎就是中國人太多,但實際上,這個情況在其他美國大學也十分普遍 ,而哥大被拎出來說,可能是因為它居「常青藤」之列。專業方向統計學一直是理科的熱門專業,不但計算機與科學、應用數學等專業的學生以統計學為目標,就連生物、物理專業的,也喜歡轉投統計懷抱,可想而知它的熱門程度。
  • 統計知識1:協方差、相關係數
    ,而標準差描述的是各個樣本點到均值的距離之平均。    以這兩個集合為例,[0, 8, 12, 20]和[8, 9, 11, 12],兩個集合的均值都是10,但顯然兩個集合的差別是很大的,計算兩者的標準差,前者是8.3後者是1.8,顯然後者較為集中,故其標準差小一些,標準差描述的就是這種「散布度」。之所以除以n-1而不是n,是因為這樣能使我們以較小的樣本集更好地逼近總體的標準差,即統計上所謂的「無偏估計」。
  • 打造世界級多學科統計研究平臺
    12月4日至6日,「2020深圳統計與數據科學國際前沿論壇」在南方科技大學舉行。11位統計和數據科學大咖齊聚一堂,帶來水平頂尖的學術報告。專家學者們圍繞統計、數據科學等主題展開了交流和討論,聚焦行業前沿焦點。
  • 你對統計學類專業了解多少?2020年高考錄取數據一覽表來啦
    022020年在山東招統計學類專業的學校,按最低錄取分數排列,由高到低前五名學校有上海財經大學(統計學類665分)、中央財經大學(統計學類662分)、廈門大學(統計學類657分)、華東師範大學(統計學類656分)、湖南大學(統計學類636分)。
  • 研究生園地|血流動力學對症狀性動脈粥樣硬化性椎基底閉塞性卒中...
    谷鴻秋 助理研究員北京協和醫學院流行病與衛生統計學博士,國家神經系統疾病臨床醫學研究中心助理研究員,目前主要從事臨床研究的統計學設計,統計方法的比較和應用,預測模型的建立、評價與應用以及腦血管病醫療質量臨床研究