白話統計學(五)描述性統計

2021-02-19 標杆精益

作者|唐毓財

後臺回復「唐毓財

查看益者往期文章

全文總計2604字,需閱讀7分鐘,以下為今天的益者原創:

在對數據進行分析的時候,首先要對數據進行描述統計分析,這樣我們就可以對感興趣的變量的分布特徵以及內部結構獲得一個直觀的感性認識,以決定採取何種分析方法,更加深入地揭示變量的統計規律。由於統計學的概念比較枯燥,以圖表的形式來解釋統計學的概念,容易理解。§均值 :指在一組數據中所有數據之和再除以數據的個數§頻數又稱"次數"。指變量值中代表某種特徵的數(標誌值)出現的次數。§中位數: 中位數(又稱中值,英語:Median),統計學中的專有名詞,代表一個樣本、種群或概率分布中的一個數值,其可將數值集合劃分為相等的上下兩部分。§百分位數: 將一組數據從小到大排序,並計算相應的累計百分位,則某一百分位所對應數據的值就稱為這一百分位的百分位數。§95%置信區間:置信區間是指由樣本統計量所構造的總體參數的估計區間。置信區間給出的是被測量參數的測量值的可信程度,即前面所要求的"一個概率"。這個概率被稱為置信水平。置信水平0.95上的置信空間也可以表達為:95%置信區間。

通過平均數的數值,報告群體某一方面的水平高低,通過標準差的大小,報告群體這一方面的數據以平均數為中心的範圍。如果,群體中個體的差異不大,那麼,平均數就具有真實意義,可以有效地描述群體的水平。如果,群體中個體的差異較大,甚至,群體可以分為幾個明顯的子群體,那麼平均數的意義就不大,需要增加新的數據進行描述。在個體差異較大時,群體的標準差的數值也會較大,當標準差的數值達到平均數絕對值的 10% 時,根據實際經驗,此時,平均數的實際意義就不存在[1]。
數據→數據分析→描述統計:

圖2描述性統計分析

圖3《新白娘子傳奇》當中,許仙給徐乾介紹自己的娘子時,有一個誇自己娘子的唱段:「婀娜多姿俏紅顏, 更勝仙女下凡間溫婉嫻淑人稱羨,她那醫術超群不待言,婀娜多姿俏紅顏,更勝仙女下凡間,溫婉嫻淑人稱羨,醫術超群不待言,譽滿蘇城杏林間咳咳呦。。。」

徐乾聽這個唱段倒沒有被驚豔到,可他看到許仙為了給林捕頭按圖找人而畫的白娘子的畫像時,感覺很美, 不敢相信世上有這麼美的人,

由此,我們可以看出,用圖形展示比語言描述更加具有衝擊力!在統計分析中,統計圖形作為數據描述的主要方法之一,主要是通過點、線、條、面積等的位置與大小的變化來表現或者說明所研究的問題的變化及其規律。可以直觀展示數據的分布情況、運行趨勢、相互關係以及其它信息,因此在數據分析中,圖形分析也是一個非常重要的工具。描述統計常用的圖形,根據使用的目的可以分為:考察數據分布圖形、考察數據隨時間變化的圖形、考察變量之間的關係的圖形,如圖6所示 。

考察數據分布圖形,根據數據類型、顯示方式等,一般可分為圖形化匯總、直方圖、柏拉圖、箱線圖、條形圖等。如圖4所示。

考察數據隨時間變化的圖形:根據數據類型、取樣方式等,一般可分為時間序列圖、單值移動極差圖、均值極差圖、均值標準差圖、P圖、U圖等。如圖8所示。

( 提供PPT演示繪製步驟,輔助理解和數據練習;後續單獨發一篇文章)

在統計分析中,統計圖形作為數據描述的主要方法之一,統計圖的優點是便於分析研究各類問題。在未知數據特徵的情況下,能夠直觀反映變量的數量差異,便於比較數量差異,研究數量差異問題。以一個商場銷售某種商品為例,使用是否買該商品作為銷售記錄表當中的一個欄位,以購買者的每一個主要特徵作為每一個欄位。如性別、收入、年齡等,使用條形圖來展示該商品購買者的發布的情況,如圖10所示。

如要給該商品發傳單做廣告,在商場附近看到美女過來,就不要給她派發傳單了。從這裡可以看出,簡單的圖形在我們做決策時能夠給以一定的幫助。可是,簡單的圖形,隱含的信息不全面,也可能會誤導我們。從圖10這張圖上,我們可能認為購買該商品的一定是男性。在派發傳單的時候,都給男性同胞派發。可結果呢,我們會受到打擊。為啥?先來看看圖11所示,這是經過變換的一個條形圖。

我們把同一性別的圖形按照買/不買擺放到一起,可以看出,雖然男性購買多,但是男性當中,不購買的比率也高啊。我們派發傳單給的男性,可能是那些沒有購買意願的人。那該如何更好的找出男性當中哪些消費者會在商場購買該商品呢?如圖12,圖上紅色的點代表購買,大部分分布在男性消費者當中,女性幾乎不買,在男性購買者當中,在收入大概16000以下的是購買的主要人群。

在我們做廣告宣傳時候,看到美女過來,就不要給她派發傳單啦,同時,那些開奔馳過來的男性,別給他派發傳單或者塞傳單到車雨刮那裡了。到此,我們可以看出,合理利用統計圖形,是可以幫助我們分析過去發生的情況,進基於圖形展示的信息,作簡單判斷。但是,由於圖形簡單的不全面,有可能會誤導我們。因此,需要我們多嘗試不同的圖形展示,來獲取信息。如果有更好的圖形,也許,我們會很快獲取更清楚的信息。甚至,在多個特徵影響的情況下,如圖12也只能展示3個特徵(性別、年收入、年齡等)而已。圖13,我們使用決策樹來展示,可一目了然的看出,854個消費者當中,購買該商品的有146個,這些購買者主要是年收入在16950以下的男性(與圖12當中紅色點截的位置接近),高收入消費者很少購買,低收入女性幾乎不買,低收入男性84%購買,還是年齡大於25.5歲的。

通過使用描述性統計,分析「過去」很重要, 不管是數值分析結果,還是圖形展示,可以讓我們了解的數據和研究對象的特徵,進而幫助我們更好的了解進一步的統計分析結果。有些問題只用描述統計就可很好的得出結論,並不是所用的統計方法越高明,越難越好。正如:在江湖上流傳一種功夫,沒有花哨的架子,沒有呼風喚雨的磅礴,但有庖丁解牛般遊刃有餘,身未動,刀未動,人更未動,但敵人已倒地的簡單絕技。(借李時學老師課堂總結的一句話)[1]劉煜琦.統計學在社會調查中的應用[J].科技經濟導刊,2017(03):260.

|益者往期精彩文章回顧|

-任正非:為什麼國家如此重視統計學?

-白話統計學(三)

-白話統計學(二)

-白話統計學(四)  如何讓統計在企業質量管理當中發揮作用?

-項目管理進度計劃表製作及甘特圖繪製方法

-原創 | 淺談統計過程控制

-大神之作:基於EXCEl的規劃求解選擇中央倉庫(燒腦之文,慎入!)

-[精益觀點]男怕入錯行。。。(跳槽是門技術活)

-5S實踐培訓:從現場實踐中重新正確認識5S

-基於多變量約束的運輸問題決策優化及LOGWARE實現

資料來源:標杆精益·益者

文章編輯:Blean

投稿方式:wangyj@benchmarklean.cn

相關焦點

  • 統計學之描述性統計 | Descriptive Statistics
    「統計學就像比基尼,你所看到的就是真實顯露的,但隱藏起來的才是至關重要的」——無名氏統計是有一些枯燥,但同時也可以很有趣,不是麼?我們知道統計學包括描述性統計和推論統計,而今天的主題是描述性統計的介紹。
  • 圖解統計學:簡單易懂的基礎概率&描述性統計
    hyn | 作者知乎專欄 | 來源https://zhuanlan.zhihu.com/p/40756359 從小偏文科的我,聽到數學相關的知識就頭疼,更是毫無統計學基礎,之前用 Excel做零售分析時也從沒覺得統計學和數據分析有什麼必要關聯。
  • 統計學-描述性統計 | 生物統計學基礎系列課
    生物統計學是一種很有用的工具,正確使用這一工具可以使科學研究更加有效,使科學研究可以更加高效的開展。因此,它是每位生物科學工作者必須掌握的基礎知識。聯川生物近日對生物統計學進行了系統式的學習,所用的教材——《生物統計學基礎(原書第5版)》是一本非常有特色的書,與其他同類書比較,其有以下幾類優點:①教材內容通俗易懂但又非常嚴謹、細緻、深入而又全面。
  • 統計學入門級-描述性統計理論
    最近加入一個數據挖掘學習小組,熱心的群主制定了一個詳細的每周學習計劃,分為統計學和機器學習兩大知識點。學習完要提交作業,以文章輸出或者其它方式都行,現在開始第一周的統計學相關知識輸出啦,先上一張思維導圖。前面部分以文字為主,涉及到的數學公式放在最後。
  • 《中華醫學統計百科全書. 描述性統計分冊》
    描述性統計分冊》 作者 總主編:徐天和   分冊主編:田考聰書號 ISBN 978-7-5037- 6468-4開本 16開裝幀 平裝出版時間 2012年4月定價 38元內容簡介:    《中華醫學統計百科全書》是一部醫學統計參考工具書,讀者對象主要是醫學統計工作者、醫療衛生機構的統計信息工作者和醫學院校的師生
  • 不可不知的描述性統計 | Descriptive Statistics
    我們知道統計學包括描述性統計和推論統計,而今天的主題是描述性統計的介紹。什麼是描述性統計呢?中文翻譯:描述性統計是一種匯總統計,用於定量描述或總結信息集合的特徵。這裡把關鍵詞勾劃一下:1、Describe-描述2、Summarize-總結注意:描述性統計的對象既可以是總體,也可以總體的一部分即是樣本。
  • 第七節 描述性統計與分位數回歸
    描述性統計描述性統計,維基百科的定義是:「描述性統計是一種匯總統計,用於定量描述或總結信息集合的特徵」。從這個定義,我們不難看出,描述性統計包含兩個重要的特徵,描述和總結。通常情況下,我們把描述性統計分為兩大類:離散趨勢和集中趨勢,兩種分類常見的統計量如下:
  • 小白快速上手數據分析模型10 | 描述性統計案例
    ○輸入:單列或者多列定量數據○輸出:對總體的各項統計指標(欄位)進行整體描述分析,包括樣本量、最大值、最小值等統計量描述性統計(又稱敘述統計)用於對調查總體所有變量的有關數據進行統計性描述。 ○ 集中趨勢中的主要統計指標有:中位數和幾何均數、算術均數(均數)等○ 離散趨勢中的主要統計指標有:分位數區間、方差、標準差、變異係數(CV)等○ 偏度和峰度可用於判斷數據正態性情況。
  • SPSS數據分析—描述性統計分析
    描述性統計分析是針對數據本身而言,用統計學指標描述其特徵的分析方法,這種描述看似簡單,實際上卻是很多高級分析的基礎工作,很多高級分析方法對於數據都有一定的假設和適用條件
  • R描述性統計
    這裡就是描述性統計分析,下面看看描述性統計分析在R中的實現。」      導入數據,這裡我通過choose.files()命令調出複選框選擇我存在電腦中的mydata.csv文件,colClasses是對數據框列類型進行設置,這裡我設置mydata數據前4列為字符型,後8列為數值型。
  • 適合統計小白的課程:社會統計學入門
    量化統計是社會科學領域常用的方法,但常常有人向我們傾訴:感覺統計學就是在背操作流程,學完統計,統統忘記!
  • SAS統計分析系列:描述性統計分析 (一)-- 基本概念介紹與常見概率分布
    、整理、分析和推斷的科學,包括描述性統計學和推斷統計學兩個基本組成部分。從今天開始,我們會用一系列的文章介紹描述性統計學和推斷統計學的基本概念和原理,並結合實例介紹如何使用SAS進行描述性統計分析和推斷統計,以發現客觀規律。第一篇文章的內容是描述性統計分析的基本概念和常見概率分布。
  • 描述性統計與分位數回歸
    只要做了都有分,但不按照要求的話,分就相應要低一些充分利用小組合作,相互分享相互學習描述性統計描述性統計,維基百科的定義是:「描述性統計是一種匯總統計,用於定量描述或總結信息集合的特徵」。從這個定義,我們不難看出,描述性統計包含兩個重要的特徵,描述和總結。通常情況下,我們把描述性統計分為兩大類:離散趨勢和集中趨勢,兩種分類常見的統計量如下:
  • python描述性統計之dataframe.describe
    想要準確理解 describe()的使用方法,還是要著重掌握統計學的相關知識,下面重點給出相關名詞解釋。
  • 醫學科研課堂丨統計說說(五):常用基本統計學方法之選擇
    秋風送爽,也給我們送來了劉嶺教授的統計說說第五期。這一期的統計學方法之選擇大家一定要認真學起來,說不定馬上你就會用到了。一、拿到數據開始分析之前,一定要進行數據類型的劃分(圖1),因為不同數據類型資料,描述的方式不一樣,統計學方法也不一樣。
  • SAS統計分析系列:描述性統計分析 (三)-- 描述性統計量
    描述性統計量。本文介紹描述數據分布形態的描述性統計量。在進行統計分析時,通常需要假設樣本服從某種分布。所以在進行分析之前有必要對數據的分布形態進行初步的了解,檢查數據是否大致服從某種分布,然後再運用統計理論去進行假設檢驗。描述數據分布形態有兩種基本方法,一種是計算統計量,一種是作圖。百分位數是一種位置指標。
  • 機器學習數學基礎:數理統計與描述性統計
    統計量與抽樣分布數理統計的任務是採集和處理帶有隨機影響的數據,或者說收集樣本並對之進行加工,以此對所研究的問題作出一定的結論,這一過程稱為統計推斷。從樣本中提取有用的信息來研究總體的分布及各種特徵數就是構造統計量的過程, 因此,統計量是樣本的某種函數。
  • 統計計量 :統計學公開課大盤點(附下載)
    3、edX的伯克利統計學課程三部曲-描述統計學,概率,推薦推斷3.1 伯克利大學統計學導論-描述統計學:Introduction to Statistics: Descriptive Statistics蔣勇NLP同學的評價: 這門課是我拿到第一張MOOC的證書,berkeley的這位女老師把統計學導論課程分為三部分
  • 描述性統計分析
    本文繼續引用微信公眾號中案例數據中的pgdat數據集,手把手教你學會使用R實現基本的描述性統計分析
  • R-統計描述與假設檢驗
    ,在本文中,我們將補充一些其他的統計描述代碼,並匯總統計描述的常用可視化方法。一、統計描述1.1 統計描述代碼回顧:mean(x)均值median(x)中位數sd(x)標準差var(x)方差quantile(x, probs)分位數(probs∈[0, 1])range(x)值域sum(x)求和min(x)最小值max(x)最大值scale(x)中心化