帶你一文了解描述性統計分析

2021-01-17 斑點魚要成為偉大的數據分析師

•本文字數:約2100字

•閱讀時長:約5分鐘

斑點魚對描述性統計大致分為四部分:集中趨勢、離散程度、分布形式及相關程度。

一般做數據分析的時候,對數據的探索性分析是第一步,均值等集中趨勢的指標是最常用的,像大眾點評的評分,不就是由消費者的評分的平均數所得麼~豆瓣評分,人均工資,人均消費,人均GDP等等,都是些簡單的描述性統計;結婚率,離婚率,男女佔比,各類佔比,都是描述性統計中簡單的頻數分析而已。

你想想一張PPT裡面的圖表,餅圖、折線圖、條形圖、柱狀圖、散點圖等等,哪一個是脫離了描述性統計得到的?

最基本的就是直接呈現,啥也不處理,得到一張折線圖分布,那其實是什麼?是頻數分布啊。

接著,數據分析師們,對數據進行簡單處理,取平均,取佔比等等,做成餅圖、箱線圖等等,都是集中趨勢和離散趨勢的指標啊。

然後,數據分析師們和其他業務人員區別開來的地方,是什麼?

就是統計學的專業知識啊。

如正態分布、相關性分析用起來啊,也就是真正開始進行數據分析的時候,其他業務人員可能是看圖說話,通過散點圖,覺得兩個數據之間有關係,而你作為一個數據分析師可以直接通過一個公式,一個指標相關係數,告訴他們是否真的有關係,關係的強弱。

所以啊,學好描述性統計是數據分析師的基礎,魚粉們還不趕緊學起來吖!



本文將對描述性統計的重要名詞進行解釋,後續幾篇會為各個描述性統計的指標用Python進行展示及應用,期待下吧~~


一、    常用的描述性統計知識:

描述性統計分析要對調查總體所有變量的有關數據做統計性描述,主要包括數據的頻數分析、數據的集中趨勢分析、數據離散程度分析、數據的分布、以及一些基本的統計圖形。

 

1.         集中趨勢:

平均數(算數平均數、幾何平均數、調和平均數、算術-幾何平均數、平均數不等式)、眾數、中位數等。

平均數:指在一組數據中所有數據之和再除以數據的個數。

幾何均數:用於反映一組經對數轉換後呈對稱分布的變量值在數量上的平均水平(適用範圍:對數正態分布數據或等比數據)。

簡單幾何平均數的計算公式:



加權幾何平均數的計算公式:



中位數:又稱中點數,中值。中位數是按順序排列的一組數據中居於中間位置的數,即在這組數據中,有一半的數據比他大,有一半的數據比他小。

計算公式:



眾數:在一組數據中,出現次數最多的數據;是樣本觀測值在頻數表中頻數最多的那一組的組中值。

百分位數:如果將一組數據從小到大排序,並計算相應的累計百分位,則某一百分位所對應數據的值就稱為這一百分位的百分位數。第25百分位數又稱第一個四分位數,常用Q1表示;第50百分位數(中位數)又稱第二個四分位數,常用Q2表示;第75百分位數又稱第三個四分位數,常用Q3表示。

 

 

2.         離散程度:

總體方差計算公式:

    


樣本方差計算公式:



標準差:是總體各單位標準值與其平均數離差平方的算術平均數的平方根。它反映組內個體間的離散程度,一個較大的標準差,代表大部分數值和其平均值之間差異較大;一個較小的標準差,代表這些數值較接近平均值。計算公式就是方差的算術平方根。

變異係數:當需要比較兩組數據離散程度大小的時候,如果兩組數據的測量尺度相差太大,或者數據量綱的不同,直接使用標準差來進行比較不合適,此時就應當消除測量尺度和量綱的影響,此時可以用變異係數來進行比較,變異係數的計算公式為:變異係數 C·V =( 標準差 S / 平均值Mean )× 100%,在進行數據統計分析時,如果變異係數大於15%,則要考慮該數據可能不正常,應該剔除。。

 

3.         分布形式:


頻數:在一組依大小順序排列的測量值中,當按一定的組距將其分組時出現在各組內的測量值的數目,分類變量的頻數即落在各類別中的數據個數。

累計頻數:累積頻數就是將各類別的頻數逐級累加起來。

偏態係數、峰度係數:反映數據偏離正態分布的程度。


偏度係數:描述分布偏離對稱性程度的一個特徵數。當分布左右對稱時,偏度係數為0。當偏度係數大於0時,即重尾在右側時,該分布為右偏。當偏度係數小於0時,即重尾在左側時,該分布左偏。

樣本偏度的計算公式:

公式1:



公式2:




峰度係數:用來反映頻數分布曲線頂端尖峭或扁平程度的指標。在正態分布情況下,峰度係數值是3,峰度係數>3,呈現尖峭峰形態,說明觀察量更集中,有比正態分布更短的尾部;峰度係數<3,呈現平闊峰形態,說明觀測量不那麼集中,有比正態分布更長的尾部。

樣本峰度計算公式:

公式1:



公式2:


 


 

4.         相關程度

 

統計學中,通常用相關係數描述兩個變量之間的相關程度。

相關係數是最早由統計學家卡爾·皮爾遜設計的統計指標,是研究變量之間線性相關程度的量,一般用字母 r 表示。由於研究對象的不同,相關係數有多種定義方式,較為常用的是皮爾遜相關係數。


常見的相關係數為簡單相關係數,簡單相關係數又稱皮爾遜相關係數或者線性相關係數,其定義式為:


r值的絕對值介於0~1之間。通常來說,r越接近1,表示x與y兩個量之間的相關程度就越強,反之,r越接近於0,x與y兩個量之間的相關程度就越弱。



一起學習的小夥伴如果有什麼想法或者意見,歡迎溝通~

投稿|溝通郵箱:yzhmry1314@163.com




相關焦點

  • 如何在Python中進行描述性統計分析?
    本文摘自北京大學出版社《Python數據分析全流程實操指南》一書中,略有刪改,按出版書中為準,出版社獨家授權發布。文末正版好書《Python數據分析全流程實操指南》贈送活動,共3本,等你參與哦!在進行數據分析時,一般要先對數據進行描述性統計分析,以發現其內在的規律,再選擇進一步分析的方法。描述性統計分析要對調查總體所有變量的有關數據做統計性描述,主要包括數據的頻數分析、數據的集中趨勢分析、數據離散程度分析、數據的分布以及一些基本的統計圖形。
  • 描述性統計分析,掌握常用指標,進入數據分析大門
    那麼,我們又該如何對統計到的數據進行統計分析呢?今天,我將跟大家分享一下既基礎又重要的統計分析策略——描述性統計分析。什麼是描述性統計分析?我們在做了相關的數據統計之後,將會收集到一系列複雜的數據信息,在這種情況下,僅僅單靠「看」數據,會讓人一臉茫然。那想要了解數據的大致情況怎麼辦?
  • 一文帶你了解加速度計
    一文帶你了解加速度計 工程師曾暄茗 發表於 2018-07-07 10:52:00 測量範圍: 傳感器輸出信號規格支持的加速度水平,通常用±g表示
  • 統計描述是統計分析的最基本內容,是指應用( )等方法,對資料
    統計描述是統計分析的最基本內容,是指應用( )等方法,對資料
  • 描述性統計分析指標介紹
    描述性統計分析對調查總體所有變量的有關數據進行統計性描述,主要包括數據的頻數分析、集中趨勢分析、離散程度分析、分布以及一些基本的統計圖形。下面介紹一些常用統計描述指標。一、分類變量的常用描述指標頻數:在一組依大小順序排列的測量值中,當按一定的組距將其分組時出現在各組內的測量值的數目,分類變量的頻數即落在各類別中的數據個數。
  • SPSSAU描述性分析指標如何選擇?
    描述性統計分析,就是用來概括、描述數據整體狀況以及數據各特徵的統計方法。對於定量數據,比如量表評分(非常不滿意,不滿意,非常滿意等)或者身高體重的值,可以通過描述性分析,計算數據的集中性特徵和波動性特徵等。
  • 描述性統計分析之標準差
    標準差(standard deviation, SD)用來衡量一組數據的變異性或分散性
  • 一文帶你了解鉛鋅礦
    原標題:一文帶你了解鉛鋅礦 鉛是人類從鉛鋅礦石中提煉出來的較早的金屬之一。它是最軟的重金屬之一,也是密度大的金屬之一,具藍灰色,硬度1.5,密度11.34,熔點327.4℃,沸點1750℃,展性良好,易與鋅、錫、銻等金屬和砷製成合金。
  • 描述性統計分冊》
    描述性統計分冊》 作者 總主編:徐天和   分冊主編:田考聰書號 ISBN 978-7-5037- 6468-4開本 16開裝幀 平裝出版時間 2012年4月定價 38元內容簡介:    《中華醫學統計百科全書》是一部醫學統計參考工具書
  • 一文帶你了解
    (圖片來源於網絡) 什麼是質子和重離子?但質子重離子射線獨特的放射生物學和放射物理學特性,又使得其適應證範圍有了極大拓寬: 中樞神經系統腫瘤:腦膜瘤、腦膠質瘤、垂體瘤、聽神經瘤及星形細胞瘤等 顱底腫瘤:脊索瘤、(軟骨)肉瘤等 頭頸部腫瘤:鼻咽癌、口腔癌、咽癌、喉癌、腺樣囊性癌等
  • 手把手帶你零基礎 7 晚學會 SPSS 統計分析,搞定高分 SCI
    如果有專業的老師運用豐富的經驗幫著梳理理論知識,傳授口訣記憶,手把手教導操作並總結模板,那一定能快速的將統計分析運用到文章裡,獲得投稿人的認可!》,幽默教學,口訣記憶,手把手教你搞定統計分析,學會 SPSS 軟體的統計分析實戰操作。
  • 一文帶你全方位了解與投遞EI
    一文帶你全方位了解與投遞EI(上大畢業發EI可行嗎)一、EI簡介EI全稱叫做The Engineering Index,中文叫:工程索引。它的資料庫主要收錄工程技術領域的期刊、會議和書籍。按收錄類別來說,我們所說的EI包括EI源刊和EI會議。其實我們說EI的時候一般就是指EI會議。雖然EI分為EI源刊和EI會議兩種。
  • 一文帶你了解手機的「芯」
    而面對每天都被我們握在手中的親密夥伴——手機,你又對它的「心臟」了解多少呢?是不是面對眾多不同名稱的處理器感到不解呢?又對處理器的幾個重點參數了解多少呢?今天小M就帶你一文讀懂手機的「心臟」。 至於海思麒麟,想必大家都多少有些了解,作為華為自研處理器品牌,近幾年來一直輸出優質的「中國芯」,無論是集成5G基帶方面還是總體性能方面都非常的優秀。
  • 第三章 描述性研究--一、相關性研究
    第三章 描述性研究   描述性研究(descriptive study)是描述疾病和健康狀況在時間、地點和人群方面的分布信息,向公共衛生管理人員和流行病學家提供最基本的數據資料。
  • 2018年自考預防醫學(二)章節重點:數值變量資料的統計分析
    一、學習目的和要求通過本章的學習,了解數值變量資料的統計描述中頻數分布表的製作、總體均數的區間估計、檢驗假設的意義和步驟;熟悉數值變量資料的t檢驗;掌握集中趨勢指標與離散趨勢指標的計算與應用意義。
  • 一文帶你深入了解掃描陣列雷達信號處理
    一文帶你深入了解掃描陣列雷達信號處理 工程師2 發表於 2018-05-07 14:00:00 主動電掃描陣列 (AESA) 雷達是當今先進武器系統的關鍵組成 ,
  • 一文帶你快速學會回歸分析
    一篇帶你學會相關分析)文章中,我們向大家介紹了關於相關分析的內容總結。相關分析用於描述變量之間是否存在關係,而回歸分析則是研究影響關係情況,反映一個X或者多個X對Y的影響程度。(3)殘差正態性分析:用於檢驗模型構建情況,使用「正態圖」檢測殘差正態性情況,如果殘差直觀上滿足正態性,說明模型構建較好,反之說明模型構建較差。如果殘差正態性非常糟糕,建議重新構建模型,比如對Y取對數後再次構建模型等。
  • 一文帶你了解扭力扳手
    以上有沒有你需要的呢?點擊左下角閱讀原文,更有海量扭力扳手任你挑選~來源:西域整理髮布聲明:本文所用視頻、圖片、文字如涉及作品版權問題,請第一時間告知,我們將根據您提供的證明材料確認版權,確認後即刻刪除相關內容。
  • 統計學之描述性統計 | Descriptive Statistics
    「統計學就像比基尼,你所看到的就是真實顯露的,但隱藏起來的才是至關重要的」——無名氏統計是有一些枯燥,但同時也可以很有趣,不是麼?我們知道統計學包括描述性統計和推論統計,而今天的主題是描述性統計的介紹。什麼是描述性統計呢?
  • 一文帶你了解靈魂石的各種...
    一文帶你了解靈魂石的各種用法 靈魂石的洗禮活動已經上線十來天了,想必勇士們對這個活動一定有了一些了解了。那麼各位勇士是否真的掌握了靈魂石的使用精髓了嗎?筆者這裡有幾個靈魂石的使用方法,或許可以幫助勇士們。