圖解統計學:簡單易懂的基礎概率&描述性統計

2021-02-19 愛數據原統計網



hyn | 作者

知乎專欄 | 來源

https://zhuanlan.zhihu.com/p/40756359

從小偏文科的我,聽到數學相關的知識就頭疼,更是毫無統計學基礎,之前用 Excel做零售分析時也從沒覺得統計學和數據分析有什麼必要關聯。直到這段時間通過各平臺搜集到的數據分析相關資料、書籍了解到,學習數據分析,統計學基礎必不可少。今天這篇文章就簡單說一下我近期學習到的統計學中的描述性統計分析以及基礎概率知識。

統計性描述分析是作為統計分析的第一步,在日常的數據分析中其實我們經常使用一些特徵值,尤其是我們做周報或者月報的分析時,這些描述性的統計分析特徵值對於我們有一定的幫助,描述性統計分析是進行正確的統計推斷的先決條件。通過數據的分布類型和特點、集中和離散程度可進行初步分析。

描述性統計有幾個常用指標,分別是:平均值、四分位數、標準差、標準分。

(1)平均值(μ:讀「miu」),平均值是統計學最常用的統計量,是集中趨勢最常用的測度值,除平均數外還有眾數、中位數等集中趨勢常用值。

平均數:就是一組數據之和除以這組數據的個數,缺點是對異常值不敏感。

眾數:指一組數據中出現次數最多的那個數據,一組數據可以有多個眾數,也可以沒有眾數。

中位數:將一組數據按大小順序排列起來,形成一個數列,如果這組數據的個數為奇數,則居於數列中間位置的那個數據就是中位數,如數據個數為偶數,那麼中位數就是位於中間的兩個數值的平均值。

(2)四分位數:將一組數據從小到大升序排列,分成4等分,處於1/4,1/2,3/4的數值是四分位數,我們將這三個數值分別稱為:下四分位數、中位數、上四分位數。

四分位數有一個非常生動的表現形式,就是箱線圖,我們可以通過箱線圖來比較不同類別的數據。

我們還可以應用四分位數通過Tukey's test方法來識別出一組數據中可能的異常值。

藍色範圍就是極度異常數值,紅色則為中度異常數值。

(3)標準差(讀「西格瑪」),方差的算術平方根,反映一組數據內個體間的離散程度(也稱為波動大小)。

(4)標準分,用來表示一組數據中某個數值距離平均值多少個標準差:

概率,簡單來說就是用數值來表示某件事發生的可能性,這個數值一定是介於0和1之間的。

簡單的概率計算可以總結為一個公式:

複雜的概率計算有兩種方法:

方法一:尋找行業裡權威機構發布的概率作為參考

方法二:數據分析

可以應用在生活中的幾種概率思維:

 賭徒謬論 

賭徒謬論也稱為蒙地卡羅謬論,是一種錯誤的信念,以為隨機序列中一個事件發生的機會率與之前發生的事件有關,即其發生的機會率會隨著之前沒有發生該事件的次數而上升。如重複拋一個公平硬幣,而連續多次拋出反面朝上,賭徒可能錯誤地認為,下一次拋出正面的機會會較大。

獨立事件這一概念就可以詳細解釋為何以上觀念會被稱為謬論。獨立事件就是事件B發生或不發生對事件A不產生影響,就說事件A與事件B之間存在某種「獨立性」,其對象可以是多個。

 大數定律 

想要理解大數定律,必須先了解什麼事小數定律:

本章學習內容只是籠統的概括了跟數據分析相關的統計學基礎知識,關於統計學,還有很多值得我們去探索、學習,去從中發現樂趣。了解統計學才能為我的數據分析奠定堅實的基礎。路還很長,堅持下去。

本文為轉載分享&推薦閱讀,若侵權請聯繫後臺刪除

愛數據學院

- 3天入門業務型數據分析師 -


只需3天,帶你輕鬆入門業務型數據分析師

掃描下方二維碼了解課程詳情

相關焦點

  • 白話統計學(五)描述性統計
    由於統計學的概念比較枯燥,以圖表的形式來解釋統計學的概念,容易理解。§均值 :指在一組數據中所有數據之和再除以數據的個數§頻數又稱"次數"。指變量值中代表某種特徵的數(標誌值)出現的次數。§中位數: 中位數(又稱中值,英語:Median),統計學中的專有名詞,代表一個樣本、種群或概率分布中的一個數值,其可將數值集合劃分為相等的上下兩部分。
  • 統計學之描述性統計 | Descriptive Statistics
    「統計學就像比基尼,你所看到的就是真實顯露的,但隱藏起來的才是至關重要的」——無名氏統計是有一些枯燥,但同時也可以很有趣,不是麼?我們知道統計學包括描述性統計和推論統計,而今天的主題是描述性統計的介紹。
  • SAS統計分析系列:描述性統計分析 (一)-- 基本概念介紹與常見概率分布
    、整理、分析和推斷的科學,包括描述性統計學和推斷統計學兩個基本組成部分。從今天開始,我們會用一系列的文章介紹描述性統計學和推斷統計學的基本概念和原理,並結合實例介紹如何使用SAS進行描述性統計分析和推斷統計,以發現客觀規律。第一篇文章的內容是描述性統計分析的基本概念和常見概率分布。
  • 機器學習數學基礎:數理統計與描述性統計
    , 而統計學又是重中之重, 機器學習從某種意義上來說就是一種統計學習。今天是概率統計基礎的第二篇文章, 基於第一篇隨機變量與隨機事件進行整理, 首先理一理這裡面的邏輯,第一篇的內容蘊涵了大部分概率論的知識(除了大數定律和中心極限定理這種理論性的支持, 後期有機會會補上)。而今天的這篇內容是在概率論的基礎上往前一步, 屬於數理統計的內容。
  • 數學統計學教材推介 | 數論/統計/概率/微積分
    、數學科學史、數學與計算生物學、數學物理、數論與離散數學、概率論與隨機過程、定量金融學、商業/經濟/金融、計算統計數據、純概率與應用概率、統計理論與方法等領域。All of Statistics《關於統計學的一切》本書旨在為想要快速學習統計及概率知識的人們提供專業知識,書中涵蓋許多現代統計學的主要思想及理念。適用於:統計、計算機科學、數據挖掘、機器學習學科及領域的學生及學者。
  • 《中華醫學統計百科全書. 描述性統計分冊》
    描述性統計分冊》 作者 總主編:徐天和   分冊主編:田考聰書號 ISBN 978-7-5037- 6468-4開本 16開裝幀 平裝出版時間 2012年4月定價 38元內容簡介:    《中華醫學統計百科全書》是一部醫學統計參考工具書,讀者對象主要是醫學統計工作者、醫療衛生機構的統計信息工作者和醫學院校的師生
  • 統計學入門級-描述性統計理論
    最近加入一個數據挖掘學習小組,熱心的群主制定了一個詳細的每周學習計劃,分為統計學和機器學習兩大知識點。學習完要提交作業,以文章輸出或者其它方式都行,現在開始第一周的統計學相關知識輸出啦,先上一張思維導圖。前面部分以文字為主,涉及到的數學公式放在最後。
  • 統計基礎:統計圖表
    早在16世紀,概率論基礎、微積分、對數等統計數學理論就已經被發現並應用於實際,但直到1750-1800年,人們才發明了統計圖表來展示統計數據。
  • 數據科學的重要支柱——統計學的最佳入門書籍
    其中最重要的一個就是統計學,包括描述統計學、推論統計學以及概率論。理工類大學已經有了許多統計學課程,為什麼我還要寫這篇文章呢?任意一本統計學和概率論的大學教材大多在500頁左右,甚至更多。雖然比《深入淺出統計學》薄很多,但卻鮮有圖例、圖解。如果刪除《深入淺出統計學》中所有圖解,全書就只剩不到一半了。圖解為何重要?
  • 小白快速上手數據分析模型10 | 描述性統計案例
    ○輸入:單列或者多列定量數據○輸出:對總體的各項統計指標(欄位)進行整體描述分析,包括樣本量、最大值、最小值等統計量描述性統計(又稱敘述統計)用於對調查總體所有變量的有關數據進行統計性描述。它的作用是通過描繪統計圖、統計表或者計算數據分布特徵的基本統計量,來了解樣本觀察值的分布情況,為進一步的統計推斷打下基礎[2]。
  • 數據分析必備——統計學入門基礎知識
    ——數據說·夢想季 導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。
  • 統計計量 :統計學公開課大盤點(附下載)
    3、edX的伯克利統計學課程三部曲-描述統計學,概率,推薦推斷3.1 伯克利大學統計學導論-描述統計學:Introduction to Statistics: Descriptive Statistics蔣勇NLP同學的評價: 這門課是我拿到第一張MOOC的證書,berkeley的這位女老師把統計學導論課程分為三部分
  • 不可不知的描述性統計 | Descriptive Statistics
    我們知道統計學包括描述性統計和推論統計,而今天的主題是描述性統計的介紹。什麼是描述性統計呢?中文翻譯:描述性統計是一種匯總統計,用於定量描述或總結信息集合的特徵。這裡把關鍵詞勾劃一下:1、Describe-描述2、Summarize-總結注意:描述性統計的對象既可以是總體,也可以總體的一部分即是樣本。
  • 淺說數理統計與概率論
    數理統計            數理統計是伴隨著概率論的發展而發展起來的一個數學分支,研究如何有效的收集、整理和分析受隨機因素影響的數據,並對所考慮的問題作出推斷或預測,為採取某種決策和行動提供依據或建議。       根據上面描述,數理統計可分為描述統計和推斷統計。
  • 第七節 描述性統計與分位數回歸
    描述性統計描述性統計,維基百科的定義是:「描述性統計是一種匯總統計,用於定量描述或總結信息集合的特徵」。從這個定義,我們不難看出,描述性統計包含兩個重要的特徵,描述和總結。通常情況下,我們把描述性統計分為兩大類:離散趨勢和集中趨勢,兩種分類常見的統計量如下:
  • SAS統計分析系列:描述性統計分析 (三)-- 描述性統計量
    描述性統計量。本文介紹描述數據分布形態的描述性統計量。在進行統計分析時,通常需要假設樣本服從某種分布。所以在進行分析之前有必要對數據的分布形態進行初步的了解,檢查數據是否大致服從某種分布,然後再運用統計理論去進行假設檢驗。描述數據分布形態有兩種基本方法,一種是計算統計量,一種是作圖。百分位數是一種位置指標。
  • 數據分析必備——統計學入門基礎知識 - 人人都是產品經理
    編輯導語:不論在什麼崗位,都要懂得本崗位的基礎知識,打牢基礎後面才能穩步發展;數據分析也是如此,數據分析必須要掌握統計學的基礎知識;本文是作者分享的關於統計學入門基礎的知識,我們一起來學習一下吧。要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!
  • 在初中階段如何處理統計與概率的內容
    二、處理統計與概率的基本原則 1.突出過程,以統計過程為線索處理統計與概率的內容統計學的主要任務是,研究如何以有效的方式收集和處理受隨機性影響的數據,通過分析數據對所考察的問題作出推斷和預測,從而為決策和行動提供依據和建議。
  • 數據分析:關於社會統計學與數理統計的區別,看完長見識了
    1946年H.克拉默發表的《統計學數學方法》是第一部嚴謹且比較系統的數理統計著作,它是數理統計學進入成熟階段的標誌。由於數理統計其本質是帶著概率意義下的結論。比如:區間估計,假設檢驗,方差分析等。因此數理統計屬於概率論的應用屬於自然科學。
  • SPSS數據分析—描述性統計分析
    描述性統計分析是針對數據本身而言,用統計學指標描述其特徵的分析方法,這種描述看似簡單,實際上卻是很多高級分析的基礎工作,很多高級分析方法對於數據都有一定的假設和適用條件