hyn | 作者
知乎專欄 | 來源
https://zhuanlan.zhihu.com/p/40756359
從小偏文科的我,聽到數學相關的知識就頭疼,更是毫無統計學基礎,之前用 Excel做零售分析時也從沒覺得統計學和數據分析有什麼必要關聯。直到這段時間通過各平臺搜集到的數據分析相關資料、書籍了解到,學習數據分析,統計學基礎必不可少。今天這篇文章就簡單說一下我近期學習到的統計學中的描述性統計分析以及基礎概率知識。
統計性描述分析是作為統計分析的第一步,在日常的數據分析中其實我們經常使用一些特徵值,尤其是我們做周報或者月報的分析時,這些描述性的統計分析特徵值對於我們有一定的幫助,描述性統計分析是進行正確的統計推斷的先決條件。通過數據的分布類型和特點、集中和離散程度可進行初步分析。
描述性統計有幾個常用指標,分別是:平均值、四分位數、標準差、標準分。
(1)平均值(μ:讀「miu」),平均值是統計學最常用的統計量,是集中趨勢最常用的測度值,除平均數外還有眾數、中位數等集中趨勢常用值。
平均數:就是一組數據之和除以這組數據的個數,缺點是對異常值不敏感。
眾數:指一組數據中出現次數最多的那個數據,一組數據可以有多個眾數,也可以沒有眾數。
中位數:將一組數據按大小順序排列起來,形成一個數列,如果這組數據的個數為奇數,則居於數列中間位置的那個數據就是中位數,如數據個數為偶數,那麼中位數就是位於中間的兩個數值的平均值。
(2)四分位數:將一組數據從小到大升序排列,分成4等分,處於1/4,1/2,3/4的數值是四分位數,我們將這三個數值分別稱為:下四分位數、中位數、上四分位數。
四分位數有一個非常生動的表現形式,就是箱線圖,我們可以通過箱線圖來比較不同類別的數據。
我們還可以應用四分位數通過Tukey's test方法來識別出一組數據中可能的異常值。
藍色範圍就是極度異常數值,紅色則為中度異常數值。
(3)標準差(讀「西格瑪」),方差的算術平方根,反映一組數據內個體間的離散程度(也稱為波動大小)。
(4)標準分,用來表示一組數據中某個數值距離平均值多少個標準差:
概率,簡單來說就是用數值來表示某件事發生的可能性,這個數值一定是介於0和1之間的。
簡單的概率計算可以總結為一個公式:
複雜的概率計算有兩種方法:
方法一:尋找行業裡權威機構發布的概率作為參考
方法二:數據分析
可以應用在生活中的幾種概率思維:
賭徒謬論
賭徒謬論也稱為蒙地卡羅謬論,是一種錯誤的信念,以為隨機序列中一個事件發生的機會率與之前發生的事件有關,即其發生的機會率會隨著之前沒有發生該事件的次數而上升。如重複拋一個公平硬幣,而連續多次拋出反面朝上,賭徒可能錯誤地認為,下一次拋出正面的機會會較大。
獨立事件這一概念就可以詳細解釋為何以上觀念會被稱為謬論。獨立事件就是事件B發生或不發生對事件A不產生影響,就說事件A與事件B之間存在某種「獨立性」,其對象可以是多個。
大數定律
想要理解大數定律,必須先了解什麼事小數定律:
本章學習內容只是籠統的概括了跟數據分析相關的統計學基礎知識,關於統計學,還有很多值得我們去探索、學習,去從中發現樂趣。了解統計學才能為我的數據分析奠定堅實的基礎。路還很長,堅持下去。
本文為轉載分享&推薦閱讀,若侵權請聯繫後臺刪除
愛數據學院
- 3天入門業務型數據分析師 -
只需3天,帶你輕鬆入門業務型數據分析師
掃描下方二維碼了解課程詳情