統計學是數據分析的基石。學了統計學,你會發現很多時候的分析並不靠譜。比如很多人都喜歡用平均數去分析一個事物的結果,但是這往往是粗糙的,不準確的。如果學了統計學,那麼我們就能以更多更科學的角度看待數據。
大部分的數據分析,都會用到統計方面的以下知識,可以重點學習:
通過基本的統計量,你可以進行更多元化的可視化,以實現更加精細化的數據分析。這個時候也需要你去了解更多的Excel函數來實現基本的計算,或者python、R裡面一些對應的可視化方法。
有了總體和樣本的概念,你就知道在面對大規模數據的時候,怎樣去進行抽樣分析。
你也可以應用假設檢驗的方法,對一些感性的假設做出更加精確地檢驗。
利用回歸分析的方法,你可以對未來的一些數據、缺失的數據做基本的預測。
了解統計學的原理之後,你不一定能夠通過工具實現,那麼你需要去對應的找網上找相關的實現方法,也可以看書。先推薦一本非常簡單的:吳喜之-《統計學·從數據到結論》。
另外,如何精力允許,請掌握一些主流算法的原理,比如線性回歸、邏輯回歸、決策樹、神經網絡、關聯分析、聚類、協同過濾、隨機森林。再深入一點,還可以掌握文本分析、深度學習、圖像識別等相關的算法。關於這些算法,不僅需要了解其原理,你最好可以流暢地闡述出來,還需要你知曉其在各行業的一些應用場景。如果現階段不是工作剛需,可不作為重點。
本文算是一個知識點匯總,不做細緻展開,讓大家了解統計學有哪幾大塊,每一類分別用於什麼樣的分析場景。後面幾篇會以實際案例的方式,細緻講講描述性統計、概率分布等。
知識點匯總:
1.集中趨勢
2.變異性
3.歸一化
4.正態分布
5.抽樣分布
6.估計
7.假設檢驗
8.T檢驗
1.眾數
出現頻率最高的數;
2.中位數
把樣本值排序,分布在最中間的值;
樣本總數為奇數時,中位數為第(n+1)/2個值;
樣本總數為偶數時,中位數是第n/2個,第(n/2)+1個值的平均數;
3.平均數
所有數的總和除以樣本數量;
現在大家接觸最多的概念應該是平均數,但有時候,平均數會因為某些極值的出現收到很大影響。舉個小例子,你們班有20人,大家收入差不多,19人都是5000左右,但是有1個同學創業成功了,年入1個億,這時候統計你們班同學收入的「平均數」就是500萬了,這也很好的解釋了,每年各地的平均收入數據出爐,小夥伴們直呼給祖國拖後腿了,那是因為大家收入被平均了,此時,「中位數」更能合理的反映真實的情況;
1.四分位數
上面說到了「中位數」,把樣本分成了2部分,再找個這2部分各自的「中位數」,也就把樣本分為了4個部分,其中1/4處的值記為Q1,2/4處的值記為Q2,3/4處的值記為Q3
2.四分位距 IQR=Q3-Q1
3.異常值
小於Q1-1.5(IQR)或者大於Q3+1.5(IQR);
對於異常值,我們在數據處理的環節就要剔除;
4.方差
5.平方偏差
方差的算術平方根
6.貝塞爾矯正:修正樣本方差
實際在計算方差時,分母要用n-1,而不是樣本數量n。原因在於,比如在高斯分布中,我們抽取一部分的樣本,用樣本的方差表示滿足高斯分布的大樣本數據集的方差。由於樣本主要是落在x=u中心值附近,那麼樣本如果用如下公式算方差,那麼預測方差一定小於大數據集的方差(因為高斯分布的邊沿抽取的數據也很少)。為了能彌補這方面的缺陷,那麼我們把公式的n改為n-1,以此來提高方差的數值,這種方法叫貝塞爾矯正係數。
1.標準分數
一個給定分數 距離 平均數 多少個標準差?
標準分數是一種可以看出某分數在分布中相對位置的方法。
標準分數能夠真實的反映一個分數距離平均數的相對標準距離。
1.定義:隨機變量X服從一個數學期望為μ,方差為σ⊃2;的正態分布,記為N(μ,σ⊃2;)
隨機取一個樣本,有68.3%的概率位於距離均值μ有1個標準差σ內;
有95.4%的概率位於距離均值μ有2個標準差σ內;
有99.7%的概率位於距離均值μ有3個標準差σ內;
1.中心極限定理
設從均值為μ,方差為σ⊃2;的任意一個總體中抽取樣本量為n的樣本,當n充分大時,樣本均值的抽樣分布近似服從均值為μ、方差為σ⊃2;/n的正態分布
2.抽樣分布
設總體共有N個元素,從中隨機抽取一個容量為n的樣本,在重置抽樣時,共有N·n種抽法,即可以組成N·n不同的樣本,在不重複抽樣時,共有N·n個可能的樣本。每一個樣本都可以計算出一個均值,這些所有可能的抽樣均值形成的分布就是樣本均值的分布。但現實中不可能將所有的樣本都抽取出來,因此,樣本均值的概率分布實際上是一種理論分布。數理統計學的相關定理已經證明:在重置抽樣時,樣本均值的方差為總體方差的1/n。
舉個例子:
48盆MM豆,計算出每盆有幾個藍色的MM豆,48個數據構成了總體樣本。然後隨機選擇五盆,計算五盆中含有藍色MM豆的平均數,然後反覆進行了50次。這就是n為5的樣本均值抽樣。
1. 誤差界限
2. 置信度
We are some % sure the true population parameter falls within a specific range
我們有百分之多少確信總體中的值落在一個特定範圍內;
一般情況下,取95%的置信度就可以;
3. 置信區間
七、假設檢驗
1.問題:什麼是顯著性水平?
顯著性水平是估計總體參數落在某一區間內,可能犯錯誤的概率,也就是Type I Error
A Type II Error is when you fail to reject the null when it is actually false.
2. 如何選擇備選檢驗和零假設?
一個研究者想證明自己的研究結論是正確的,備擇假設的方向就要與想要證明其正確性的方向一致;
同時將研究者想收集證據證明其不正確的假設作為原假設H0
1. 主要用於樣本含量較小(例如n<30),總體標準差σ未知的正態分布。
流程如下:
是用t分布理論來推論差異發生的概率,從而比較兩個平均數的差異是否顯著;
一般檢驗水準α取0.05即可;
計算檢驗統計量的方法根據樣本形式不同;
2. 獨立樣本T檢驗:
現在要分析男生和女生的身高是否相同兩者的主要區別在於數據的來源和要分析的問題。
問題:為什麼T檢驗查表時候要n-1?
樣本均值替代總體均值損失了一個自由度
3. 配對樣本t檢驗
分析人的早晨和晚上的身高是否不同,於是找來一撥人測他們早上和晚上的身高,這裡每個人就有兩個值,這裡出現了配對
樣本誤差(Standard Error)
4. Pooled variance 合併方差
當樣本平均數不一樣,但實際上認為他們的方差是一樣的時候,需要合併方差
不要被公式嚇到,他的本質是兩個樣本方差加權平均
5. Cohen’s d
效應量(effect size):提示組間真正的差異佔統計學差異的比例,值越大,組間差異越可靠。
來源:實驗室ISO17025
全國產品檢測、技術培訓、儀器校準諮詢電話:4008180021
2021年實驗培訓課程目錄
ISO IEC 17025:2017實驗室管理體系內審員培訓
ISO IEC 17025:2017實驗室管理體系內審員轉版培訓
ISO IEC 17025:2017實驗室風險控制和評估培訓
檢測設備管理與量值溯源培訓
檢測數據控制及檢測結果的質量保證培訓
測量不確定評定與表示培訓
ISO 15189 醫學實驗室認可內審員培訓
CNAS-CL08 司法鑑定機構內審員培訓
汽車行業實驗室的管理要求- IATF 16949:2016 對汽車行業實驗室的要求培訓
實驗室運營與管理培訓
實驗室安全管理培訓
實驗室試劑耗材及標準物質管理培訓
實驗室高級審核技巧培訓
檢測方法驗證和確認培訓
金屬材料失效分析技術培訓
金相分析測試操作培訓
金屬力學性能測試操作培訓
金屬材料化學成分分析測試操作培訓
金屬材料理化試驗理解與應用培訓
緊固件機械性能測試操作培訓
鹽霧測試操作培訓
光老化測試操作培訓
高分子材料鑑別與分析技術培訓
塑料拉伸彎曲標準解讀及測試操作培訓
高分子材料及製品常規阻燃測試標準解讀及操作培訓
色度學與顏色評價培訓
循環鹽霧測試及操作培訓
塑料熔體流動速率和熱變形維卡測試標準解讀及現場操作培訓
磨耗、鉛筆硬度、附著力塗膜物理性能測試技術培訓
實驗室管理與技能提升培訓
水尺計重培訓
2021年全國培訓課程總表,點這裡