前言:對於數據分析師來說,統計學是必不可少的基礎知識。不僅工作中會經常運用其概念,且也幾乎是數據分析師工作的面試必考題(尤其是校招以及轉行的朋友,當實戰經驗少的時侯會更關注基礎功底是否紮實)。所以我準備開始以較簡練的語言,輔以簡單易懂案例,總結一些統計學核心的知識點。我們常用的ab實驗,其背後的原理就是統計學中的假設檢驗,今天我們來詳細說說假設檢驗。
什麼是假設檢驗:假設就是對從總體參數(均值、比例等)的具體數值所作的陳述,比如,我認為配方一比配方二的效果要好。而假設檢驗就是先對總體的參數提出某種假設,然後利用樣本的信息判斷假設是否成立的過程,比如上面的假設信息我該接受還是拒絕。
什麼是顯著性水平:顯著性水平是一個概率值,原假設為真時,拒絕原假設的概率,表示為α,常取值為0.05、0.01、0.10。一個公司招聘,本來準備招聘100個人,公司希望只有5%的人是混水摸魚招聘進來,所以可能會有5個人混進來,所謂顯著性水平α,就是你允許有多少比例混水摸魚的能通過測試。
原假設與備擇假設:待檢驗的假設又叫原假設(零假設),一般表示為H0,原假設一般表示兩者沒有顯著性差異。與原假設進行對比的叫備擇假設,表示為H1。一般在比較的時候,主要有等於、大於、小於。
檢驗統計量:即計算檢驗的統計量。根據給定的顯著性水平,查表得出相應的臨界值。再將檢驗統計量的值與該顯著性水平的臨界值進行比較,得出是否拒絕原假設的結論。
P值:是一個概率值,如果原假設為真,p值是抽樣分布中大於或小於樣本統計量的概率。左檢驗時,p值為曲線上方小於等於檢驗統計量部分的面積。右檢驗時,p值為曲線上方大於等於檢驗統計量部分的面積。
假設檢驗的兩種錯誤:類型 I 錯誤(棄真),如原假設為真,但否定它,則會犯類型 I 錯誤。犯類型 I 錯誤的概率為 α(即您為假設檢驗設置的顯著性水平)。α 為 0.05 表明,當您否定原假設時,您願意接受 5% 的犯錯概率。為了降低此風險,必須使用較低的 α 值。但是,使用的α值越小,在差值確實存在時檢測到實際差值的可能性也越小。類型 II 錯誤(採偽),如原假設為假,但無法否定它,則會犯類型 II 錯誤。犯類型 II 錯誤的概率為 β,β 依賴檢驗功效。可以通過確保檢驗具有足夠大的功效來降低犯類型 II 錯誤所帶來的風險。方法是確保樣本數量足夠大,以便在差值確實存在時檢測到實際差值。
單雙測檢驗:當假設關鍵詞有不得少於/低於的時候用左側檢驗,比如燈泡的使用壽命不得少於/低於700小時時;當假設關鍵詞有不得多於/高於的時候用右側檢驗,比如次品率不得多於/高於5%時。雙側檢驗指按分布兩端計算顯著性水平概率的檢驗,應用於理論上不能確定兩個總體一個一定比另一個大或小的假設檢驗。一般假設檢驗寫作H0:μ1=μ2。
檢驗結果:單側,若p值>α,不拒絕H0,若p值<α,拒絕H0;雙側,若p值>1/2α,不拒絕H0,若p值<1/2α,拒絕H0
假設檢驗方法:z檢驗,t檢驗,卡方檢驗(卡方本篇不詳述,應用較少)
Z檢驗原理:當總體標準差已知,樣本量較大時用標準正態分布的理論來推斷差異發生的概率,從而比較兩個平均數的差異是否顯著。如果檢驗一個樣本平均數與一個已知的總體平均數的差異是否顯著,其Z值計算公式為:如果檢驗來自兩個的兩組樣本平均數的差異性,從而判斷它們各自代表的總體的差異是否顯著,其Z值計算公式為:研究正常人與高血壓患者膽固醇含量,比較兩組血清膽固醇含量有無顯著差異。正常人組數據:n1=506(樣本量) μ1=180.6(樣本均值) s1=34.2(標準差)高血壓組數據:n2=142 μ2=223.6 s2=45.8α=0.05,樣本量較大,且檢驗來自兩組樣本平均數的差異性,故選擇z檢驗統計量α=0.05,雙側故 α/2=0.025,1-α=0.975 查表,確認臨界值為1.9610.4(z值)>1.96(臨界值),故p<0.05,按α=0.05水準拒絕H0,接受H1,可以認為正常人和高血壓患者的血清膽固醇含量有差異。
t檢驗:分為單樣本的t檢驗、配對樣本均數t檢驗(本篇不詳細說)、兩獨立樣本均數t檢驗。t檢驗應用於兩組計量資料小樣本比較,樣本對總體有較好代表性,對比組間有較好組間均衡性,即隨機抽樣和隨機分組。且樣本來自正態分布總體。
單個樣本t檢驗適用於樣本均數與已知總體均數μ0的比較,目的是檢驗樣本均數所代表的總體均數μ是否與已知總體均數μ0有差別。應用於總體標準α未知的小樣本資料,且服從正態分布。某地新生兒出生體重為3.3kg,從該地難產兒中隨機抽取35名嬰兒,平均體重為3.42kg,標準差為0.4kg,問該地難產兒出生體重與新生兒體重是否不同?α=0.05 ,樣本均數與已知總體均數μ0的比較,所以選擇單樣本t檢驗n=35 μ0=3.3 μ=3.42 s=0.4自由度=n-1=34,α=0.05,雙側故 α/2=0.025,1-α=0.975,自由度34,查表得出臨界值為2.032因為1.77(z值)<2.032(臨界值),故p>0.05,按α=0.05水平,差別無統計學意義,不拒絕h0,不能認為該地難產兒與新生兒體重有差異。
兩獨立樣本t檢驗(ab實驗背後原理):適用於完全隨機設計的兩樣本均數的比較,其目的是檢驗兩樣本所來自總體的均數是否相等。兩獨立樣本t檢驗要求兩樣本所代表的總體服從正態分布N(μ1,σ^2)和N(μ2,σ^2),且兩總體方差σ1^2、σ2^2相等,即方差齊性。若兩總體方差不等需要先進行變換。兩獨立樣本t檢驗的檢驗假設是兩總體均數相等,即H0:μ1=μ2,統計量計算公式為:25例糖尿病患者隨機分成兩組,甲單純藥物治療,乙採用藥物合併飲食治療,二月後測空腹血糖如下,問兩種療法血糖值是否相同?數據:n1=12 s1=182.5 n2=13 s2=141自由度=n1+n2-2=23 α=0.05,雙側故 α/2=0.025,1-α=0.975,查表得臨界值為 t=2.069因為2.639(t值)>2.069(臨界值) ,故 p<0.05 , 在0.05水準下,拒絕H0,接受H1,存在顯著性差異,故認為兩種療法效果不同。以上,希望對大家有所幫助。大家如果對假設檢驗部分有困惑的點,歡迎隨時與我交流。
我是東哥,最後給大家免費分享入門Python的最強三件套:《ThinkPython》、《簡明Python教程》、《Python進階》的PDF電子版。如果你是剛入門的小白,不用想了,這是最好的學習教材。
現在免費分享出來,有需要的讀者可以下載學習,在下面的公眾號GitHuboy裡回復關鍵字:Python,就行。
🧐分享、點讚、在看,給個三連擊唄!👇