全文共1660字,預計學習時長7分鐘
事實上,統計學確實可以算得上是令人畏懼的學科了。但統計學不一定有那麼難學,本文就試圖向大家展示掌握統計學工具,它能讓統計學變得不再那麼可怕。
那麼先從計算A/B測試的樣本量(效能檢驗)開始吧。閱讀本文前,最好閱讀先熟悉抽樣分布的概念以及比例的標準誤差的計算方法。
1.設計A/B測試
假設我們要用A/B測試來決定是否採用主頁的新設計。當前主頁平均每天有200個獨立訪客以及5%的點擊率 (CTR) 。預計新主頁能帶來至少7%的點擊率。我們給兩個變量分別分配50%的訪問量:
這個測試需要多少天?
2.假如測試7天,會發生什麼?
假設A/B測試只有7天,測試結束後每組都有700名訪客。接下來計算零假設(總體CTR無差異)和備擇假設(總體CTR存在真實差異)的樣本分布。
第一步:計算現有的樣本比例p
第二步:用p計算標準誤差se
第三步:計算樣本分布
· H0(零假設):正態分布,平均值為0,標準差為0.013.
· HA(備擇假設):正態分布,平均值為0.02,標準差為0.013.
分布圖如下:
在0.05的顯著性水平()下,臨界值為0.0249.這意味著:
1. 若樣本CTR的絕對差大於0.0249,拒絕零假設(H0)。
· 若H0為真,那麼拒絕零假設的決定就是錯誤的(第一類型錯誤),這種情況出現的機率是5%()。
· 若HA為真,那麼拒絕H0的決定就是正確的,這種情況出現的機率是35%(1-),這一機率也稱為測試效能。
2.若樣本CTR的絕對差小於或等於0.0249,不能拒絕零假設(H0)。
· 若H0為真,則不拒絕零假設的決定就是正確的,這種情況出現的機率是95%(1-)。
· 若HA為真,則不拒絕零假設的決定就是錯誤的(第二類型錯誤)。這種情況出現的機率是65% ()。
總結:
A/B測試只有7天,這導致無法檢測出實驗組CTR上升的機率達到65%。這個錯誤率太高了!一般來說,我們希望將錯誤率降低至20%,這相當於80%的效能。我們可以通過增加樣本量來達成這一目的。
3.手動計算80%效能所需的樣本量
如果要使測試的效能達到80%,需要多大的樣本量呢?
將零假設的樣本分布轉化為標準正態分布,讓計算過程更加直觀:
· 在0.05的顯著性水平下,臨界值約為1.96,這一數據通過查臨界值表獲得。
· 如果考慮備擇假設的樣本分布,那麼我們希望曲線下-1.96到1.96之間的面積佔20%(效能為80%)。因此,臨界值必須與平均數相差約0.84(這一數值也可以在對照表上找到)。
· 因此,標準化均數差必須是1.96+0.84=2.8
藉助圖表可能更容易理解:
真正的均值差是0.02,因此,標準化均數差等於0.02/se。我們可以建個等式來解出樣本量n:
因此,每組需要2211個觀測值。當每組的日訪問量為100個獨立訪客時,測試時長至少要達到23天才能得到效能達到80%的實驗結果。
4.用R進行統計分析
到這裡,我們已經非常熟悉樣本量計算(效能分析)的整體框架了。接下來,來看看如何將上述所有步驟簡化為幾行代碼。在R中輸入以下代碼:
# Enter inputs
p1 <- 0.05
n1 <- 700
p2 <- 0.07
n2 <- 700
power <- 0.8
x1 <- p1*n1
x2 <- p2*n2
print('absolute difference (Test - Control)')
delta <- abs(p1-p2)
delta
print('pooled sample proportion')
pooled.p <- (p1 * n1 + p2 * n2 ) / (n1 + n2)
pooled.p
print('se')
se <- sqrt(p *(1-p) * ((1/n1) + (1/n2)))
se
print('standardized distance for requested power')
st.dist <- -qnorm(p = 1-power, mean = 0, sd = 1) + qnorm(p = 0.975, mean = 0, sd = 1)
st.dist
print('solve for n')
n <- ((st.dist)/delta)^2*pooled.p*(1-pooled.p)*2
n
就會得到:
[1] "absolute difference (Test — Control)"
0.02[1] "pooled sample proportion"
0.06[1] "se"
0.0126942056522989[1] "standardized distance for requested power"
2.80158521811297[1] "solve for n"
2213.38408508644
用這種方法,磨人的統計學是不是也變得可愛起來啦?
留言點讚關注
我們一起分享AI學習與發展的乾貨
如轉載,請後臺留言,遵守轉載規範