A/B實驗:統計學原理

2021-02-19 學有思
一、背景

    A/B實驗是一種用數據驅動產品迭代的解決方案,使用A/B實驗驅動產品業績增長的方法,深受 Google,Facebook,微軟,百度,騰訊,阿里等眾多公司青睞。


二、A/B實驗原理

1、什麼是A/B實驗

    A/B 實驗,簡單來說,就是為同一個目標制定兩個版本或多個版本的方案,在同一時間維度,分別讓組成成分相同(相似)的 A/B 群組分別採用這些版本,收集各群組的體驗數據和業務數據,最後分析、評估出最好版本,正式採用。其中 A 方案為現行的設計(稱為控制組), B 方案是新的設計(稱為實驗組)。分析 A/B 實驗的定義,要實現科學權威的評估,最重要的兩點在於:

    無論是實驗前確保實驗組和對照組流量無顯著性差異,還是實驗後新策略較舊策略的指標變動是否具有統計上的顯著性,無一例外,它們都蘊含著統計學的知識。接下來,我們重點論述一下 A/B 實驗所依賴的統計學基礎以及如何依據統計學理論做出科學評估。

2、統計的基本術語

    總體 (Population): 我們最終關注的全部對象。例如,如果我們的實驗對象是10%的用戶,那麼它與剩下90%用戶組成的全部用戶是總體。

    樣本 (Sample): 總體中的小部分用戶,這是我們的實驗對象。例如,如果我們的實驗對象是10%的用戶,那麼樣本就是這10%的用戶。

    樣本量 (Sample Size): 樣本的總個數。

    樣本統計量 (Sample Statistics): 它本身是個很寬泛的概念,可以是樣本均值,可以是比率, 可以是方差。但是在A/B實驗中,由於我們目標是了解實驗組和對照組方案的好壞,樣本統計量特指這兩組的差異, 如實驗組和對照組的轉化率之差,用p2-p1表示。

    抽樣 (Sampling): 採用某種特定的方法,從總體中選取一部分有代表性樣本的方法,比如隨機抽樣。

    分布 (Distribution): 你可以把分布想像成一個橫軸為觀測值,縱軸為出現頻率的圖,比如扔骰子只可能出現1-6這6種可能,重複扔50次骰子,它的分布也許如下:

    正態分布 (Normal Distribution): 又叫高斯分布。它的分布圖是一個兩頭少/中間多的對稱的鐘形曲線。自然界的許多隨機事件都服從這種分布,如人的身高,體重。對於正態分布的數據,有68.2%個落在距離總體均值1個標準差 (σ) 的範圍內,95.4%個落在距離總體均值2個標準差 (σ) 的範圍內,99.7%個落在距離總體均值3個標準差 (σ) 的範圍內(中心極限定理和正態分布的運用),有95%個落在距離總體均值1.96倍個標準差 (σ) 的範圍內。

    伯努利分布 (Binomial Distribution): 只有0和1兩種取值。都可以表達為是或否的問題。例如,拋一次硬幣是正面向上嗎?新出生的小孩是女孩嗎?廣告轉化率就滿足這種分布。

    中心極限定理 (Central Limit Theorem):隨著抽樣次數增多,樣本均值的抽樣分布趨向於服從正態分布。抽樣次數並不是樣本量,一次實驗只是一次抽樣,只能得到一個樣本均值。而n次抽樣會得到n個值,這些值的分布才是正態分布。舉個例子,在下圖中當抽樣次數達到30次時,樣本均值的分布逐漸呈一個對稱的鐘形曲線。中心極限定理是概率論的重要定理,它是接下來談到的顯著性檢驗的基礎。如果一組數據屬於正態分布,我們可以根據正態分布的概率密度函數推算出置信區間或p-value,當一組數據不屬正態分布時,我們仍然可以依據中心極限定理和正態分布的函數推導出置信區間和p-value。



2、假設校驗
    因為A/B實驗從本質上來說是一個基於統計的假設檢驗過程,它首先對實驗組和對照組的關係提出了某種假設,然後計算這兩組數據、確定這兩組數據差異是否存在統計上的顯著性,最後根據上述結果對原假設做出判斷。

2.1 兩個假設

    假設檢驗是利用樣本統計量估計總體參數的方法,在假設檢驗中,先對總體均值提出一個假設,然後用樣本信息去檢驗這個假設是否成立。我們把提出的這個假設叫做原假設,與原假設對立的結論叫做備擇假設,如果原假設不成立,就要拒絕原假設,進而接受備擇假設。

2.2 兩類錯誤

    對於原假設提出的命題,我們需要作出判斷,要麼原假設成立,要麼原假設不成立。因為基於樣本對總體的推斷,會面臨著犯兩種錯誤的可能:第一類錯誤,原假設為真,我們卻拒絕了;第二類錯誤,原假設為偽,我們卻接受了。顯然,我們希望犯這兩類錯誤的概率越小越好,但對於一定的樣本量 n,不能同時做到犯這兩類錯誤的概率很小。


2.3 T檢驗

  常見的假設檢驗方法有 Z 檢驗、T 檢驗和卡方檢驗等,不同的方法有不同的適用條件和檢驗目標。Z 檢驗和 T 檢驗都是用來推斷兩個總體均值差異的顯著性水平,具體選擇哪種檢驗由樣本量的大小、總體的方差是否已知決定。在樣本量較小且總體的方差未知的情況下,這時只能使用樣本方差代替總體方差,樣本統計量服從 T 分布,應該採用 T 統計量進行檢驗。

2.4 p-vaule

    P 值是當原假設為真時,所得到的樣本觀察結果或更極端的結果出現的概率。如果 P 值很小,說明這種情況發生的概率很小,但是在這次試驗中卻出現了,根據小概率原理,我們有理由拒絕原假設,P 值越小,我們拒絕原假設的理由越充分。P 值可以理解為犯棄真錯誤的概率,在確定的顯著性水平下(α一般取 0.05),P 值小於顯著性水平,則拒絕原假設。


三、案例分析

1、案例

    案例:如果有兩個機器學習模型正在做實驗,哪個模型最轉化率有提升,隨機選取10000個用戶做實驗,對5000個用戶採用第一個模型,另外5000個用戶採用第二個模型,經過一周的的觀察,得到第一個組轉化率為40%,第二個組轉化率為41%。理想狀態中,抽取100個用戶做實驗,那麼一定有41個用戶轉化。在這個例子中,樣本的轉化率41%是嚴格等於總體轉化率41%的。但是現實沒有這麼完美。現實情況下,在這100個樣本中,也許只有30個人轉化,也許有50個人轉化。這就是樣本之間的波動。由於樣本的隨機性,樣本的觀測值(如轉化率)和總體的真實參數(如總體轉化率)存在差距。這種差距能用抽樣誤差衡量。 抽樣誤差越大,用樣本估計總體的結果就越不準確。我們需要置信區間和p-value來描述這次抽樣用樣本估計總體的準確程度。

2、如何理解置信區間和抽樣誤差

    由此得出的實驗結論:實驗組對轉化率有提升,因為實驗組轉化率比對照組高了1%。但是由於抽樣誤差的存在,這樣的描述也許並不準確。更精確的表述可能是這樣的:實驗組轉化率相比對照組轉化率高0.8-1.2%(1% ± 0.2 %), 置信度為95%。置信區間的上界是樣本均值+抽樣誤差,下界是樣本均值-抽樣誤差,95%置信度下的抽樣誤差是1.96*樣本標準差。

    1%(41%-40%)是實驗組和對照組的絕對差異(p2-p1), ± 0.2 % 是抽樣誤差,絕對差異±抽樣誤差給出了置信區間的範圍為0.8%-1.2%。置信度95%說的是我們95%確信實驗組轉化率相比對照組轉化率高0.8-1.2%。從概率論的角度解釋,就是在其他參數不變的情況下,如果我們重複做同樣的實驗100次,那麼有95次得出的實驗組和對照組的轉化率差異都在0.8%-1.2%這個區間內。因此置信區間是一個區間使得重複實驗n次具有一定概率(這個概率就是置信度)的結果都落在此區間內。而置信度是人為給定的,我們需要在實驗開始前選定一個置信度(工業屆常用95%),它會影響這個實驗所需的樣本量大小和顯著性檢驗的結果。


3、如何理解假設檢驗

    在A/B實驗中一般有兩種假設:

原假設 (H0):反對的假設。

備擇假設 (H1, or Ha):支持的假設。

    假設檢驗的目標是拒絕原假設,它的核心是證偽。一般來說我們在多個備選項中選出其中的某一個有兩種思考過程,一種是基於滿意法的思考,也就是找到那個看上去最可信的假設;另一種是證偽法,即剔除掉那些無法證實的假設。滿意法的嚴重問題是,當人們在沒有對其他假設進行透徹分析的情況下就堅持其中一個假設,當反面證據如山時往往也視而不見。而證偽法能克服人們專注於某一個答案而忽視其他答案,減少犯錯誤的可能性。證偽法的思考過程類似於陪審團審判,首先假定一個人無罪,然後收集證據證明他有罪,如果有足夠證據說明他有罪,就拒絕他無罪的假設。

    A/B實驗的估計量不再是p,而是p2-p1 (實驗組和對照組的轉化率之差)。原假設是p2-p1=0 (即兩者沒有差異),因為只有當我們懷疑實驗組和對照組的結果不一樣, 才有實驗的動機,而我們支持的備擇假設是 p2-p1≠0(兩者有差異)。如果p2-p1≠0,在此基礎上我們還需要確定這種差異是否具有統計上的顯著性以支撐我們全量上線實驗組方案。

    由於抽樣誤差的存在,A/B實驗可能出現四種結果,而這四種結果中存在兩種假設檢驗錯誤:當原假設H0為真,卻拒絕原假設;和當H0為假,卻沒有拒絕原假設H0。這兩種錯誤分別用 α (alpha) 和 β (beta) 表示,相應的,做出正確假設檢驗判斷的概率分別是1-α 和 1-β



4、如何理解一類錯誤和統計顯著性

    一類錯誤(Type I Error)指錯誤地拒絕原假設為真的情況。對於A/B實驗來說就是實驗組相比對照組有提升,然而實際卻沒有差別。這裡所說的有提升,是相對於樣本而言的,在總體上實驗組是否相比對照組有提升,這是我們關心卻無從知曉的。也許對於樣本用戶,實驗組存在提升,但對於總體用戶而言,這樣的提升並不存在。當我們想知道這次實驗的提升,是否適用於總體,是否能使假設檢驗犯一類錯誤的概率保持在非常低的水平(概率α=5%)時,我們就需要特別關注實驗是否具有統計顯著性 (Statistical Significance)。要想判斷實驗是否具有統計顯著性,p-value至關重要。

   

    以萬能的扔硬幣為例。我們的原假設是硬幣是均勻的,備擇假設是硬幣不均勻。下表為扔硬幣的次數和出現正面朝上的概率。

    當扔硬幣1次,正面朝上了,如果硬幣是均勻的,那麼發生這件事的概率是0.5;當扔硬幣2次,兩次正面都朝上,如果是均勻的硬幣,那麼發生這件事的概率是0.5*0.5=0.25;接著你扔了3次,4次,每次都正面朝上。當扔硬幣5次的時候,仍然是正面朝上,如果硬幣是均勻的,那麼發生這件事的概率只有0.5^5=0.03。這是一個非常小的概率,因為如果硬幣是均勻的,是不太可能發生這樣極端的事情的。但是這樣極端的事情卻發生了,這使你懷疑原假設的正確性,因為一枚不均勻的硬幣極有可能投出這樣的結果,因此你拒絕了原假設,接受了備擇假設,認為這是一枚不均勻的硬幣。

    另外,對於很多實驗,在實驗前段時期的顯著性是在顯著和不顯著之間上下波動的,我們需要足夠多的樣本量和更長的實驗周期來涵蓋前期的波動直到顯著性趨於平穩。


    上圖為統計顯著性的波動隨樣本量增大的變化情況。在實驗剛開始時,統計顯著性的波動是非常明顯的,這可能受到新奇效應 (Novelty Effect) 的影響。對於用戶存在感知的A/B實驗,如UI的改版、運營方案的更新、新功能的上線等,實驗組所做的任何改變都可能引起用戶的注意,好奇心會驅使他們先體驗一番,從而導致A/B實驗中實驗組效果一開始優於對照組,p-value極小,實驗效果非常顯著。但是一段時間過去後,用戶對於新的改變不再敏感,實驗組效果回落,顯著性可能會下降,最後趨於穩定。足夠的樣本量能保證一個合理的實驗周期,從而避免這種新奇效應的影響。


5、如何理解二類錯誤和統計功效

    二類錯誤 (Type II Error)是指錯誤地接受了原假設為假的情況,犯這種錯誤的概率為β。對於A/B實驗來說就是實驗組和對照組沒有差異,但實際實驗組和對照組有差異。

    一類錯誤和統計顯著性有關;二類錯誤則和統計功效 (Power) 有關。統計功效是正確的拒絕原假設的概率, 即1-β。為了讓實驗結果更準確,實驗需要提高統計功效, 一般來說提升到80%以上,犯二類錯誤的概率控制到20%以下,實驗結果就比較可信了。

    更大的樣本量和更長的實驗周期能獲得更高的統計功效和更準確的測試。通過給定的統計功效值(如80%)和預期提升幅度(最小預期提升幅度MDE,>=2%),可以推導出一個實驗需要的最小樣本量值。


五、參考資料

1、獲得更好用戶體驗的必殺器——A/B實驗統計學秘籍(上)

https://mp.weixin.qq.com/s/hseqdsyjRt-fJ2W2l_fpug

2、獲得更好用戶體驗的必殺器——A/B實驗統計學秘籍(下)

https://mp.weixin.qq.com/s/NNjTq8chqeC96yz4VNiDjA

3、美團配送 A/B 評估體系建設與實踐

https://mp.weixin.qq.com/s/v3Fvp6Hed7ZGoE8FGlGMvQ

相關焦點

  • 靠一張思維導圖,她如何教文科生徹底搞懂統計學原理
    要擺脫這種困境,唯有「以不變應萬變」,不變的是統計原理,不斷變化的是統計技術和統計模型。還有一種聲音經常出現:我們文科生學習統計學,只要秉持用戶視角就好了,我們把統計學當工具,只需要記住在什麼情況下使用什麼方法就好,我們學會開車不一定要懂得造車原理。應該說,我很認同這句話,但也持有一些保留意見。
  • 突破 SPSS 統計學的野生攻略
    在我們處理實驗數據的時候,最常用的統計學軟體就是 SPSS。
  • 案例 統計學之多元線性回歸分析
    這裡就要用到統計學上另一種重要的統計方法:多元線性回歸分析。多元線性回歸分析就是研究一個因變量(這裡是:肺活量)和多個自變量(這裡是:體重和身高)之間的關係。和上回介紹的一元線性回歸方程差不多,多元線性回歸方程只是增加了一個自變量而已:ŷ=a+b1x1+ b2x2。 x1和x2為2個自變量,y為因變量。在上面這個例子中,身高是x1;體重是x2;而肺活量就是y。
  • 五本統計學科普著作,看完你絕對愛上統計學!來自大學統計學教授推薦
    如果只看書名標題,你可能會產生誤解,很難將其與統計學聯想到一起。不妨看看寫在封面最上面那一行的字:「20世紀統計學是加何影響科學革命的",相信這樣一個氣勢宏大的副標題應該能打消不少人心中的疑慮。本書通過英國劍橋一群科學家及其夫人們在一個慵懶的午後所做的一個小小的實驗為開篇,為讀者展開了一個別樣的關於20世紀統計革命的世界。
  • PCR技術原理、實驗步驟和應用
    1.掌握聚合酶鏈式反應的原理。二、實驗原理PCR技術,即聚合酶鏈反應(polymerase chain reactionPCR是在試管中進行的DNA複製反應,基本原理與細胞內DNA複製相似,但反應體系相對較簡單。
  • 實驗技術八卦課堂:Real-Time PCR的原理和歷史
    貓大 轉載請註明來源:解螺旋,醫生科研助手小夥伴們,這裡是貓大實驗技術八卦課堂,從這一講開始,我們來解析一下 Real-Time PCR。在正式開講之前呢,貓大必須要安利一個網址: http://pga.mgh.harvard.edu/primerbank/ 。對,這就是著名的哈佛引物庫!
  • 統計學第7版(賈俊平)—— 參數估計與樣本量估算原理
    收錄於話題 #統計學 統計學第7版(賈俊平)—— 參數估計與樣本量估算原理微信公眾號:生信小知識關注可了解更多的生物信息學教程及知識。
  • 現代統計學本科生培養的課程體系與路線圖
    統計學是一門與時俱進的應用學科,它的研究問題和研究手段是「常為新」的。統計學植根於早年的農牧業、後來生物醫學、以及當今的IT網際網路等領域,這驅動和豐富了統計學的研究問題。而數學特別是概率論給統計帶來基礎支撐,使得從經驗中獲得的方法系統化、普適化,從而奠定了統計學的學科基礎和體系。計算技術的迅速發展給統計學帶來新的發展階段,算法的作用日益突出,與機器學習交融貫通拓寬了統計學科邊界。
  • A/B Test實驗流程與學習重難點
    其本質是基於抽樣的統計學假設檢驗,屬於灰度發布法的子集,基本原則有兩點:一是儘快得到實驗結論而促進決策,二是使收益最大化,但成本最小(用戶體驗影響最小)2 來源什麼情況下要使用A/B Test呢,當你對你負責的業務有疑問時,例如很長時間沒有進行重大版本更新了,你總擔心你的產品是不是需要及時迭代,以及如果想要迭代,怎樣迭代呢?
  • 統計學論壇 |Softplus INGARCH模型
    2020年11月30日,清華大學統計學論壇在華業大廈3702成功舉辦。
  • A/B測試從零入手實操指南
    但是,我們怎麼能肯定地說這個實驗是成功的,而且由於其他因素,差異並沒有發生呢? 要回答這個問題,我們需要檢查測試組的上升是否有統計學意義。作為行業標準,我們接受p值<5%使結果具有統計學意義(但這取決於你的商業邏輯,有人使用10%或甚至1%的情況)。
  • 【圖文實驗】電解的原理
  • 大學統計學白上了?800多科學家聯名反對「統計學意義」,P值該廢了
    大學裡好不容易聽懂的統計學,會變成一件沒「意義」的事情嗎?統計學白學了?最新一期Nature雜誌發表了三位統計學家的一封公開信,他們號召科學家放棄追求「統計學意義」,並且停止用統計學中常見的P值作為判斷標準。一般認為P≤0.05或者P≤0.01就有顯著性差異,研究就有統計意義。
  • StatQuest生物統計學2019再出發
    正文2018年有幸發現了一個非常棒的統計學學習視頻,這個視頻深入淺出的將複雜的統計學術語和理論解釋的直白透徹,每一個統計學概念總是伴隨著簡單的不能再簡單的圖表和解釋。炎炎夏日,統計學習小組來襲,希望可以給你澆盆涼水生物統計學專題 -StatQuest教學視頻學習筆記「 StatQuest是一個初學者極其友好的統計學教程StatQuest作者總是不厭其煩的認真製作各個統計術語和理論的圖表。比如:單就一個簡簡單單的「統計分布」的基礎概念而言。
  • 零基礎學統計學,還能同時學Excel、SPSS和R
    A: 只會機械的軟體操作,不懂背後的統計學原理。B: 統計學理論和實踐脫節,除了應付考試,不懂實際應用。C: 沒有統計學基礎,卻正在(或需要)使用高級統計分析方法。D: 做數據分析工作的人,卻沒有系統的學習過統計學。如果你至少中了上述選項中的一條,那麼這篇文章推薦的課程就是為你量身定做!
  • 統計學中p值的含義和顯著差異性分析
    統計學意義(p值)結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變量關聯有5%的可能是由於偶然性造成的。
  • 磁懸浮技術基本原理是什麼?磁懸浮小實驗原理圖解
    磁懸浮技術系統原理,是由轉子、傳感器、控制器和執行器4部分組成,其中執行器包括電磁鐵和功率放大器兩部分。
  • 趣味科學實驗:N104. 熱縮片——熱縮原理
    微信號zhm6334574】一 實驗現象 二 實驗材料         透明打包盒、剪刀、電吹風、黑色記號筆三 實驗步驟 【第1步】將透明打包盒平整的一面用剪刀剪切下來【熱縮片製作過程教程1】【熱縮片製作過程教程2】四 實驗原理
  • 【量子物理】海森堡不確定性原理經典解釋被實驗推翻!
    為了拍攝照片,科學家可能要向電子的表面發射一顆光子。這會暴露電子的位置,但光子也會把能量傳遞給電子,使它發生位移。探測電子的位置會不確定地改變它的速率,而測量行為引發的不確定性足以讓這個原理成立。簡單地說,這個原理導致我們對量子世界的探索有一個基本的極限。例如,你越是確定某個粒子的位置,就越不能確定它的動量,反之亦然。這個極限被表述為一個方程,在數學上很容易證明。海森堡有時把測不準原理稱為進行測量的一個難題。他最著名的思想實驗是對一個電子拍照。為了拍攝照片,科學家可能要向電子的表面發射一顆光子。這會暴露電子的位置,但光子也會把能量傳遞給電子,使它發生位移。
  • 高中物理實驗複習要點整理
    C.確定小球的落點位置時,應以每次實驗的落點為參考,作一儘可能小的圓,將各次落點位置圈在裡面,就把此圓的圓心定為實驗測量數據時所對應的小球落點位置。(4)螺旋測微器的主尺讀數應注意半毫米線是否露出。(4)螺旋測微器的可動部分讀數時,即使某一線完全對齊,也應估讀零。(2) 用單擺測重力加速度1.