統計學真的有那麼可怕嗎?這兒有可以手算的效能分析

2021-01-10 讀芯術

全文共1660字,預計學習時長7分鐘

圖源:unsplash

事實上,統計學確實可以算得上是令人畏懼的學科了。但統計學不一定有那麼難學,本文就試圖向大家展示掌握統計學工具,它能讓統計學變得不再那麼可怕。

那麼先從計算A/B測試的樣本量(效能檢驗)開始吧。閱讀本文前,最好閱讀先熟悉抽樣分布的概念以及比例的標準誤差的計算方法。

1.設計A/B測試

假設我們要用A/B測試來決定是否採用主頁的新設計。當前主頁平均每天有200個獨立訪客以及5%的點擊率 (CTR) 。預計新主頁能帶來至少7%的點擊率。我們給兩個變量分別分配50%的訪問量:

這個測試需要多少天?

2.假如測試7天,會發生什麼?

假設A/B測試只有7天,測試結束後每組都有700名訪客。接下來計算零假設(總體CTR無差異)和備擇假設(總體CTR存在真實差異)的樣本分布。

第一步:計算現有的樣本比例p

第二步:用p計算標準誤差se

第三步:計算樣本分布

· H0(零假設):正態分布,平均值為0,標準差為0.013.

· HA(備擇假設):正態分布,平均值為0.02,標準差為0.013.

分布圖如下:

在0.05的顯著性水平()下,臨界值為0.0249.這意味著:

1. 若樣本CTR的絕對差大於0.0249,拒絕零假設(H0)。

· 若H0為真,那麼拒絕零假設的決定就是錯誤的(第一類型錯誤),這種情況出現的機率是5%()。

· 若HA為真,那麼拒絕H0的決定就是正確的,這種情況出現的機率是35%(1-),這一機率也稱為測試效能。

2.若樣本CTR的絕對差小於或等於0.0249,不能拒絕零假設(H0)。

· 若H0為真,則不拒絕零假設的決定就是正確的,這種情況出現的機率是95%(1-)。

· 若HA為真,則不拒絕零假設的決定就是錯誤的(第二類型錯誤)。這種情況出現的機率是65% ()。

總結:

A/B測試只有7天,這導致無法檢測出實驗組CTR上升的機率達到65%。這個錯誤率太高了!一般來說,我們希望將錯誤率降低至20%,這相當於80%的效能。我們可以通過增加樣本量來達成這一目的。

3.手動計算80%效能所需的樣本量

如果要使測試的效能達到80%,需要多大的樣本量呢?

將零假設的樣本分布轉化為標準正態分布,讓計算過程更加直觀:

· 在0.05的顯著性水平下,臨界值約為1.96,這一數據通過查臨界值表獲得。

· 如果考慮備擇假設的樣本分布,那麼我們希望曲線下-1.96到1.96之間的面積佔20%(效能為80%)。因此,臨界值必須與平均數相差約0.84(這一數值也可以在對照表上找到)。

· 因此,標準化均數差必須是1.96+0.84=2.8

藉助圖表可能更容易理解:

真正的均值差是0.02,因此,標準化均數差等於0.02/se。我們可以建個等式來解出樣本量n:

因此,每組需要2211個觀測值。當每組的日訪問量為100個獨立訪客時,測試時長至少要達到23天才能得到效能達到80%的實驗結果。

4.用R進行統計分析

到這裡,我們已經非常熟悉樣本量計算(效能分析)的整體框架了。接下來,來看看如何將上述所有步驟簡化為幾行代碼。在R中輸入以下代碼:

# Enter inputs

p1 <- 0.05

n1 <- 700

p2 <- 0.07

n2 <- 700

power <- 0.8

x1 <- p1*n1

x2 <- p2*n2

print('absolute difference (Test - Control)')

delta <- abs(p1-p2)

delta

print('pooled sample proportion')

pooled.p <- (p1 * n1 + p2 * n2 ) / (n1 + n2)

pooled.p

print('se')

se <- sqrt(p *(1-p) * ((1/n1) + (1/n2)))

se

print('standardized distance for requested power')

st.dist <- -qnorm(p = 1-power, mean = 0, sd = 1) + qnorm(p = 0.975, mean = 0, sd = 1)

st.dist

print('solve for n')

n <- ((st.dist)/delta)^2*pooled.p*(1-pooled.p)*2

n

就會得到:

[1] "absolute difference (Test — Control)"

0.02[1] "pooled sample proportion"

0.06[1] "se"

0.0126942056522989[1] "standardized distance for requested power"

2.80158521811297[1] "solve for n"

2213.38408508644

用這種方法,磨人的統計學是不是也變得可愛起來啦?

留言點讚關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範

相關焦點

  • 「見血封喉」的箭毒木,真的有那麼可怕嗎?
    A身上綁著六公斤炸彈,更可怕的是,他手裡還挾持了一個孩子!然而此時,他已經無處可逃了。凌漠利用攻心計,正打算說服A,可樓下突然傳來幾聲有規律的車喇叭聲,A只偏頭往下看了看,竟推開了懷中的小孩,翻身從樓頂跳了下去。「不好,有內應!」見到這一異狀的蕭朗和凌漠匆忙趕往樓下,發現那裡停著一輛垃圾車,情況似乎有點異常。
  • 做數據分析不懂統計學很可怕!
    原標題:做數據分析不懂統計學很可怕! 來源:分析客(ID:fenxike) 編輯:Juvae 別以為你拿到一組數據,可以照貓畫虎做出一組漂亮的圖表,你就是數據分析師了,那麼你懂數據上統計學的意義嗎?
  • 胰腺癌,真的有那麼可怕嗎?
    胰腺癌,真的有那麼可怕嗎? 時間:2020-11-25 15:15北京四惠中醫醫院 在我國,胰腺癌以前很少見,然而近年來卻屢屢見諸各大媒體,還時常與一些名人的名字聯繫在一起。
  • 「幽門螺旋桿菌」真的有那麼可怕嗎?
    「您先不要著急,碳14呼氣試驗結果陽性提示您有幽門螺桿菌感染的可能,但是否有胃部疾病還需要醫生的綜合診斷。」檢驗科工作人員耐心解釋道。  據檢驗科主任王金松介紹,近年來,來門診檢驗科諮詢和要求做碳14呼氣試驗的患者越來越多,而檢測結果為陽性的患者中,僅有為數不多的人了解該項檢查的意義,多數患者在看到陽性報告單後,都「談之色變」。
  • 你真的懂p值嗎? 說人話的統計學
    ►辛辛苦苦做了實驗收了數據,正想大步邁向SCI高分文章,你是否不知數據分析該如何下手? ►投出了文稿,卻等來了審稿人對統計方法似是而非的挑刺,你是否不清楚該如何應對?►別擔心,你不是一個人在戰鬥!►在本系列中,我們將和你一起,探討最實用、最關鍵的統計學知識和方法。我們將指出常見的統計學誤區和陷阱,回答那些你一直想問但不好意思問的問題。
  • 97%死亡率的食腦蟲,真的有那麼可怕嗎?
    原創 bio kiwi biokiwi本文關鍵詞食腦蟲 福氏耐格裡阿米巴原蟲 微生物最近又有一種可怕的微生物和疾病進入了人們的視野:食腦蟲(光是名字就很嚇人)。看著實在是太可怕了!那麼我們就從幾個大家可能最關心的問題切入:食腦蟲從何而來?現在有什麼治療方法嗎?它們可能會大規模出現嗎? 哪來的?食腦蟲(Naegleria fowleri),又名福氏耐格裡蟲或者福氏阿米巴蟲,說是蟲子其實是一種真核單細胞微生物。
  • 機器學習與統計學的爭論,有意義嗎?
    有的學者認為機器學習只是統計學披了一層光鮮的外衣。而另一些討論則認為涉及使用邏輯回歸或者廣義線性模型(GLM)的可以稱作機器學習;否則就不是。還有一些觀點認為:是否執行元分析或許是區分兩個領域的一個標準。 但,爭論兩者之間的邊界,真的有意義嗎?如果對這個問題進行嚴肅地思考,或許我們會發現,答案是否定的。
  • 你真的懂了什麼是統計學嗎?其實統計學也是科學思維的訓練
    七年之後,為了不再繼續大學時代的噩夢以及洗刷多年來的恥辱,伴隨著碩士研究生公共基礎課網絡教學新試點的步伐,我成為了一個完全意義上的統計學「自學人」,這聽起來難免有那麼點諷刺。這期間,看視頻、做習題和與小夥伴兒的互相討論成為了我學習的日常,在接近兩個月的學習過程中我似乎又重拾了對於醫學統計學的信心。
  • 機械設計行業真的有那麼可怕嗎?毫無發展了嗎?
    穩說的是專業技能強,進入大企業鑽研一處,依託企業已經有市場的工業體系,來給自己緩衝期。 這條路,其實是大多數答主在說的。但這也是一條不歸路,尖端的位置就那麼一批人,每次科技熱潮,這批人就大熱,熱潮褪去,這批人就掛機。 而快,就是響應快速變化的市場,不要只知道自己會什麼,更要知道全中國別人會什麼。
  • 【科普知識】食用膠真的那麼可怕嗎?
    【科普知識】食用膠真的那麼可怕嗎?和大家經常聽到的阿膠,除了在選材和工藝上略有不同以外,其實他們並沒有什麼本質的區別。 較為高級的果膠主要是由橘子皮和蘋果榨汁後的殘餘物製成。還有部分食用膠來自於植物種子,諸如阿拉伯膠、瓜爾豆膠、槐豆膠等,都是由對應的植物種子加工而成。
  • 「湊巧」可以拒絕嗎?統計學的重要工具—假設檢驗
    那究竟可有性為多少我們才可以拒絕「Bristol的選擇是隨機的」這樣的假設?Fisher認為,基於零假設為真的前提,卻依舊觀測到這種結果的概率如果不到就可以拒絕零假設了。Bristol猜對的概率是,小於這個值,所以我們可以大膽地認為Bristol對奶茶有自己獨到犀利的味覺。一杯奶茶,成就了一段浪漫的情緣,也成就了統計學的重要工具----假設檢驗。
  • 你有沒有想過,你可能高估了統計學(一)
    統計學真的這麼難,要視為洪水猛獸嗎?當然不是。產生焦慮的人群往往是被學習統計學的恐懼所壓倒,並不是他們完全學不會。就拿那個七八年才通過統計學考試的學生來說,離開了考場,在一個不像考試的環境裡答題,他就能夠獲得通過。而且,據他的導師評價,在他從事心理治療行業以後,統計工作做得還不錯。其實我們真的沒有必要那麼焦慮。
  • 野豬到底有多可怕?真的能比老虎和獅子還厲害嗎?可算是知道了
    導語:野豬到底有多可怕?真的能比老虎和獅子還厲害嗎?可算是知道了飼養在家裡的豬由於現已被馴化過,很溫柔,可以供給肉食給食肉動物享受。野豬兇狠,人類不宜挨近,可是小編獵奇了,既然不宜挨近,那麼是怎樣知道野豬的兇狠的呢? 肯定是看材料了,據材料記載野豬體型比尋常的家豬大許多,差不多都在300斤左右。你想一下,家豬要是300斤,估量沉的站都站不起來,而野豬300斤的分量,要是奔馳起來每小時可以到達40至70千米。
  • 承認他沒那麼喜歡你真的有那麼難嗎?
    導語:每天總會有各種各樣的女性朋友發來大量的疑問,「為什麼我的男朋友會這樣那樣對我,我對他怎麼怎麼樣,可是他卻怎麼怎麼樣,我真的好苦惱啊」,或者「為什麼又跟男朋友吵架了,可是他就是不認錯」……之類的各種問題,當你被這些戀愛中的問題難住的時候
  • 星盤裡的大十字格局真的那麼可怕嗎?
    當組成一個非常特殊的「模樣」時,彼此之間就會形成特殊的力量,可以以此綜合分析我們本身的特徵和對命運的影響 剛好前幾天有朋友問我,他星盤裡行星所落位置形成的大十字格局是不是特別可怕特別壞? 雖然大十字格局是傳統上的「兇相」,但我一直堅持「行星無好壞」的觀點,行星只是向我們描述了一種特質;我們如何對待這些特質,才是真正決定它實際上好壞的關鍵。
  • 複利真的有那麼神奇嗎?
    複利真的有那麼神奇嗎?  同理,如果你的年收益率為20%,那麼三年半後,你的錢就翻了番,一萬元變成兩萬元。如果是20萬元,三年半後就是40萬元……   聽上去多麼動人!多麼神奇!真是這樣嗎?   從公式入手,我們來看看這個「神奇」的公式:   關於本金   首先是本金。我剛畢業的1993年第一個月工資是300元,當時算中等水平。
  • 崑崙山真的有那麼恐怖嗎?連國家都下令嚴禁攀爬,今天算明白了!
    崑崙山真的有那麼恐怖嗎?連國家都下令嚴禁攀爬,今天算明白了!我國崇山峻岭,千奇百怪的地方不在少數,而且許多都是人們非常願意前往絕佳旅遊地點。但是在我國所有群山中,有這麼一座大山,從國家下令嚴禁去這個地方以後,從此就更少有人親眼見過這個地方了,這個地方就是我國的崑崙山。想必學過地理的人都知道崑崙山脈。崑崙山脈地勢險要,不易攀爬,許多的山體頂端都有常年積雪覆蓋,氣候異常,雖然沒有珠穆朗瑪峰那麼恐怖,但是卻也成為了人類的禁區。為什麼是近親呢?
  • 考研政治為什麼說要背誦肖4,真的有那麼神奇嗎?
    今天學長給大家談的是關於為什麼要使用肖4的原因,以及它是否真的有這麼神奇?相信很多同學現在都聽說了,考研政治要想得高分就要背誦肖4的說法,對於這個到底是不是真的,它有沒有這麼神奇,現在學長以過來人的感受告訴你答案!
  • 搞不懂為什麼這麼多人對數學恨之入骨,數學有那麼可怕嗎?
    老公:哦,好,好,我先給你講,你看這球……現在可以我分享美味零食了吧?老婆把袋子一拿:你看美味零食……說著放一塊嘴裡,注意聽,很脆吧!老公:……老公是一名司機,今天沒幹活就陪我隨便逛逛。搞不懂為什麼這麼多人對數學恨之入骨,數學有那麼可怕嗎,反正在我上學的時候,上數學課是最幸福的一件事,每次都睡得特別香!男票說:親愛的,今天回家我要吃黑魚,一定要清洗。
  • 如果火箭燃料被換成核聚變,將會出現什麼可怕結果?今天算明白了
    如果火箭燃料被換成核聚變,將會出現什麼可怕結果?今天算明白了每一個激動人心的時刻大家都是歡欣鼓舞的,就像是當年的神舟6號升空,那時候真的是萬人空巷,坐在電視機跟前看著這一次歷史性的時刻,那個時候我們知道火箭升空靠的是動量守恆定律,現在的技術就是太空人往返火星的話,就已經500天的時間。