統計學真的有那麼可怕嗎?這兒有可以手算的效能分析

2021-01-10 讀芯術

全文共1660字，預計學習時長7分鐘

圖源：unsplash

事實上，統計學確實可以算得上是令人畏懼的學科了。但統計學不一定有那麼難學，本文就試圖向大家展示掌握統計學工具，它能讓統計學變得不再那麼可怕。

那麼先從計算A/B測試的樣本量（效能檢驗）開始吧。閱讀本文前，最好閱讀先熟悉抽樣分布的概念以及比例的標準誤差的計算方法。

1.設計A/B測試

假設我們要用A/B測試來決定是否採用主頁的新設計。當前主頁平均每天有200個獨立訪客以及5%的點擊率 (CTR) 。預計新主頁能帶來至少7%的點擊率。我們給兩個變量分別分配50%的訪問量：

這個測試需要多少天？

2.假如測試7天，會發生什麼？

假設A/B測試只有7天，測試結束後每組都有700名訪客。接下來計算零假設（總體CTR無差異）和備擇假設（總體CTR存在真實差異）的樣本分布。

第一步：計算現有的樣本比例p

第二步：用p計算標準誤差se

第三步：計算樣本分布

· H0（零假設）：正態分布，平均值為0，標準差為0.013.

· HA（備擇假設）：正態分布，平均值為0.02，標準差為0.013.

分布圖如下：

在0.05的顯著性水平()下，臨界值為0.0249.這意味著：

1. 若樣本CTR的絕對差大於0.0249，拒絕零假設(H0)。

· 若H0為真，那麼拒絕零假設的決定就是錯誤的（第一類型錯誤），這種情況出現的機率是5%()。

· 若HA為真，那麼拒絕H0的決定就是正確的，這種情況出現的機率是35%(1-)，這一機率也稱為測試效能。

2.若樣本CTR的絕對差小於或等於0.0249，不能拒絕零假設(H0)。

· 若H0為真，則不拒絕零假設的決定就是正確的，這種情況出現的機率是95%(1-)。

· 若HA為真，則不拒絕零假設的決定就是錯誤的（第二類型錯誤）。這種情況出現的機率是65% ()。

總結：

A/B測試只有7天，這導致無法檢測出實驗組CTR上升的機率達到65%。這個錯誤率太高了！一般來說，我們希望將錯誤率降低至20%，這相當於80%的效能。我們可以通過增加樣本量來達成這一目的。

3.手動計算80%效能所需的樣本量

如果要使測試的效能達到80%，需要多大的樣本量呢？

將零假設的樣本分布轉化為標準正態分布，讓計算過程更加直觀：

· 在0.05的顯著性水平下，臨界值約為1.96，這一數據通過查臨界值表獲得。

· 如果考慮備擇假設的樣本分布，那麼我們希望曲線下-1.96到1.96之間的面積佔20%（效能為80%）。因此，臨界值必須與平均數相差約0.84（這一數值也可以在對照表上找到）。

· 因此，標準化均數差必須是1.96+0.84=2.8

藉助圖表可能更容易理解：

真正的均值差是0.02，因此，標準化均數差等於0.02/se。我們可以建個等式來解出樣本量n:

因此，每組需要2211個觀測值。當每組的日訪問量為100個獨立訪客時，測試時長至少要達到23天才能得到效能達到80%的實驗結果。

4.用R進行統計分析

到這裡，我們已經非常熟悉樣本量計算（效能分析）的整體框架了。接下來，來看看如何將上述所有步驟簡化為幾行代碼。在R中輸入以下代碼：

# Enter inputs

p1 <- 0.05

n1 <- 700

p2 <- 0.07

n2 <- 700

power <- 0.8

x1 <- p1*n1

x2 <- p2*n2

print('absolute difference (Test - Control)')

delta <- abs(p1-p2)

delta

print('pooled sample proportion')

pooled.p <- (p1 * n1 + p2 * n2 ) / (n1 + n2)

pooled.p

print('se')

se <- sqrt(p *(1-p) * ((1/n1) + (1/n2)))

print('standardized distance for requested power')

st.dist <- -qnorm(p = 1-power, mean = 0, sd = 1) + qnorm(p = 0.975, mean = 0, sd = 1)

st.dist

print('solve for n')

n <- ((st.dist)/delta)^2*pooled.p*(1-pooled.p)*2

就會得到：

[1] "absolute difference (Test — Control)"

0.02[1] "pooled sample proportion"

0.06[1] "se"

0.0126942056522989[1] "standardized distance for requested power"

2.80158521811297[1] "solve for n"

2213.38408508644

用這種方法，磨人的統計學是不是也變得可愛起來啦？

留言點讚關注

我們一起分享AI學習與發展的乾貨

如轉載，請後臺留言，遵守轉載規範

相關焦點

「見血封喉」的箭毒木,真的有那麼可怕嗎?

A身上綁著六公斤炸彈，更可怕的是，他手裡還挾持了一個孩子！然而此時，他已經無處可逃了。凌漠利用攻心計，正打算說服A，可樓下突然傳來幾聲有規律的車喇叭聲，A只偏頭往下看了看，竟推開了懷中的小孩，翻身從樓頂跳了下去。「不好，有內應！」見到這一異狀的蕭朗和凌漠匆忙趕往樓下，發現那裡停著一輛垃圾車，情況似乎有點異常。
做數據分析不懂統計學很可怕!

原標題：做數據分析不懂統計學很可怕！來源：分析客（ID：fenxike）編輯：Juvae 別以為你拿到一組數據，可以照貓畫虎做出一組漂亮的圖表，你就是數據分析師了，那麼你懂數據上統計學的意義嗎？
胰腺癌,真的有那麼可怕嗎?

胰腺癌，真的有那麼可怕嗎? 時間：2020-11-25 15:15北京四惠中醫醫院在我國，胰腺癌以前很少見，然而近年來卻屢屢見諸各大媒體，還時常與一些名人的名字聯繫在一起。
「幽門螺旋桿菌」真的有那麼可怕嗎?

「您先不要著急，碳14呼氣試驗結果陽性提示您有幽門螺桿菌感染的可能，但是否有胃部疾病還需要醫生的綜合診斷。」檢驗科工作人員耐心解釋道。　　據檢驗科主任王金松介紹，近年來，來門診檢驗科諮詢和要求做碳14呼氣試驗的患者越來越多，而檢測結果為陽性的患者中，僅有為數不多的人了解該項檢查的意義，多數患者在看到陽性報告單後，都「談之色變」。
你真的懂p值嗎? 說人話的統計學

►辛辛苦苦做了實驗收了數據，正想大步邁向SCI高分文章，你是否不知數據分析該如何下手？ ►投出了文稿，卻等來了審稿人對統計方法似是而非的挑刺，你是否不清楚該如何應對？►別擔心，你不是一個人在戰鬥！►在本系列中，我們將和你一起，探討最實用、最關鍵的統計學知識和方法。我們將指出常見的統計學誤區和陷阱，回答那些你一直想問但不好意思問的問題。
97%死亡率的食腦蟲,真的有那麼可怕嗎?

原創 bio kiwi biokiwi本文關鍵詞食腦蟲福氏耐格裡阿米巴原蟲微生物最近又有一種可怕的微生物和疾病進入了人們的視野：食腦蟲（光是名字就很嚇人）。看著實在是太可怕了！那麼我們就從幾個大家可能最關心的問題切入：食腦蟲從何而來？現在有什麼治療方法嗎？它們可能會大規模出現嗎？哪來的？食腦蟲（Naegleria fowleri），又名福氏耐格裡蟲或者福氏阿米巴蟲，說是蟲子其實是一種真核單細胞微生物。
機器學習與統計學的爭論,有意義嗎?

有的學者認為機器學習只是統計學披了一層光鮮的外衣。而另一些討論則認為涉及使用邏輯回歸或者廣義線性模型（GLM）的可以稱作機器學習；否則就不是。還有一些觀點認為：是否執行元分析或許是區分兩個領域的一個標準。但，爭論兩者之間的邊界，真的有意義嗎？如果對這個問題進行嚴肅地思考，或許我們會發現，答案是否定的。
你真的懂了什麼是統計學嗎?其實統計學也是科學思維的訓練

七年之後，為了不再繼續大學時代的噩夢以及洗刷多年來的恥辱，伴隨著碩士研究生公共基礎課網絡教學新試點的步伐，我成為了一個完全意義上的統計學「自學人」，這聽起來難免有那麼點諷刺。這期間，看視頻、做習題和與小夥伴兒的互相討論成為了我學習的日常，在接近兩個月的學習過程中我似乎又重拾了對於醫學統計學的信心。
機械設計行業真的有那麼可怕嗎?毫無發展了嗎?

穩說的是專業技能強，進入大企業鑽研一處，依託企業已經有市場的工業體系，來給自己緩衝期。這條路，其實是大多數答主在說的。但這也是一條不歸路，尖端的位置就那麼一批人，每次科技熱潮，這批人就大熱，熱潮褪去，這批人就掛機。而快，就是響應快速變化的市場，不要只知道自己會什麼，更要知道全中國別人會什麼。
【科普知識】食用膠真的那麼可怕嗎?

【科普知識】食用膠真的那麼可怕嗎？和大家經常聽到的阿膠，除了在選材和工藝上略有不同以外，其實他們並沒有什麼本質的區別。較為高級的果膠主要是由橘子皮和蘋果榨汁後的殘餘物製成。還有部分食用膠來自於植物種子，諸如阿拉伯膠、瓜爾豆膠、槐豆膠等，都是由對應的植物種子加工而成。
「湊巧」可以拒絕嗎?統計學的重要工具—假設檢驗

那究竟可有性為多少我們才可以拒絕「Bristol的選擇是隨機的」這樣的假設？Fisher認為，基於零假設為真的前提，卻依舊觀測到這種結果的概率如果不到就可以拒絕零假設了。Bristol猜對的概率是，小於這個值，所以我們可以大膽地認為Bristol對奶茶有自己獨到犀利的味覺。一杯奶茶，成就了一段浪漫的情緣，也成就了統計學的重要工具----假設檢驗。
你有沒有想過,你可能高估了統計學(一)

統計學真的這麼難，要視為洪水猛獸嗎？當然不是。產生焦慮的人群往往是被學習統計學的恐懼所壓倒，並不是他們完全學不會。就拿那個七八年才通過統計學考試的學生來說，離開了考場，在一個不像考試的環境裡答題，他就能夠獲得通過。而且，據他的導師評價，在他從事心理治療行業以後，統計工作做得還不錯。其實我們真的沒有必要那麼焦慮。
野豬到底有多可怕?真的能比老虎和獅子還厲害嗎?可算是知道了

導語：野豬到底有多可怕？真的能比老虎和獅子還厲害嗎？可算是知道了飼養在家裡的豬由於現已被馴化過，很溫柔，可以供給肉食給食肉動物享受。野豬兇狠，人類不宜挨近，可是小編獵奇了，既然不宜挨近，那麼是怎樣知道野豬的兇狠的呢？肯定是看材料了，據材料記載野豬體型比尋常的家豬大許多，差不多都在300斤左右。你想一下，家豬要是300斤，估量沉的站都站不起來，而野豬300斤的分量，要是奔馳起來每小時可以到達40至70千米。
承認他沒那麼喜歡你真的有那麼難嗎?

導語：每天總會有各種各樣的女性朋友發來大量的疑問，「為什麼我的男朋友會這樣那樣對我，我對他怎麼怎麼樣，可是他卻怎麼怎麼樣，我真的好苦惱啊」，或者「為什麼又跟男朋友吵架了，可是他就是不認錯」……之類的各種問題，當你被這些戀愛中的問題難住的時候
星盤裡的大十字格局真的那麼可怕嗎?

當組成一個非常特殊的「模樣」時，彼此之間就會形成特殊的力量，可以以此綜合分析我們本身的特徵和對命運的影響剛好前幾天有朋友問我，他星盤裡行星所落位置形成的大十字格局是不是特別可怕特別壞？雖然大十字格局是傳統上的「兇相」，但我一直堅持「行星無好壞」的觀點，行星只是向我們描述了一種特質；我們如何對待這些特質，才是真正決定它實際上好壞的關鍵。
複利真的有那麼神奇嗎?

複利真的有那麼神奇嗎？　　同理，如果你的年收益率為20%，那麼三年半後，你的錢就翻了番，一萬元變成兩萬元。如果是20萬元，三年半後就是40萬元…… 　　聽上去多麼動人！多麼神奇！真是這樣嗎？　　從公式入手，我們來看看這個「神奇」的公式：　　關於本金　　首先是本金。我剛畢業的1993年第一個月工資是300元，當時算中等水平。
崑崙山真的有那麼恐怖嗎?連國家都下令嚴禁攀爬,今天算明白了!

崑崙山真的有那麼恐怖嗎？連國家都下令嚴禁攀爬，今天算明白了！我國崇山峻岭，千奇百怪的地方不在少數，而且許多都是人們非常願意前往絕佳旅遊地點。但是在我國所有群山中，有這麼一座大山，從國家下令嚴禁去這個地方以後，從此就更少有人親眼見過這個地方了，這個地方就是我國的崑崙山。想必學過地理的人都知道崑崙山脈。崑崙山脈地勢險要，不易攀爬，許多的山體頂端都有常年積雪覆蓋，氣候異常，雖然沒有珠穆朗瑪峰那麼恐怖，但是卻也成為了人類的禁區。為什麼是近親呢？
考研政治為什麼說要背誦肖4,真的有那麼神奇嗎?

今天學長給大家談的是關於為什麼要使用肖4的原因，以及它是否真的有這麼神奇？相信很多同學現在都聽說了，考研政治要想得高分就要背誦肖4的說法，對於這個到底是不是真的，它有沒有這麼神奇，現在學長以過來人的感受告訴你答案！
搞不懂為什麼這麼多人對數學恨之入骨,數學有那麼可怕嗎?

老公：哦，好，好，我先給你講，你看這球……現在可以我分享美味零食了吧？老婆把袋子一拿：你看美味零食……說著放一塊嘴裡，注意聽，很脆吧！老公：……老公是一名司機，今天沒幹活就陪我隨便逛逛。搞不懂為什麼這麼多人對數學恨之入骨，數學有那麼可怕嗎，反正在我上學的時候，上數學課是最幸福的一件事，每次都睡得特別香！男票說：親愛的，今天回家我要吃黑魚，一定要清洗。
如果火箭燃料被換成核聚變,將會出現什麼可怕結果?今天算明白了

如果火箭燃料被換成核聚變，將會出現什麼可怕結果？今天算明白了每一個激動人心的時刻大家都是歡欣鼓舞的，就像是當年的神舟6號升空，那時候真的是萬人空巷，坐在電視機跟前看著這一次歷史性的時刻，那個時候我們知道火箭升空靠的是動量守恆定律，現在的技術就是太空人往返火星的話，就已經500天的時間。

統計學真的有那麼可怕嗎?這兒有可以手算的效能分析

相關焦點

「見血封喉」的箭毒木,真的有那麼可怕嗎?

做數據分析不懂統計學很可怕!

胰腺癌,真的有那麼可怕嗎?

「幽門螺旋桿菌」真的有那麼可怕嗎?

你真的懂p值嗎? 說人話的統計學

97%死亡率的食腦蟲,真的有那麼可怕嗎?

機器學習與統計學的爭論,有意義嗎?

你真的懂了什麼是統計學嗎?其實統計學也是科學思維的訓練

機械設計行業真的有那麼可怕嗎?毫無發展了嗎?

【科普知識】食用膠真的那麼可怕嗎?

「湊巧」可以拒絕嗎?統計學的重要工具—假設檢驗

你有沒有想過,你可能高估了統計學(一)

野豬到底有多可怕?真的能比老虎和獅子還厲害嗎?可算是知道了

承認他沒那麼喜歡你真的有那麼難嗎?

星盤裡的大十字格局真的那麼可怕嗎?

複利真的有那麼神奇嗎?

崑崙山真的有那麼恐怖嗎?連國家都下令嚴禁攀爬,今天算明白了!

考研政治為什麼說要背誦肖4,真的有那麼神奇嗎?

搞不懂為什麼這麼多人對數學恨之入骨,數學有那麼可怕嗎?

如果火箭燃料被換成核聚變,將會出現什麼可怕結果?今天算明白了