談談樣本量選擇背後的科學道理

2021-01-08 網際網路數據資訊網

作者:陳聆帙@NetEase電商設計中心

總是說XX的樣本量就夠了,可是為什麼呢?

如何決定樣本量,是一個老生常談的話題,也有很多相關文章。然而翻看相關文章,就會發現介紹選多少合適的比較多,而介紹為什麼這麼選就合適的卻比較少。

相信很多用研同學都聽過這句著名的話:

根據尼爾森關於可用性測試的經典理論,6-8人便可以找到產品80%以上的可用性問題。

但是……為啥呢?當有「無知的」地球人問:為什麼6-8人就能發現80%以上的問題時,難道我們要理直氣壯的說:因為是尼爾森說的麼……

在樣本量選擇上似乎有一些「約定俗成」的規定。比如:可用性測試5-8人,問卷調研大約200-500份等等……但是,當需要和地球人理論時,單單的「約定俗成」卻沒有足夠的說服力。不如讓我們一起來看看這些「約定俗成」背後的科學道理,讓自己更有底氣。

1. 為什麼說可用性測試5-8個人就夠?

俗話說「8個用戶可以發現80%的問題」。其實這句話並不完整,完整的說法應該是:

8個人可以80%的概率發現發生可能性大於18%的問題。

這話太繞了,嘗試用人話解釋一下:如果某個APP中存在一個BUG,100個人用,50個人用都會遇到,那麼我們至少有80%的可能性發現。只要可能遇到的人大於18個(發生可能性大於18%),我們都至少有80%的可能性發現。但如果這個BUG只有5個人可會遇到,那麼能發現的概率就要低於80%了。

之所以這麼說,背後的原理是這樣一個公式:

(P(X≥1)是在n次嘗試中事件至少發生1次的概率,p是某事件的概率)

前輩們根據這個公式總結出了下表:

資料來源:《用戶體驗度量》Jeff Sauro,James R.Lewis著,機械工業出版社,P134-135

從表中可以看出,決定樣本量涉及到兩個因素:一個是確定程度,一個是問題發生的概率。

再來具體看一看我們常說的「8個人」。

 

當選擇8個人進行測試時,可以100%發現發生概率大於50%的問題,90%的可能性發現發生概率大於25%的問題,73%的可能性發現發生概率大於15%的問題。

就好像天氣預報員說:100%的確定明天的降水概率大於50%,90%的確定明天的降水概率大於25%。

等等…這樣的話會不會被質疑:8個人只能90%發現發生概率大於25%的問題,那發生概率低於25%的問題怎麼辦?就不重要了麼?

不如讓我們再來看看尼爾森關於釣魚的比喻:

假設你有好多個池塘可以釣魚,一些魚比另一些魚更容易抓到。所以,如果你有10小時,你會花10個小時都在一個池塘裡釣魚,還是花5個小時在一個池塘上、花另外的5個小時在另一個池塘上呢? 為使抓到的魚數量最大化,你應該在兩個池塘上都花一些時間,以便從每個池塘裡都釣到容易釣的魚。

一次何必找那麼多用戶,少做幾個用戶先把發生率高的問題get了,版本更新以後再繼續找用戶去get發生率高的問題,省時省力效果佳。

這樣是不是就可以完整的證明我們可用性測試做5-8個人的觀點了呢。

2. 問卷調研,樣本量選多少?

在做問卷調研的時候,如何估計樣本量?眾所周知有一個公式:

但是這個公式存在一個問題:我要是連總體方差(CV2)都能知道,還做個毛線調研。

如果想估算總體方差,需要先選取一批人進行測試,得到一個樣本方差,用樣本方差代替總體方差,這在現實工作中顯然難以實現。於是為了便於計算,偉大的前輩對公式進行了轉換:

資料來源:《社會研究方法》仇立平著,重慶大學出版社,P137

作者說這一轉換是根據「推論總體比例或百分比的原理」進行的。姑且不去管這個轉換原理是什麼,這個公式我們可以這樣來理解:當p=0.5的時候,總體的差異性最大。因為p=0.5表示兩種情況出現的概率是相等的。比如一個群體中男生和女生出現的概率都是0.5,說明男女人數相等。這種情況下,這個群體的性別差異是最大的。

由於總體差異越大,需要的樣本量就越大。我們面對任何總體的時候,都可以假設「這是一個差異性最大的總體」,來計算我們所需要的樣本量。因此,把p=0.5代入,就簡化出了一個可以供我們輕鬆計算樣本量的公式。

如果想看到總體不同差異所對應的樣本量,前人還總結了這樣一個表:

資料來源:《社會研究方法》仇立平著,重慶大學出版社,P137

因此假設總體差異性最大的情況下,在習慣使用的5%誤差檔,300多的樣本也就可以了。

當然,在具體使用過程中,並不用查表那麼麻煩。有一個著名的計算樣本量的網站,直接去算就OK了。

http://www.surveysystem.com/sscalc.htm

3.用戶量越大,需調研人數越多?

首先,總體規模會對樣本量有影響。當總體規模比較小的時候,對樣本量影響較大。但是當總體規模達到一定程度以後,對樣本量增加的需求是較小的。

我們往往調查所涉及到的總體不是無限總體,產品的用戶人數都是一個有限的數量。因此在計算所需樣本量的時候,為了更精確可以加入變量「總體規模」,公式大概長成這個樣子:

然而這不是重點,重點是通過這個公式可以計算出,不同總體規模所需要的樣本量大致如下:

由此可以看出,當總體規模在1萬以下時,隨著總體規模上升,所需樣本量增加比較大。但是當總體規模在1萬以上時,規模再變大,所需樣本人數的增長變得緩慢。

為了得到更準確的答案,我們不妨用計算樣本量的網址自己來算一下。假設置信區間為±3個標準差。計算結果如下:

如果再有人說:我們是億級的產品,1000人怎麼能代表我們的用戶?

就可以理直氣壯的告訴他:

總體規模10萬以上和10萬所需要的樣本量並沒有什麼區別呢。

樣本量選多少合適,對於調研本身而言或許不是個問題。但是當我們想推動調研結果的時候,樣本量卻很容易遭到對方質疑。可能是幾百個人的答案看起來容易讓人覺得不靠譜,也可能因為樣本量是最容易質疑的一個因素……

無論如何,多了解一些背後的原因,讓自己更有底氣,或許才能更好地說服別人。

相關焦點

  • G.Power教程 | 樣本量估計
    那麼,你可以採取另外一種辦法:使用G.Power進行先驗分析,估計出所需要的樣本量,然後看看你的數據量能否大於估計的樣本量。或者使用事後分析,說明你現目前的數據量可以達到什麼樣的效應量和統計功效水平,是足夠讓人信服的。其實,這一步應該在實驗之前就應該進行。
  • 談談實現小樣本學習的兩條路徑
    所謂小樣本學習,就是使用遠小於深度學習所需要的數據樣本量, 達到接近甚至超越大數據深度學習的效果,也即是小樣本學習的本質就是學習的效果與數據比值的提升, 或者說單位數據產生的模型收益增大了 。也就是說, 實現小樣本學習的方法, 主要是 1, 如何讓給定模型具備相關任務的先驗知識, 2, 如何讓每個數據產生的學習效果更加一步到位。關於1,其實這也是人類可以小樣本學習的關鍵,所以我們就從人的認知力說,首先談談概念的學習和使用有關1的方法, 事實上很多, 我覺得如果讓對它們進行分類,就要對先驗知識的理解和表示進行分層。
  • 檢驗功效(Power)與樣本量
    在樣本量n一定的情況下,α減小,β就會增大;β增大,α就會減小;要想同時減小α和β,只有增大樣本量n才行*。*因為增大樣本量會使得樣本均值的置信區間變窄,從而使得均值的正態分布曲線變得更窄。假設檢驗的功效(Power)受到以下三個因素的影響:樣本量:其他條件保持不變時,樣本量越大,功效越大。
  • 實驗設計最小樣本量測算
    【測算公式】關於t檢驗樣本量的測算公式:    關於比率檢驗樣本量的測算公式
  • 因素分析的樣本量得多少
    作者:晃晃悠悠 審核:X 封面:自己想吧        樣本量就是樣本中所包含的單位的個數,即抽樣單位數。樣本量直接影響抽樣誤差、調查的費用、調查所需的時間、調查訪員的數量以及其他一些重要的現場操作的限制條件。樣本量過大,會造成人力、物力和財力的浪費;樣本量過小,會造成抽樣誤差增大,影響抽樣推斷的可靠程度。
  • 精益六西格瑪管理-技術人員最常使用的工具-假設檢驗效力及樣本量
    以此為基準,再通過控制樣本容量,也可以對發生第二類錯誤的概率進行控制。由於兩類錯誤造成的損失是不同類型的,其嚴重性也是不同的,因此不同的人可能會對兩類錯誤的概率做出不同的限制。但是,再確定樣本容量之前,必須對發生兩類錯誤所允許的概率做出明確規定。再假設檢驗中還常用到一個詞,檢出力(power of test)。他的定義就是1-β。其意義相當於「在備擇假設成立時不犯第二類錯誤」的概率。
  • 談談科學管理之父——泰勒
    大學把這兩門課作為通識課讓大家學習是很有道理且必要的,這些知識有部分在西方可能已經過時了,有一些可能剛好有助於解釋中國的很多現象。        像學過《管理學》的,肯定會知道被稱作科學管理之父的泰勒。
  • 科普| 細節決定A/B測試的成敗:有底線的樣本量
    針對A先生的問題,我們進行了一系列分析,最後確定了癥結所在:樣本量不足。A先生的實驗實際上需要至少1500人,但是目前只有1000人進入實驗,也就是說樣本量的缺口達到了500。若想解決這個問題,只要繼續讓流量進入實驗,達到最低需要的樣本量,即可。
  • 醫學研究,樣本量計算結果到底給誰看的?
    專家需要看到你一項研究預估樣本量是多少!可能大多數人都說,專家需要,導師需要,是他們要看。。。。其實,樣本量是計算給自己看的!很多人對樣本量的問題都敷衍了事,專家要看,就根據公式湊個樣本量給他就是了。的確這樣做,其實大多數專家是看不出來的,也不用去看。因為,他們想當然,你是在對這個項目負責。
  • 你真的懂對抗樣本嗎?一文重新思考對抗樣本背後的含義
    但是,這句話背後的技術細節是什麼?怎樣才能確保生成的對抗樣本符合這樣的定義?本文深入解析了對抗樣本背後的數學定義,並幫助讀者重新理解對抗樣本的定義。對抗樣本是各種機器學習系統需要克服的一大障礙。對抗樣本的存在表明模型傾向於依賴不可靠的特徵來最大化性能,如果特徵受到幹擾,那麼將造成模型誤分類,可能導致災難性的後果。
  • 「誰人背後不說人,誰人背後無人說」,講述了什麼道理?值得一看
    今天,我們來給大家說一說俗語「誰人背後不說人,誰人背後無人說」。這句話說的是什麼意思?它又能告訴我們什麼道理呢?誰人背後不說人這句話的意思是說沒有人不在背後說其他人,也就是說大家都會在背後議論別人,甭管是好的方面還是壞的方面。
  • 背後有什麼科學道理?
    背後有什麼科學道理?蒼蠅是一種讓人非常討厭的生物,在夏天的時候發出嗡嗡的聲音讓人心煩意亂,同時它也是很多細菌和病毒的攜帶者,因此夏天為了消滅蒼蠅,人們是無所不用其極,蒼蠅拍兒滅蟲藥一同上陣,可是卻發現效果並不明顯,尤其是蒼蠅拍,我們在拍打蒼蠅的過程當中,明明飛行的速度非常的慢,我們卻無法打中,為什麼會導致這種現象呢?
  • 樣本量n>30時,還能繼續使用T檢驗嗎?
    我的意見很簡單:只要是兩個樣本平均數的差異性檢驗,假定總體正態,不管樣本容量是否大於30,就直接使用t檢驗,而不用費心地想是採用t檢驗還是採用z檢驗。這大概也叫做「認知經濟論」吧!兩個樣本平均數的差異性檢驗,實際上是針對樣本平均數差異量的分布來展開的。
  • 地球上罕見的奇特自然現象,它們背後又有什麼科學道理
    地球上的神秘現象有太多太多,許多神秘現象都促使著人類不停地去探索,去發現,我們始終相信,在神秘現象的背後總是蘊含著某種科學道理,我們也終將相信,這些神秘現象遲早有一天會被我們所理解,所接受。今天我們便來盤點四個神秘的地球現象。
  • 地球上罕見的奇特自然現象,它們背後又有什麼科學道理
    地球上的神秘現象有太多太多,許多神秘現象都促使著人類不停地去探索,去發現,我們始終相信,在神秘現象的背後總是蘊含著某種科學道理,我們也終將相信,這些神秘現象遲早有一天會被我們所理解,所接受。今天我們便來盤點四個神秘的地球現象。
  • 談談EMC的電容電感器件選擇知識
    談談EMC的電容電感器件選擇知識本文引用地址:http://www.eepw.com.cn/article/201609/304688.htm給大家介紹一下陶瓷電容器在EMI、IMC濾波基礎的知識
  • 觀察性療效比較研究的樣本量計算,研究實例及注意事項
    RCT研究中樣本量計算需要考慮的問題,在非隨機對照研究中同樣需要考慮,但一些參數的設定方法和計算方法與RCT設計可能有一些區別。下面的內容將著重介紹非隨機對照試驗設計中樣本量計算需要考慮的問題及處理方法。
  • 背後有科學道理嗎?
    很多俗語的背後還蘊含著很深刻的道理。有時候還拿俗語來教育我們這些晚輩,當時就有這麼一句:俗語:「香椿過房,主人恐傷」,啥意思?香椿是啥你知道嗎?其實我們從中更能體會到更深的一層含義:那就是我們在生活或者工作中,在利益面前,千萬不要鬼迷心竅,讓充滿的誘惑蒙蔽了我們的雙眼,一定要注意隱藏背後的危險,不然最後受傷害的還是自己。這些俗語告訴我們很多做人的道理,多讀讀對我們今後的人生道路有很大幫助。
  • 從國家發展看個人成長,事物背後的道理總是驚人的相似!
    主宰事物運行變化背後的規律總是驚人的相似,大到國家發展,小到個體成長,其背後有很多道理是共通的。通過國家發展視角來看待個人成長進步,以下三個概念與你分享,希望對你能有所啟發。職業選擇一個國家走計劃經濟還是市場經濟道路,就像一個人選擇職業的標準是物質待遇還是個人意願。由於計劃經濟關注務實目標,市場經濟更注重自由意志,類比:好工作關注謀生,喜歡的工作更注重熱愛程度。因為計劃和市場兩種手段各有利弊,最好的策略就是實現二者結合,趨利避害。所以對於個人職業選擇來講,最優策略就是,選擇自己喜歡的好工作,一種既賺錢又熱愛的工作。
  • 從理論和科學試驗的視角談談對獼猴桃授粉的幾點認識
    從理論和科學試驗的視角談談對獼猴桃授粉的幾點認識井趙斌等授粉不足是獼猴桃產業發展中面臨的一大問題。針對要不要人工輔助授粉,學術界有不同的看法: 一種觀點認為人工授粉是保證豐產的基本方法; 另一種觀點認為獼猴桃應該以自然授粉為主。下面,我們從理論和科學試驗的視角談談對獼猴桃授粉的幾點認識。