如何快速準確地計算出置信區間?五步法:定目的、觀數據、斷樣本、選公式、縮誤差。
在產品的可用性研究中,我們幾乎從來不會覆蓋整個用戶總體。取而代之的是我們會依賴取樣,通過樣本來估算未知總體的值。
當我們缺少用戶總體數據的情況下進行估算的時候,即便是最好的估算結果也只能接近,但並不能得到真實的結果。而且樣本量越小,結果的準確性越差。
我們需要一種方法來判斷估算我們到底有多準確才行。
於是我們將在一定概率下包含未知參數的這部分數值區間提取出來,這個範圍就叫做置信區間。
如何快速準確的計算出置信區間,本人在工作總結了幾個方法步驟,快速估算出我們選取的樣本到底有多準。
1. 研究的目的;
首先我們要清楚的知道我們做這個研究是要達到什麼樣的目的,公司的資源是有限的,如何用最低的成本去測試出最高價值版本的產品上線,這對一個產品經理來或者用戶研究人員說是至關重要的。
研究主要分為兩種,一種是叫做「行成式可用性研究」主要用在產品發布之前,一種是「總結式可用性研究」主要在產品發布之後發現相關的產品問題;清楚的知道研究產品的哪個階段,該階段的具體問題,對可用性研究來說是至關重要的第一步。
例如:我們想驗證新版本的產品的動線設計對引導用戶加入購物車這個動作完成率是否有提高,提高了多少?是否可以上線去做測試?這是產品發布前,屬於「形成式研究」;我們想知道新上線的籤到得積分獎勵這個功能對用戶的留存是否有提升,屬於產品功能發布之後,屬於「總結式」可用性研究。
2. 確定測試的度量;
確定好研究的目的之後,我們要細分到我們需要具體測試哪個維度來度量,不同用戶研究的目的對應著不同的場景,不同的場景有不同的研究度量;很多時候一個場景是需要多個度量指標來組合來得出產品的相關結論的。
例如:例如研究「完成一個業務」來說,需要測量「任務成功率」、「效率」、「基於任務的度量」、「自我報告式度量」等等;在研究「導航欄或者信息架構的效果來說」需要度量「指定任務的成功率」、「發生的錯誤率」等等度量的指標。
3. 明確改版之後的效果目標。
新版本的置信區間最低的值是否達到目標的比例呢,從而判斷這次改版是否要上線。
例如:我們的目標是新的消息提醒策略讓用戶的打開推薦消息率提高到3%,我們選100個用戶做研究時,7個人打開;發現打開率的置信區間在3.2%~13.8%,誤差的最低範圍是3.2%>3%,於是可以上線。
建議:按照1、2、3的步驟來,層層深入,有利於目標的精準定位;第一步「定目標」的目的是要知道我們的做這個研究的目的,通過怎樣的度量去做研究,明確該研究實驗要達到目標,才能上線。
不同的度量維度,所收集到的數據和數據類型是不同的,主要分為「二項式數據」和「連續性數據」兩類。
二項式數據的特點是編碼成一個二選一的答案,1表示成功,0表示失敗,它計算平均值是沒有意義的;而連續性數據的平均值是有一定意義的,它的平局值是符合正態分布,但是存在一定的「變異性」和「偏移性」。
不同的數據類型計算的公式也會有所不同,後面會闡述公式的選用。平時在測試任務成功率,和任務錯誤率的時候,這些收集到的數據大多數是二項式數據,在收集任務時間、評估得分的時候則多收集到的是連續性數據。
數據的獲取是根據「測量的目標」來確定的,收集到的數據具體是哪類型的數據,對於選擇置信區間的計算公式來說至關重要。
「斷樣本」關鍵是兩個環節:「評估樣本的大小」和「篩選樣本的群體」。
樣本的數量的其實是受多方面的影響和選擇的(在接下來的文章中我會接著介紹樣本數量的計算)。
但是大多數情況下,我們是根據公司的具體情況來定樣本的大小,如果是線下邀請用戶來測試,我們需要考慮到很多成本問題;如果是線上的的分流測試,我們需要考慮用戶所處環境的場域影響問題,最大程度上減少數據的噪音幹擾,對樣本數量的大小和樣本群體篩選來說是非常重要的。
然而最關鍵我們要知道在現有條件下獲得的樣本數量屬於大樣本還是小樣本,樣本的是否具有對研究目標有一定的代表性。
置信區間公式的選取;主要受兩個因素影響:一個是數據的類型,一個是樣本的大小。接下來我就以上兩個來做一些分類:
(1)Wald置信區間計算方法:
Wald區間的問題在於,應用小樣本(小於100)或者比例接近0或1的時候非常不準確。如果100次中實際應該有95次都包含真實比例,Wald區間的值要小得多,通常會低至50%~60%;換句話說,當你根據Wald公式報告95%的置信區間的時候,它實際上只有70%。應為這個只發生在小樣本或者比例大於0.5的情況下。
(2)精準置信區間計算方法:
優點:對於任何樣本數量和比例範圍都適用;
缺點:過於保守,計算量大。
精準區間建立在保證置信區間能夠提供至少95%覆蓋率的基礎上,為了達到這個目標,精準區間往往過於保守和嚴謹,其包含用戶比例接近於100人取99人次(和普通置信區間的100人去95人次相比)。
換句話說,當你在使用精準方法報告一個95%的置信區間時,其結果可能來自99%的區間。結果會得到過寬的區間,特別是在樣本數量不是很大的情況下經常會出現這種情況。
(3)Wald矯正區間計算方法:
Wald校正區間法對大多數的樣本完成率來說通Willon區間法一樣有較好的覆蓋率,在完成率接近0或1時通常有較好的結果。「增加兩次成功與兩次失敗」(或者分子加2,分母加4)是從95%區間的正態分布的臨界值(1.96,大約為2,平方後既為4)推導而來的:
x是成功完成任務的次數;n是嘗試任務的次數(樣本量)。
標準的Wald公式調整後是:
例:如果有10個用戶7位成功地完成了任務,我們可以有95%的信心說真實的完成率。分別用上面的三種方法計算。
(1)連續性數據的置信區間
該計算計算的方法無論樣本大小的時候都比較適用,當樣本小的時候,會增加置信區間寬度;當樣本量大的時候,t置信度又會收斂於z區間;所有無論樣本大小都適用。
(2)幾何平均數計算置信區間
在樣本量小於25時,幾何平均數比中位數和平均值有更少的錯誤誤差。由於中位數具有「變異性」,對極端數值的影響力和抵抗力弱;而平均數具有「偏移性」樣本的平均值可能高估或者低估看樣本總體平均值。其中的關鍵點是要對數值先進行對數轉化再來計算。
(3)圍繞中位數的的置信區間
對於特定類型的數據(例如,任務時長、反應時長或薪資數據)會有偏移性,它們的中位數通常比平均值更適合作為中間值來估算。
對於小樣本數據來說,幾何平均數對總體中位數的估算比樣本中位數要好。樣本尺寸越大(特別是超過25後),中位數越傾向成為中間值得最佳估算值。
「縮誤差」是指「縮小誤差幅度」,「置信區間=誤差幅度的兩倍」。知道如何縮誤小誤差幅度的之前,我們先要了解影響置信區間的主要因素,分別是:「置信度」、「變異性」、「樣本量」
置信度:舉個例子來說,95%的置信度就是在一個95%的置信區間中的覆蓋度。置信度為95%(通常使用的值)意味著如果同一個樣本中採樣100次,區間中將會有95次會包含真實的平均數和比例。
變異性:如果一個總體中總有較多的變異量,每一次的取樣都會對結果產生較大波動進而的一個較大的置信區間。總體中的變異是通過計算樣本的偏差來估計的
樣本量:在不降低置信度的前提下,樣本量是一個產品經理可以主動調整並影響置信度區間的因素。置信區間寬度和樣本量之間是一個逆平方根的關係。這意味著如果你想將誤差幅度j降低一半,需要將樣本量翻兩翻。例如如果你的誤差幅度在樣本量為20的時候是正負20%,那麼你需要在樣本量達到80時才能將誤差幅度為正負10%。
如果置信區間太大,我們會覺得這個樣本的估算太不靠譜,尤其置信區間大於50%的時候。所有在計算出置信區間之後一般在條件允許的情況下,都會先通過樣本的數量來調節,再調節置信度,最後看看樣本的質量是否存在變異性。
本文由 @平遙抒雪 原創發布於人人都是產品經理。未經許可,禁止轉載