定目的、觀數據、斷樣本、選公式、縮誤差,五步估算你的樣本有多準

2020-11-26 人人都是..

如何快速準確地計算出置信區間?五步法:定目的、觀數據、斷樣本、選公式、縮誤差。

在產品的可用性研究中,我們幾乎從來不會覆蓋整個用戶總體。取而代之的是我們會依賴取樣,通過樣本來估算未知總體的值。

當我們缺少用戶總體數據的情況下進行估算的時候,即便是最好的估算結果也只能接近,但並不能得到真實的結果。而且樣本量越小,結果的準確性越差。

我們需要一種方法來判斷估算我們到底有多準確才行。

於是我們將在一定概率下包含未知參數的這部分數值區間提取出來,這個範圍就叫做置信區間。

如何快速準確的計算出置信區間,本人在工作總結了幾個方法步驟,快速估算出我們選取的樣本到底有多準。

第一步:定目標

1. 研究的目的;

首先我們要清楚的知道我們做這個研究是要達到什麼樣的目的,公司的資源是有限的,如何用最低的成本去測試出最高價值版本的產品上線,這對一個產品經理來或者用戶研究人員說是至關重要的。

研究主要分為兩種,一種是叫做「行成式可用性研究」主要用在產品發布之前,一種是「總結式可用性研究」主要在產品發布之後發現相關的產品問題;清楚的知道研究產品的哪個階段,該階段的具體問題,對可用性研究來說是至關重要的第一步。

例如:我們想驗證新版本的產品的動線設計對引導用戶加入購物車這個動作完成率是否有提高,提高了多少?是否可以上線去做測試?這是產品發布前,屬於「形成式研究」;我們想知道新上線的籤到得積分獎勵這個功能對用戶的留存是否有提升,屬於產品功能發布之後,屬於「總結式」可用性研究。

2. 確定測試的度量;

確定好研究的目的之後,我們要細分到我們需要具體測試哪個維度來度量,不同用戶研究的目的對應著不同的場景,不同的場景有不同的研究度量;很多時候一個場景是需要多個度量指標來組合來得出產品的相關結論的。

例如:例如研究「完成一個業務」來說,需要測量「任務成功率」、「效率」、「基於任務的度量」、「自我報告式度量」等等;在研究「導航欄或者信息架構的效果來說」需要度量「指定任務的成功率」、「發生的錯誤率」等等度量的指標。

3. 明確改版之後的效果目標。

新版本的置信區間最低的值是否達到目標的比例呢,從而判斷這次改版是否要上線。

例如:我們的目標是新的消息提醒策略讓用戶的打開推薦消息率提高到3%,我們選100個用戶做研究時,7個人打開;發現打開率的置信區間在3.2%~13.8%,誤差的最低範圍是3.2%>3%,於是可以上線。

建議:按照1、2、3的步驟來,層層深入,有利於目標的精準定位;第一步「定目標」的目的是要知道我們的做這個研究的目的,通過怎樣的度量去做研究,明確該研究實驗要達到目標,才能上線。

第二步:觀數據

不同的度量維度,所收集到的數據和數據類型是不同的,主要分為「二項式數據」和「連續性數據」兩類。

二項式數據的特點是編碼成一個二選一的答案,1表示成功,0表示失敗,它計算平均值是沒有意義的;而連續性數據的平均值是有一定意義的,它的平局值是符合正態分布,但是存在一定的「變異性」和「偏移性」。

不同的數據類型計算的公式也會有所不同,後面會闡述公式的選用。平時在測試任務成功率,和任務錯誤率的時候,這些收集到的數據大多數是二項式數據,在收集任務時間、評估得分的時候則多收集到的是連續性數據。

數據的獲取是根據「測量的目標」來確定的,收集到的數據具體是哪類型的數據,對於選擇置信區間的計算公式來說至關重要。

第三步:斷樣本

「斷樣本」關鍵是兩個環節:「評估樣本的大小」和「篩選樣本的群體」。

樣本的數量的其實是受多方面的影響和選擇的(在接下來的文章中我會接著介紹樣本數量的計算)。

但是大多數情況下,我們是根據公司的具體情況來定樣本的大小,如果是線下邀請用戶來測試,我們需要考慮到很多成本問題;如果是線上的的分流測試,我們需要考慮用戶所處環境的場域影響問題,最大程度上減少數據的噪音幹擾,對樣本數量的大小和樣本群體篩選來說是非常重要的。

然而最關鍵我們要知道在現有條件下獲得的樣本數量屬於大樣本還是小樣本,樣本的是否具有對研究目標有一定的代表性。

第四步:選公式

置信區間公式的選取;主要受兩個因素影響:一個是數據的類型,一個是樣本的大小。接下來我就以上兩個來做一些分類:

1. 對於二項式數據

(1)Wald置信區間計算方法:

Wald區間的問題在於,應用小樣本(小於100)或者比例接近0或1的時候非常不準確。如果100次中實際應該有95次都包含真實比例,Wald區間的值要小得多,通常會低至50%~60%;換句話說,當你根據Wald公式報告95%的置信區間的時候,它實際上只有70%。應為這個只發生在小樣本或者比例大於0.5的情況下。

(2)精準置信區間計算方法:

優點:對於任何樣本數量和比例範圍都適用;

缺點:過於保守,計算量大。

精準區間建立在保證置信區間能夠提供至少95%覆蓋率的基礎上,為了達到這個目標,精準區間往往過於保守和嚴謹,其包含用戶比例接近於100人取99人次(和普通置信區間的100人去95人次相比)。

換句話說,當你在使用精準方法報告一個95%的置信區間時,其結果可能來自99%的區間。結果會得到過寬的區間,特別是在樣本數量不是很大的情況下經常會出現這種情況。

(3)Wald矯正區間計算方法:

Wald校正區間法對大多數的樣本完成率來說通Willon區間法一樣有較好的覆蓋率,在完成率接近0或1時通常有較好的結果。「增加兩次成功與兩次失敗」(或者分子加2,分母加4)是從95%區間的正態分布的臨界值(1.96,大約為2,平方後既為4)推導而來的:

x是成功完成任務的次數;n是嘗試任務的次數(樣本量)。

標準的Wald公式調整後是:

例:如果有10個用戶7位成功地完成了任務,我們可以有95%的信心說真實的完成率。分別用上面的三種方法計算。

2. 對於連續性數據

(1)連續性數據的置信區間

該計算計算的方法無論樣本大小的時候都比較適用,當樣本小的時候,會增加置信區間寬度;當樣本量大的時候,t置信度又會收斂於z區間;所有無論樣本大小都適用。

(2)幾何平均數計算置信區間

在樣本量小於25時,幾何平均數比中位數和平均值有更少的錯誤誤差。由於中位數具有「變異性」,對極端數值的影響力和抵抗力弱;而平均數具有「偏移性」樣本的平均值可能高估或者低估看樣本總體平均值。其中的關鍵點是要對數值先進行對數轉化再來計算。

(3)圍繞中位數的的置信區間

對於特定類型的數據(例如,任務時長、反應時長或薪資數據)會有偏移性,它們的中位數通常比平均值更適合作為中間值來估算。

對於小樣本數據來說,幾何平均數對總體中位數的估算比樣本中位數要好。樣本尺寸越大(特別是超過25後),中位數越傾向成為中間值得最佳估算值。

第五步:縮誤差

「縮誤差」是指「縮小誤差幅度」,「置信區間=誤差幅度的兩倍」。知道如何縮誤小誤差幅度的之前,我們先要了解影響置信區間的主要因素,分別是:「置信度」、「變異性」、「樣本量」

置信度:舉個例子來說,95%的置信度就是在一個95%的置信區間中的覆蓋度。置信度為95%(通常使用的值)意味著如果同一個樣本中採樣100次,區間中將會有95次會包含真實的平均數和比例。

變異性:如果一個總體中總有較多的變異量,每一次的取樣都會對結果產生較大波動進而的一個較大的置信區間。總體中的變異是通過計算樣本的偏差來估計的

樣本量:在不降低置信度的前提下,樣本量是一個產品經理可以主動調整並影響置信度區間的因素。置信區間寬度和樣本量之間是一個逆平方根的關係。這意味著如果你想將誤差幅度j降低一半,需要將樣本量翻兩翻。例如如果你的誤差幅度在樣本量為20的時候是正負20%,那麼你需要在樣本量達到80時才能將誤差幅度為正負10%。

如果置信區間太大,我們會覺得這個樣本的估算太不靠譜,尤其置信區間大於50%的時候。所有在計算出置信區間之後一般在條件允許的情況下,都會先通過樣本的數量來調節,再調節置信度,最後看看樣本的質量是否存在變異性。

 

本文由 @平遙抒雪 原創發布於人人都是產品經理。未經許可,禁止轉載

相關焦點

  • 科普| 細節決定A/B測試的成敗:有底線的樣本量
    這就告訴你怎麼搞這個樣本量。給樣本量「秀下限」為了搞清楚這個樣本量的估算是怎麼弄起來的,我跑去找我們Testin技術部的大佬尋求了一下技術支援:大佬:「哦就這事兒,其實吧!要確定樣本量這事兒老簡單了!」
  • 談談樣本量選擇背後的科學道理
    不如讓我們再來看看尼爾森關於釣魚的比喻:假設你有好多個池塘可以釣魚,一些魚比另一些魚更容易抓到。所以,如果你有10小時,你會花10個小時都在一個池塘裡釣魚,還是花5個小時在一個池塘上、花另外的5個小時在另一個池塘上呢? 為使抓到的魚數量最大化,你應該在兩個池塘上都花一些時間,以便從每個池塘裡都釣到容易釣的魚。
  • 實驗設計最小樣本量測算
    【測算公式】關於t檢驗樣本量的測算公式:    關於比率檢驗樣本量的測算公式
  • 樣本標準差的公式中為什麼是n-1
    很多統計學書上都提到,在樣本標準差的計算公式中,平方根中的分子是 另外說明一下,《行為科學統計》這本書原本就是給社會學的學生學習統計學準備的,裡面的語言淺顯易懂,沒有複雜的公式,對於數學功底差的學生來說,非常友好,最新一版已經到了第9版。背景知識離差:數據到平均數的距離,例如對於一個
  • 數據挖掘之模型評估(均方誤差、精確率、召回率及ROC曲線的含義)
    我們都知道,數據挖掘最終的目的就是建立業務模型,然後投入到實際中做一些分類或者預測的事情,但是這個模型做的好不好,我們總要評價吧?這就需要我們對建立的模型做評估,然後根據評估指標和實際的業務情況決定是否要發布這個模型,那麼常用的模型評估指標有哪些呢?他們之間的聯繫又是什麼呢?
  • 「乾貨」電動汽車電池SOC估算方法綜述
    簡化公式如下:從以上公式不難看出,但該估算方法存在著誤差,主要來源於三個方面:1. 電流採樣造成誤差採樣精度採樣間隔2. 電池容量變化造成誤差溫度變化電池老化充放電倍率不同電池自放電3.SOC初始SOC估算困難最終SOC過程取捨誤差安時積分法只單純從外部記錄進出電池的電量,但忽略了電池內部狀態的變化。同時電流測量不準,造成SOC計算誤差會不斷累積,需要定期不斷校準。開路電壓法一般校準方法採用開路電壓法。其原理是利用電池在長時間靜置的條件下,開路電壓與SOC存在相對固定的函數關係,從而根據開路電壓來估算SOC。
  • 你不是任何平均數據之下的樣本
    這些數據其實是由相關課題組對畢業生進行網絡調查而得出的結果。比如,四川大學和南京大學的調研均通過網絡問卷完成,細察兩校回收的有效問卷也不難發現,兩者的樣本結構有很大不同。更值得關注的是,樣本的代表性也存疑,各校的網絡調查均由畢業生自願填寫,並沒有對樣本對象進行選擇,那麼自然是高薪酬的畢業生填寫意願更強,研究者對低薪酬畢業生的選擇性忽略,肯定會得到失真的最終數據。即便是被填寫的這些數據,由於是自我報告得來的,也很難保證它們的準確性。
  • 碩博學術專欄——雙樣本平均數檢驗的抽樣分配
    於雙樣本檢驗的虛無假設為μx1-μx2=μ0,統計檢驗程序是針對兩個樣本的差異分數x1-x2來進行,或以差異分數D(difference)表示。此時,檢驗的抽樣分數(H0分配)亦需反應兩個樣本抽樣條件的不同,稱為差異分數抽樣分配(sampling distribution of the difference) 。
  • 因素分析的樣本量得多少
    作者:晃晃悠悠 審核:X 封面:自己想吧        樣本量就是樣本中所包含的單位的個數,即抽樣單位數。樣本量直接影響抽樣誤差、調查的費用、調查所需的時間、調查訪員的數量以及其他一些重要的現場操作的限制條件。樣本量過大,會造成人力、物力和財力的浪費;樣本量過小,會造成抽樣誤差增大,影響抽樣推斷的可靠程度。
  • 兩種分析方法,求解「用樣本估計總體」問題,大數據時代實用技能
    基本問題說明一般地,用樣本估計總體的基本問題有:① 根據已知樣本數據,求解頻率分布表和/或畫出直方圖、折線圖、莖葉圖,以此估計總體的情況。;② 根據已知樣本數據,求解眾數、中位數、極差、平均數、方差等數字特徵,以此估計總體的情況。3.
  • 大數據與抽樣誤差
    但是,大數據所宣揚的「全體」而非「樣本」的數據採集理念還是很有吸引力的,畢竟在抽樣框選用正確的情況下,普查總比抽樣要好,因為普查不存在隨機性的抽樣誤差。不過,普查真的比抽樣調查優越很多嗎?要回答這個問題,我們首先看一張表。這張表描述了在簡單隨機抽樣時在不同的置信水平和誤差空間下所需的最小樣本量。
  • 專業知識:常用通風空調估算及數據
    2.通風空調主要設備估算: 通風空調可以估算的主要設備為主機、冷卻水泵、冷凍水泵和冷卻塔,空調器因為涉及熱溼轉換,沒有明顯的估算數據關係。一般常用浩辰或紅葉軟體計算。
  • 17分觀點:臨床微生物組研究,要多少樣本才夠?
    過少的樣本量難以幫助我們發現差異,而過多的樣本量意味著巨大的研究成本。那麼究竟需要多少樣本量?如何進行合理的估算呢?計算把握度(power calculation)和估算最小樣本量,是充分檢驗研究假設和得出可以超出研究樣本範圍、能進行推廣的有統計學意義結論的重要前提條件。並且還需要根據研究人員可以接受的誤差範圍,設定置信區間。 需要注意有兩類錯誤,Ⅰ 型錯誤指實際不存在效果,卻錯誤地得出假陽性結果;Ⅱ 型錯誤指實際存在效果,卻錯誤地得出假陰性結果。
  • R中計算樣本均值的方法
    樣本均值的概念樣本均值是統計學中考量一組數據的集中趨勢的統計量之一。設X1, X2, ..., Xn是總體X中的一個樣本,則統計量樣本均值的計算方法如下:樣本均值計算公式R中計算樣本均值的函數在R中,mean()函數用於計算樣本的均值,其使用格式為:mean(x, trim=0, na.rm = FALSE, ...)
  • 檢驗功效(Power)與樣本量
    特別要注意的是這個差異是總體均值的差異,而非樣本均值的差異。由於功效的大小由樣本量,顯著性水平和差異決定,所以在實際工作中,我們會通過功效來決定樣本量的大小。比如我們要比較兩家供應商的棒材長度有無差異,這個差異在0.1mm以內我們是可以接受的否則就是不可接受的。
  • 如何用非參數檢驗,分析多個相關樣本數據?
    檢驗一致性,你用哪種方法?其實,差異性與一致性可以看作是一體兩面的分析,如果一組數據具有很強的差異性,那就表示數據的一致性很差。相反,如果一致性很強,那麼數據間的差異性就很小。不同的方法有不同的要求和側重,因此才出現這麼多的檢驗方法,分別針對不同的應用場景。下面就介紹幾種側重於檢驗多組相關數據的非參數檢驗方法。
  • 標準差計算公式
    有時候我們的數據只是龐大的數據中的一個樣本這種情況下,仍可以計算標準差But when we use the sample as an estimate of the whole population, the Standard Deviation formula changes to this:但我們用樣本數據來對整個數據的情況進行估算,對樣本數據的標準差計算公式做一些調整
  • 非參數檢驗-配對樣本的Wilcoxon符號秩和檢驗
    之前我們學習了單樣本的K-S檢驗常用來檢測數據是否滿足正態分布,並不是單樣本t檢驗的代替方法。
  • 增量學習不只有finetune,三星AI提增量式少樣本目標檢測算法|CVPR...
    ,將目標類別分為足夠樣本的基礎類別和少量樣本的新類別,分別用於系統初始化和增量式學習,注意在增量式學習期間不能使用基類數據。為了適應iFSD場景,使用class code生成器來根據樣本圖片在線生成新類別的class code。生成器的訓練使用matching network的meta-learning策略,從基類中採樣大量的少樣本訓練數據子集,模擬測試時的場景。