如何簡單的判斷兩個版本優劣?T檢驗的實踐運用(二)

2020-12-14 人人都是產品經理

大學的統計學知識,你是否還記得?本文作者將用最精煉的語言和簡單的案例,讓你能夠快速將T檢驗運用到實戰當中。因此不用糾結過多的統計學理論而不能自拔,知道怎麼運用即可。本文是T檢驗的實踐運用系列第二篇-相依樣本T檢驗。

筆者最近項目比較趕,所以更新頻率慢了很多,同時也發現其實這類偏學術一點點的文章熱度並不怎麼高,不過認真讀下來並且將文中的知識運用到工作中的小夥伴們,應該是受益頗多的,筆者的初衷也是希望更多的人能在看完我的文章後能在平時的產品設計與產品驗證方面更合理,避免很多拍腦袋的事情頻頻出現,那閒話就聊到這裡,下面我們就進入我們本篇的主題-獨立樣本T檢驗。

上一篇我們講到了單樣本T檢驗,我們回顧一下它是用來做什麼的:如果我們只有一個樣本,假設樣本均值為,總體的均值為μ,我們想知道,這個樣本來自的總體是否與具有這個均值的總體顯著不同?

通俗的來講,就是想知道我們手裡的這個樣本與總體的差距,它比總體表現好,還是表現差。

那麼,假如我們有兩個版本的方案設計,如何簡單的判斷兩個版本的方案誰好誰壞呢?

有同學會立即想到A/B Test。不過,A/B Test就一般的小公司來說並不是很簡單就能實施的一種方法,否則也不會有那麼多專門做A/B Test的公司了,並且A/B Test的很多理論和知識點與T檢驗也有重合,所以我們首先了解T檢驗是只有好處而沒有壞處的。而相依樣本T檢驗就是一種簡單,快速的雙版本驗證方法,人人都可以用哦。

相依樣本T檢驗的流程與單樣本T檢驗的流程很是類似,所以在閱讀接下來的內容之前,強烈建議回去看一下單樣本T檢驗。那麼假如你已經看過上面的文章,並且對基本的實驗流程清楚了的話,我們開始我們的相依樣本T檢驗講解。

相依樣本T檢驗:(Dependent t-test for paired samples)

相依樣本的概念是:如果同一受試者參加兩次測試,則是相依樣本,這叫做受試者內設計。

比如,我們讓每個受試者分別體驗我們的兩版不同的產品,之後我們分別得到兩版的成對數據;又或者是一種縱向的時間研究,我們對受試者施加一種前期測試,然後在一個時間點得到一組數據,然後再對受試者施加另一種測試,在另一個時間點得到另一組數據。

總之,我們是為了得到相同對象的成對數據 (Xi, Yi),我們要衡量這些值之間的差異|Di = Xi – Yi| ,之後我們得到Di後的計算流程就與單樣本T檢驗的計算流程一樣了。接下來我們通過案例來直觀的感受一下相依樣本T檢驗。

假如我們設計了一個新的遊戲玩法(或者我們在PC上看到一個很火的遊戲想移(chao)植(xi)到移動端,比如吃雞),但是目前遇到了一個問題是這個遊戲的玩法,目前市面上沒有合適的操控設計來匹配,因此我們需要重新設計一套操控系統。

團隊經過日夜趕工設計出了兩款新的操控方案,但是不確定哪種會更好一些,因此他們想知道這兩套操控哪種更方便玩家的操作,哪種操控使得玩家犯錯率更低(比如當玩家想向右邊轉動鏡頭時卻轉向了左邊)。團隊邀請了25個內測玩家來進行方案測試。這些玩家被隨機分配到首先使用操控方案一還是操控方案二的組中,然後進行輪換。實驗方式是玩家需要在1分鐘內進行15步遊戲常見的操作,然後統計每個玩家的出錯次數。X為方案一的出錯次數,Y為方案二的出錯次數,最後得到如下數據:

1. 提出問題,設定0假設和對立假設

0假設:我們假設兩種方案差別沒什麼不同,不存在顯著差異,即如果將這兩種方案共同推出,所有使用這兩種鍵盤的人都沒感到什麼差異,記為

對立假設:我們假設這兩種方案有差異,所以記為

u為總體均值。

2. 計算差異點估計

差異的點估計為

這個點估計只是樣本點估計,我們需要知道與其他差異的對比結果,因此我們需要計算差異的標準偏差。

3. 計算差異的標準偏差

根據計算得到S = 1.91

4. 確定均值標準誤差SEM

SEM = 1.38

5. 確定t值

計算得出t = -1.21

6. 確定t臨界值

自由度

因為我們設置的對立假設為

所以此檢驗為雙尾檢驗,根據95%置信水平查詢T表格得:

t臨界 = ±2.064

7. 得出結論

那麼根據我們計算得出的t值和t臨界值,我們是否拒絕0假設呢?因為t值為-1.21,它不在臨界範圍之內,所以我們不能拒絕0假設,也就是說,雖然我們從樣本的平均值上面看,可能方案一比方案好。

但是從統計學角度講,如果這兩個方案真的都投入到市場上,用戶的操控體驗其實也沒多大區別。那這時候問題來了,我們到底怎麼決策呢?這時候,我們就要將得到的這組數據平均分與行業操控數據進行對比,也就是說與行業數據進行單樣本T檢驗,看看此數據是否比行業數據好,如果連行業數據都不如的話,那就需要對這兩個方案進行整改設計了,再次循環這個過程,直到找到最優方案。

至此我們經歷了一個相依樣本T檢驗的案例,雖然我們最終沒有從這兩個方案中選擇一個出來,但是我們知道了這兩個方案其實差異不大,並且我們也知道了接下來該怎麼做,相信我們在實驗的驗證下一定會得到一個比較滿意的方案的。

另外,還是提醒大家,影響方案選擇的因素是比較多的,除了數據上的驗證外,還要考慮到具體的業務需求,時間成本,開發成本等等因素,也就是我們要去評估方案的實際顯著性和統計顯著性,如果方案一的體驗只比方案二的體驗有輕微提升,但是開發成本高出許多,這樣的方案是否要推出,還是需要評估一下的,好啦,那麼這期就到這裡啦,我們下期見。

下期我們將會講解最後一種,獨立樣本T檢驗。

相關焦點

  • 【實例】Excel數據分析之假設檢驗中的t-檢驗應用
    當一些樣本均數與已知的總體均數有很大的差別時,一般來說有兩點主要原因:一是抽樣誤差的偶然性,二是樣本來自不同的總體,而使試驗因素不同。這個時候,我們運用假設檢驗方法就能夠排除誤差的影響,區分差別在統計上是否成立,並了解誤差時間發生的概率。
  • 堅持在實踐中檢驗運用和發展真理
    原標題:堅持在實踐中檢驗運用和發展真理 以什麼態度對待真理,關係革命、建設和改革的前途命運,是中國共產黨人必須回答的一個重大問題。1978年在全國範圍內開展的真理標準問題大討論,是一場廣泛而深刻的思想解放運動,衝破了教條主義思想束縛,重新確立了馬克思主義科學真理觀,成為改革開放的思想先導。
  • 理解 t 檢驗與 F 檢驗的區別
    它主要用於:均數差別的顯著性檢驗、分離各有關因素並估計其對總變異的作用、分析因素間的交互作用、方差齊性(Equality of Variances)檢驗等情況。t檢驗過程,是對兩樣本均數(mean)差別的顯著性進行檢驗。惟t檢驗須知道兩個總體的方差(Variances)是否相等;t檢驗值的計算會因方差是否相等而有所不同。
  • 兩獨立樣本T檢驗及如何利用SPSS實現其操作
    那麼,如何判斷年齡是不是SDS評分的影響因素呢?應該用相關性分析嗎?為什麼有的論文中用的是t檢驗呢?比如以下例子:為什麼判斷「領導力課程參加與否」是否是RSLQ的影響因素,用的是T檢驗呢?其實,單因素分析就包括:T檢驗、方差分析與卡方檢驗等;T檢驗是單因素分析的一種統計學方法。
  • 如何判斷鈣片優劣?
    如何判斷鈣片優劣?時間:2016-09-10 13:37   來源:360問答   責任編輯:沫朵 川北在線核心提示:原標題:鈣含量越高鈣片就越好? 如何判斷鈣片優劣? 人們選擇鈣片,就像嬰兒選擇奶粉一樣,不同的人都有不同需求,不能用簡單的幾個 檢測項目進行數據對比就能做出評判。
  • 【寫作助手】手把手教你如何區分T檢驗與F檢驗
    惟 t 檢驗須知道兩個總體的方差(Variances)是否相等;t檢驗值的計算會因方差是否相等而有所不同。也就是說,t 檢驗須視乎方差齊性(Equality ofVariances)結果。所以,SPSS在進行t-test for Equality of Means的同時,也要做Levene"sTest for Equality of Variances 。
  • t檢驗的效應量
    t檢驗的效應量,我們用Cohen's d表示,簡寫為d,反映兩個均數之間的標準差異:其中分母是兩個獨立樣本的聯合標準差,計算方法為兩個樣本標準差的平方平均數,即不過注意了,這是獨立樣本的計算方法,配對樣本中共同標準差採用配對數據差值的標準差即可,不用這一公式。
  • SAS、SPSS、JMP、Excel四種統計分析軟體實現t檢驗
    先填一口知識糧:什麼是t檢驗?數據統計分析的一種基本方法。 t檢驗能做什麼?常用於兩組定量資料均值比較,以推斷總體均值差異是否有統計學意義。如比較兩個班級學生的身高差異是否有統計學意義,如比較某公司兩個地區的管理成本差異是否有統計學意義等。
  • 你知道T檢驗與F檢驗嗎?
    惟 t檢驗須知道兩個總體的方差(Variances)是否相等;t檢驗值的計算會因方差是否相等而有所不同。也就是說,t檢驗須視乎方差齊性(Equality of Variances)結果。所以,SPSS在進行t-test for Equality of Means的同時,也要做Levene"s Test for Equality of Variances 。1.
  • 統計學常用概念|T檢驗、F檢驗、卡方檢驗、P值、自由度
    就是因為要評估兩個總體的方差(Variances)是否相等,要做Levene's Test for Equality of Variances,要檢驗方差,故所以就有F值。另一種解釋:t檢驗有單樣本t檢驗,配對t檢驗和兩樣本t檢驗。單樣本t檢驗:是用樣本均數代表的未知總體均數和已知總體均數進行比較,來觀察此組樣本與總體的差異性。
  • T檢驗與F檢驗,傻傻分不清楚?
    惟 t 檢驗須知道兩個總體的方差(Variances)是否相等;t 檢驗值的計算會因方差是否相等而有所不同。也就是說,t 檢驗須視乎方差齊性(Equality of Variances)結果。所以,SPSS在進行t-test for Equality of Means的同時,也要做Levene"s Test for Equality of Variances 。1.
  • 統計學基礎-t檢驗基本原理
    根據t值,查閱t界值表,找到P,根據P與α的大小,得出最後結論。兩獨立樣本均數比較的t檢驗    兩獨立樣本均數比較的t檢驗,又稱,雙總體t檢驗,該方法用於檢驗兩組樣本平均數與其各自所代表的總體的差異是否明顯。例如,男性和女性的平均壽命是否有差異,南北方人群的平均身高是否有差異等問題均可以用兩獨立樣本t檢驗來判斷。
  • 數據分析必備統計學(二):假設檢驗
    這裡就牽涉到上面第一個問題:如何抽樣?抽樣才是ABtest關鍵,根本原則是希望控制對照組兩邊客群一樣,儘量公平。抽樣方法也很多:簡單抽樣、分層抽樣、正交抽樣等等。這裡為何提到一個正交抽樣呢?正交抽樣滿足一次測試,多組對照的抽樣方法。關於細節,大家可以關注並評論,後面我給相應解答。
  • 第三節 u檢驗和t檢驗
    第三節 u檢驗和t檢驗   u檢驗和t檢驗可用於樣本均數與總體均數的比較以及兩樣本均數的比較。理論上要求樣本來自正態分布總體。但在實用時,只要樣本例數n較大,或n小但總體標準差σ已知時,就可應用u檢驗;n小且總體標準差σ未知時,可應用t檢驗,但要求樣本來自正態分布總體。
  • 實習十 t檢驗
    實習十 t檢驗   一、目的要求   1.明確t檢驗的意義。   2.學會t檢驗的計算方法,並正確運用假設檢驗對資料進行分析評價。   二、內容、步驟   (一)複習思考   正確理解以下各題含義並作出答案。   [是非題]   1.t 檢驗是對兩個樣本不同樣本均數的差別進行假設檢驗的方法之一。( )   2.T檢驗結果t=1.5,可認為兩總體均數送別無意義。
  • 手把手教你用GraphPad輕鬆完成獨立樣本t檢驗,並繪製箱式圖
    同時,我們還將以最新發表、或各學科Top期刊文章中的結果圖為例,給大家逐一講解如何作圖(繪圖)!今天介紹一種統計學十分基礎,但應用很廣的檢驗方法——獨立樣本t檢驗,即非配對t檢驗,以及作圖。首先解釋一下什麼是獨立樣本,「獨立」是指區別於「不獨立的成對樣本或配對樣本」。通過Prism的示意圖我們能更清楚地分辨這兩者的區別。
  • 假設檢驗、Z檢驗與T檢驗
    概述假設檢驗是統計學、分析學和數據科學中的一個關鍵概念了解假設檢驗的工作原理、Z檢驗和t檢驗之間的區別以及其他統計概念介紹冠狀病毒大流行使我們大家都成了一個統計學家。我們不斷地核對數字,對大流行將如何發展做出自己的假設,並對何時出現「高峰」提出假設。
  • 統計中重要的檢驗:T檢驗、F檢驗及其統計學意義
    惟t檢驗須知道兩個總體的方差(Variances)是否相等;t檢驗值的計算會因方差是否相等而有所不同。也就是說,t檢驗須視乎方差齊性(Equality of Variances)結果。所以,SPSS在進行t-test for Equality of Means的同時,也要做Levene's Test for Equality of Variances 。
  • 參數估計與假設檢驗(七)-- 獨立雙樣本均值T檢驗
    本文對獨立雙樣本均值T檢驗做進一步的介紹。在雙樣本條件下,也可以通過構造t統計量利用T分布理論來比較兩樣本所代表的總體的均值是否有顯著差異,如果兩個樣本是完全獨立的,該檢驗就叫做獨立雙樣本均值T檢驗(如圖10.18所示)。
  • 卡方檢驗,T檢驗和F檢驗
    它屬於非參數檢驗的範疇,主要是比較兩個及兩個以上樣本率( 構成比)以及兩個分類變量的關聯性分析。其根本思想就是在於比較理論頻數和實際頻數的吻合程度或擬合優度問題。它在分類資料統計推斷中的應用,包括:兩個率或兩個構成比比較的卡方檢驗;多個率或多個構成比比較的卡方檢驗以及分類資料的相關分析等。