Hello,
這裡是行上行下,我是喵君姐姐~
之前我們發過「如何用G. Power進行樣本量估計?」「關於power analysis 乾貨分享」的推文,有興趣可以查看~
今天我們介紹2018年發布在PsyArXiv的預印本文章「Number of participants required for common designs in psychology: A power analysis」。
考慮到心理實驗中常見的效應量要求為d =.4,在實驗被試量能夠達到50人左右最好。對於大多數研究設計和實驗分析,一般都需要100、200甚至更多的被試量。
接下來我們將討論如何確定「我的實驗必須要有多少個被試?」
PS:後臺回復關鍵詞「實驗被試」即可獲得所述論文的原文啦!
1. 心理學研究者害怕被試過多的研究
由於一些心理學研究者受到的教育,他們會認為研究中過多的被試是一種浪費。但現實中我們可能低估了一個研究所需要的數據量。
一般情況下,當研究者在數據分析中獲得一些效應的顯著性,他們可能就會停止收數據,即使這些效應可能無法進行預測,之後這個實驗也無法被複製。
目前研究者可能高估了數據分析中的效應量大小,低估了實驗中所需要的被試量。
2. 以往研究中的誤區
第一個誤區是:如果以完全相同的方式再次進行研究,我們認為p < .05時顯著的效果有95%的概率實驗能被複製。但這是不正確的,研究成功複製的概率只有50%。
第二個誤區是:效應量只對0.05左右的p值有影響。效應量告訴了我們實驗結果對我們不利的機率,以致於我們無法發現顯著性。然而,實際上效應量對整個p值範圍都有影響。
3. 有效的研究往往需要更多被試量
我們通過比較兩項假設性研究來說明這一點,每項研究都有一個重複測量的變量,有兩個水平。在第一項研究中,在被試水平上沒有效應(d = 0)。在第二項研究中,在被試水平上有d = .4的效應。
以下是每項研究的三種不同被試量的情況。(一) 10名參與者;(二) 30名參與者;(三) 100名參與者。
4. 研究公布的效應量很可能被高估了
第一個問題是:發表文章中所引用的研究並不是都能找到所對應的文獻。
第二個問題是:研究者的主要動機是如何降低幾乎顯著結果的p值,這可能使實驗帶有偏向性。
1. 簡單的數據分析:t檢驗和相關
d = .2為小效應規模,d = .4為中等效應規模,d = .8為大效應規模。根據這個分類,我們可以用d = .5作為最有可能的效應大小,並根據這個大小計算所需的被試人數。
以下是p < .05、雙尾的檢驗所需的被試量。它們可以很容易地根據軟體包(如G. Power)計算出來。
關於G. Power可以查看「G.Power教程 | 樣本量估計」。
獨立測量t檢驗:兩組,每組100名被試 ;
重複測量t檢驗:一組52名被試;
有人提出用貝葉斯分析來替代傳統的統計。當貝葉斯係數在10以上,被認為是替代假設的有力證據;貝葉斯係數在0.10以下,被認為是零假設的有力證據。
目前還沒有貝葉斯分析的效應量計算器,但我們可以通過模擬來估計現有算法的效應。
組間貝葉斯分析:兩組,每組190名被試;
貝葉斯分析重複測量:一組100名參被試;
貝葉斯分析相關性:370個數據對。
2. 三個組間水平的單因素方差分析
當一個分類變量有三個水平時,不同水平之間存在不同的差異。例如,當兩個條件之間存在已知的差異時,就會對第三個條件進行檢查,該條件預期會產生符合其中一個條件的結果,或介於兩者之間的結果。
假設研究者現在想知道,在多大程度上,非關聯的、語義相關的詞啟動了目標詞(例如,mum-boy )。
那麼在一個實驗中呈現這三種水平的目標詞是有意義的;(a)確保對目標詞有一個啟動效應;(b)檢查新的目標詞相對於相關詞的啟動效應有多大。
我們假設兩個極端水平之間的標準化效應大小為d = .4。
有兩種情況值得關注:(1)新水平與現有水平相似,並且與其他水平的效果大小為d = .4;
(2)新的水平是介於其他兩個水平之間(即與每個條件相差d = .2)。
為了說明人們是如何誤解效應量要求的,我們可以看看G. Power推薦的方差分析F檢驗(主效應、交互、單因素)。
對於這樣的檢驗,G. Power需要用f-coefficient表示效果大小。f係數大致是比較有名的(部分)eta平方值的平方根,對於組間的成對比較來說,f = d/2.當我們選擇效應大小f = .2(等於d = .4),α = .05。
關於G. Power可以查看「G.Power教程 | 樣本量估計」。
如果我們用這些數字進行模擬,我們發現總括方差分析有75%的時間是顯著的,但只有49%的樣本存在完整的模式。之所以總括檢驗有80%的時間不顯著,是因為引入第三個條件稍微降低了f值。
我們還可以對有三個獨立組的設計進行貝葉斯分析。
新水平與其他水平之一相似:三組,每組230名被試;
新水平介於其他兩個條件之間:三組,每組950名被試。
3. 三水平的單因素重複測量方差分析
在相關樣本的t檢驗中,效果大小d是基於差異分數的,你可以簡單地用差異分數的平均值除以它們的標準差來計算:d = 17/17.7= 0.96。
我們大多數人可能會使用部分eta平方(η p)作為效應大小的初始估計,因為這是大多數軟體包給出的。如果我們對表2的數據進行方差分析,我們得到F(1,9) = 9.24,p = 0.014,η p = 0.507。
在根據η p估計d時,我們可能會出錯的一種方法是,我們使用了經常被引用的從η p到d的轉換公式:
但是,這個公式只適用於組間。對於重複測量,正確的方程是:
這個方程之所以是近似的,是因為d是在N上計算的,而η p是在df上計算的。如果我們在df上計算d。
N越大,方程的近似值越大。
在重複測量設計中,我們在計算d時可能會誤入歧途,這是因為d可以有兩種定義。首先,它可以像我們剛才在差異分數的基礎上所做的定義;然而,d也可以定義為均值的差異除以均值標準差。
那麼就相當於d ≈ 17/[(52.2+57.2)/2]= 0.31(而不是d=0.96)。
4. 其他相似的實驗設計
我們可以用兩種方法來模擬設計。首先我們讓重複測量之間的相關性等於r=.50。然後我們知道,d z = d av 。
在這種情況下(r = .50;dav = .4;在混合分析中p < .05;對人口水平不同的配對比較進行顯著的單尾Bonferroni校正的事後t檢驗),我們看到需要以下被試數量。
新的水平類似於其他水平之一:75名被試;
介於其他兩個水平之間的新水平:290名被試。
我們模擬數據的第二種方法是假設r = .90的相關性,並調整dav,使dz保持在0.4.我們通過重新編碼來實現。
所需的被試人數應該與r = .5的模擬大致相同,因為它們確實如此。
新水平類似於其他水平之一:75名被試;
介於其他兩個水平之間的新水平:300名被試。
對於貝葉斯分析(在綜合方差分析和相關的事後檢驗中BF > 10,非顯著性對偶比較的BF < 3),這些是我們需要的被試數量如下。
重複測量變量:r = .50
與其他水平之一相似的新水平:120名被試;
介於其他兩個水平之間的新水平:540名被試。
重複測量變量:r = .90
與其他水平之一類似的新水平:125名被試;
介於其他兩個水平之間的新水平:540名被試。
5. 雙因素重複測量方差分析
首先是我們要控制一個可能的額外變量。在這種情況下,我們主要對目標變量的主效應感興趣,所以,我們假設變量A的d = .4,變量B的d = .0,A與B沒有交互作用。
重複測量變量A(d z = .4)和B(d z = .0)無交互作用。
F檢驗(P < .05):27名被試。
貝葉斯檢驗(BF >= 10):52名被試。
所需被試的數量大約是配對樣本t檢驗的一半。這是因為A的效應在B的兩個水平上都能觀察到,而且我們對每個被試的觀察次數是其兩倍(四個而不是兩個)。
其次,我們希望在設計中包含兩個變量,並且我們對變量之間的交互作用感興趣。
在2x2設計中,具有最小規模的效應(變量A,變量B,A與B的交互作用)無法解釋。作為一個經驗法則,當線在某一點上相互接觸或交叉時,交互作用不會小於兩個主效應。
這些都是80%的效應與實驗的被試數量有關。
F檢驗(綜合檢驗中的交互作用p<.05;變量B的事後t檢驗,變量A的差異p< .10/2[單尾,Bonferroni校正];變量B的事後單尾t檢驗,變量A無差異p< .10/2):105名參與者
貝葉斯檢驗(交互作用BF > 10,BFs事後檢驗 > 10):200名被試。
6. 一個重複測量變量和一個組間變量的方差分析
在第一種情況下,組間變量預計不會產生主效應,也不會與重複測量變量相互作用。它只是增加了設計的複雜性。對於這種情況,以下是重複測量變量的主效應達到80%冪的數字,等於d = .4。
F檢驗(P < .05):兩組各27名被試;
貝葉斯分析(BF>10):兩組,每組50名被試。
在第二種情況下,拉丁方與重複測量變量的主效應相互作用。
F檢驗(P < .05):兩組各27名被試;
貝葉斯分析(BF>10):兩組,每組50名被試。
兩組效果相反,交叉互動(d = +.4和d = -.4)。
F檢驗(P < .05): 唯一的交互作用顯著:兩組各27名被試。
交互作用加兩次事後檢驗顯著:兩組名被試。
貝葉斯分析(BF > 10): 只有交互作用顯著:兩組各50名被試。
交互作用加兩次事後檢驗顯著:兩組各125名被試。
如果我們只看交互作用的顯著性,那麼兩組各27被試就足以進行F檢驗。要想有完整的模式,我們需要兩組67個被試進行F檢驗,兩組125名被試進行貝葉斯分析。
所以,在所需被試數量方面,被試內設計並不比被試間設計更有說服力。但它確實提供了更多的信息,因為它增加了組間變量可能的主效應,以及重複測量效應的組依賴性的信息。
1. 對於很多研究問題,少於100人的研究都是不足以說明問題的
綜上可見,在每個主體間組的樣本低於N = 100名被試的情況下,很少有研究能夠說明問題。唯一的例外是用重複測量分析一個變量兩個水平的主效應(p< .05)。
如今,更大的樣本量比以前更容易運行的,越來越多的研究可以通過網際網路進行。
2. 對於研究,我們需要新獎勵制度
被試量不足的研究之所以不斷發表,主要原因是目前的獎勵制度有利於此類研究。
未來,我們希望更多效應量達到d = .4的研究進行發表。
3. 關於p<.05和BF>10的不同數據分析結果
貝葉斯分析的倡導者選擇了一個更嚴格的標準來接受 "重要 "的結果,這減少了不可複製的假陽性被公布的機會。因此實驗需要更多的被試數量。
4. 通過對每個被試在每個條件下的多次測量來增加實驗的科學性
效應量分析中經常被忽視的一個問題是,誤差可以通過增加每個被試的測量值來減少。
這對重複測量設計特別有效,因為這種設計的效應量除了取決於平均數的差異外,還取決於條件之間的相關性(即d z和d av的區別)。當相關性為r = .8時,d z ≈ 1.5 * d av ;當r = .9時,d z ≈ 2 * d av 。
5. 作為審稿人和編輯,認真對待效應量
根據貝葉斯零假設顯著性檢驗的效應量要求,審稿人和編輯應注重實驗的被試量和效應量問題。
參考文獻:
Brysbaert, M.. (preprint). Number of participants required for common designs in psychology: A power analysis. http://doi.org/10.31234/osf.io/2v4yx
神經語用學推文:https://mp.weixin.qq.com/s/n6F57G-BrenQXwwpb1RwQA
PS:後臺回復關鍵詞「實驗被試」即可獲得所述論文的原文啦!
編輯/排版:shirly
校對:喵君姐姐
G.Power教程 | 樣本量估計
樣本量估計 | power analysis 乾貨分享
在不增加樣本量的情況下提高統計檢驗力
跨層/多水平模型的效應量及樣本量問題