做實驗到底應該選取多少被試?

2020-12-06 行上行下

Hello,

這裡是行上行下,我是喵君姐姐~

之前我們發過「如何用G. Power進行樣本量估計?」「關於power analysis 乾貨分享」的推文,有興趣可以查看~

今天我們介紹2018年發布在PsyArXiv的預印本文章「Number of participants required for common designs in psychology: A power analysis」。

考慮到心理實驗中常見的效應量要求為d =.4,在實驗被試量能夠達到50人左右最好。對於大多數研究設計和實驗分析,一般都需要100、200甚至更多的被試量。

接下來我們將討論如何確定「我的實驗必須要有多少個被試?」

PS:後臺回復關鍵詞「實驗被試」即可獲得所述論文的原文啦!

1. 心理學研究者害怕被試過多的研究

由於一些心理學研究者受到的教育,他們會認為研究中過多的被試是一種浪費。但現實中我們可能低估了一個研究所需要的數據量。

一般情況下,當研究者在數據分析中獲得一些效應的顯著性,他們可能就會停止收數據,即使這些效應可能無法進行預測,之後這個實驗也無法被複製。

目前研究者可能高估了數據分析中的效應量大小,低估了實驗中所需要的被試量。

2. 以往研究中的誤區

第一個誤區是:如果以完全相同的方式再次進行研究,我們認為p < .05時顯著的效果有95%的概率實驗能被複製。但這是不正確的,研究成功複製的概率只有50%。

第二個誤區是:效應量只對0.05左右的p值有影響。效應量告訴了我們實驗結果對我們不利的機率,以致於我們無法發現顯著性。然而,實際上效應量對整個p值範圍都有影響。

3. 有效的研究往往需要更多被試量

我們通過比較兩項假設性研究來說明這一點,每項研究都有一個重複測量的變量,有兩個水平。在第一項研究中,在被試水平上沒有效應(d = 0)。在第二項研究中,在被試水平上有d = .4的效應。

以下是每項研究的三種不同被試量的情況。(一) 10名參與者;(二) 30名參與者;(三) 100名參與者。

4. 研究公布的效應量很可能被高估了

第一個問題是:發表文章中所引用的研究並不是都能找到所對應的文獻。

第二個問題是:研究者的主要動機是如何降低幾乎顯著結果的p值,這可能使實驗帶有偏向性。

1. 簡單的數據分析:t檢驗和相關

d = .2為小效應規模,d = .4為中等效應規模,d = .8為大效應規模。根據這個分類,我們可以用d = .5作為最有可能的效應大小,並根據這個大小計算所需的被試人數。

以下是p < .05、雙尾的檢驗所需的被試量。它們可以很容易地根據軟體包(如G. Power)計算出來。

關於G. Power可以查看「G.Power教程 | 樣本量估計」。

獨立測量t檢驗:兩組,每組100名被試 ;

重複測量t檢驗:一組52名被試;

有人提出用貝葉斯分析來替代傳統的統計。當貝葉斯係數在10以上,被認為是替代假設的有力證據;貝葉斯係數在0.10以下,被認為是零假設的有力證據。

目前還沒有貝葉斯分析的效應量計算器,但我們可以通過模擬來估計現有算法的效應。

組間貝葉斯分析:兩組,每組190名被試;

貝葉斯分析重複測量:一組100名參被試;

貝葉斯分析相關性:370個數據對。

2. 三個組間水平的單因素方差分析

當一個分類變量有三個水平時,不同水平之間存在不同的差異。例如,當兩個條件之間存在已知的差異時,就會對第三個條件進行檢查,該條件預期會產生符合其中一個條件的結果,或介於兩者之間的結果。

假設研究者現在想知道,在多大程度上,非關聯的、語義相關的詞啟動了目標詞(例如,mum-boy )。

那麼在一個實驗中呈現這三種水平的目標詞是有意義的;(a)確保對目標詞有一個啟動效應;(b)檢查新的目標詞相對於相關詞的啟動效應有多大。

我們假設兩個極端水平之間的標準化效應大小為d = .4。

有兩種情況值得關注:(1)新水平與現有水平相似,並且與其他水平的效果大小為d = .4;

(2)新的水平是介於其他兩個水平之間(即與每個條件相差d = .2)。

為了說明人們是如何誤解效應量要求的,我們可以看看G. Power推薦的方差分析F檢驗(主效應、交互、單因素)。

對於這樣的檢驗,G. Power需要用f-coefficient表示效果大小。f係數大致是比較有名的(部分)eta平方值的平方根,對於組間的成對比較來說,f = d/2.當我們選擇效應大小f = .2(等於d = .4),α = .05。

關於G. Power可以查看「G.Power教程 | 樣本量估計」。

如果我們用這些數字進行模擬,我們發現總括方差分析有75%的時間是顯著的,但只有49%的樣本存在完整的模式。之所以總括檢驗有80%的時間不顯著,是因為引入第三個條件稍微降低了f值。

我們還可以對有三個獨立組的設計進行貝葉斯分析。

新水平與其他水平之一相似:三組,每組230名被試;

新水平介於其他兩個條件之間:三組,每組950名被試。

3. 三水平的單因素重複測量方差分析

在相關樣本的t檢驗中,效果大小d是基於差異分數的,你可以簡單地用差異分數的平均值除以它們的標準差來計算:d = 17/17.7= 0.96。

我們大多數人可能會使用部分eta平方(η p)作為效應大小的初始估計,因為這是大多數軟體包給出的。如果我們對表2的數據進行方差分析,我們得到F(1,9) = 9.24,p = 0.014,η p = 0.507。

在根據η p估計d時,我們可能會出錯的一種方法是,我們使用了經常被引用的從η p到d的轉換公式:

但是,這個公式只適用於組間。對於重複測量,正確的方程是:

這個方程之所以是近似的,是因為d是在N上計算的,而η p是在df上計算的。如果我們在df上計算d。

N越大,方程的近似值越大。

在重複測量設計中,我們在計算d時可能會誤入歧途,這是因為d可以有兩種定義。首先,它可以像我們剛才在差異分數的基礎上所做的定義;然而,d也可以定義為均值的差異除以均值標準差。

那麼就相當於d ≈ 17/[(52.2+57.2)/2]= 0.31(而不是d=0.96)。

4. 其他相似的實驗設計

我們可以用兩種方法來模擬設計。首先我們讓重複測量之間的相關性等於r=.50。然後我們知道,d z = d av 。

在這種情況下(r = .50;dav = .4;在混合分析中p < .05;對人口水平不同的配對比較進行顯著的單尾Bonferroni校正的事後t檢驗),我們看到需要以下被試數量。

新的水平類似於其他水平之一:75名被試;

介於其他兩個水平之間的新水平:290名被試。

我們模擬數據的第二種方法是假設r = .90的相關性,並調整dav,使dz保持在0.4.我們通過重新編碼來實現。

所需的被試人數應該與r = .5的模擬大致相同,因為它們確實如此。

新水平類似於其他水平之一:75名被試;

介於其他兩個水平之間的新水平:300名被試。

對於貝葉斯分析(在綜合方差分析和相關的事後檢驗中BF > 10,非顯著性對偶比較的BF < 3),這些是我們需要的被試數量如下。

重複測量變量:r = .50

與其他水平之一相似的新水平:120名被試;

介於其他兩個水平之間的新水平:540名被試。

重複測量變量:r = .90

與其他水平之一類似的新水平:125名被試;

介於其他兩個水平之間的新水平:540名被試。

5. 雙因素重複測量方差分析

首先是我們要控制一個可能的額外變量。在這種情況下,我們主要對目標變量的主效應感興趣,所以,我們假設變量A的d = .4,變量B的d = .0,A與B沒有交互作用。

重複測量變量A(d z = .4)和B(d z = .0)無交互作用。

F檢驗(P < .05):27名被試。

貝葉斯檢驗(BF >= 10):52名被試。

所需被試的數量大約是配對樣本t檢驗的一半。這是因為A的效應在B的兩個水平上都能觀察到,而且我們對每個被試的觀察次數是其兩倍(四個而不是兩個)。

其次,我們希望在設計中包含兩個變量,並且我們對變量之間的交互作用感興趣。

在2x2設計中,具有最小規模的效應(變量A,變量B,A與B的交互作用)無法解釋。作為一個經驗法則,當線在某一點上相互接觸或交叉時,交互作用不會小於兩個主效應。

這些都是80%的效應與實驗的被試數量有關。

F檢驗(綜合檢驗中的交互作用p<.05;變量B的事後t檢驗,變量A的差異p< .10/2[單尾,Bonferroni校正];變量B的事後單尾t檢驗,變量A無差異p< .10/2):105名參與者

貝葉斯檢驗(交互作用BF > 10,BFs事後檢驗 > 10):200名被試。

6. 一個重複測量變量和一個組間變量的方差分析

在第一種情況下,組間變量預計不會產生主效應,也不會與重複測量變量相互作用。它只是增加了設計的複雜性。對於這種情況,以下是重複測量變量的主效應達到80%冪的數字,等於d = .4。

F檢驗(P < .05):兩組各27名被試;

貝葉斯分析(BF>10):兩組,每組50名被試。

在第二種情況下,拉丁方與重複測量變量的主效應相互作用。

F檢驗(P < .05):兩組各27名被試;

貝葉斯分析(BF>10):兩組,每組50名被試。

兩組效果相反,交叉互動(d = +.4和d = -.4)。

F檢驗(P < .05): 唯一的交互作用顯著:兩組各27名被試。

交互作用加兩次事後檢驗顯著:兩組名被試。

貝葉斯分析(BF > 10): 只有交互作用顯著:兩組各50名被試。

交互作用加兩次事後檢驗顯著:兩組各125名被試。

如果我們只看交互作用的顯著性,那麼兩組各27被試就足以進行F檢驗。要想有完整的模式,我們需要兩組67個被試進行F檢驗,兩組125名被試進行貝葉斯分析。

所以,在所需被試數量方面,被試內設計並不比被試間設計更有說服力。但它確實提供了更多的信息,因為它增加了組間變量可能的主效應,以及重複測量效應的組依賴性的信息。

1. 對於很多研究問題,少於100人的研究都是不足以說明問題的

綜上可見,在每個主體間組的樣本低於N = 100名被試的情況下,很少有研究能夠說明問題。唯一的例外是用重複測量分析一個變量兩個水平的主效應(p< .05)。

如今,更大的樣本量比以前更容易運行的,越來越多的研究可以通過網際網路進行。

2. 對於研究,我們需要新獎勵制度

被試量不足的研究之所以不斷發表,主要原因是目前的獎勵制度有利於此類研究。

未來,我們希望更多效應量達到d = .4的研究進行發表。

3. 關於p<.05和BF>10的不同數據分析結果

貝葉斯分析的倡導者選擇了一個更嚴格的標準來接受 "重要 "的結果,這減少了不可複製的假陽性被公布的機會。因此實驗需要更多的被試數量。

4. 通過對每個被試在每個條件下的多次測量來增加實驗的科學性

效應量分析中經常被忽視的一個問題是,誤差可以通過增加每個被試的測量值來減少。

這對重複測量設計特別有效,因為這種設計的效應量除了取決於平均數的差異外,還取決於條件之間的相關性(即d z和d av的區別)。當相關性為r = .8時,d z ≈ 1.5 * d av ;當r = .9時,d z ≈ 2 * d av 。

5. 作為審稿人和編輯,認真對待效應量

根據貝葉斯零假設顯著性檢驗的效應量要求,審稿人和編輯應注重實驗的被試量和效應量問題。

參考文獻:

Brysbaert, M.. (preprint). Number of participants required for common designs in psychology: A power analysis. http://doi.org/10.31234/osf.io/2v4yx

神經語用學推文:https://mp.weixin.qq.com/s/n6F57G-BrenQXwwpb1RwQA

PS:後臺回復關鍵詞「實驗被試」即可獲得所述論文的原文啦!

編輯/排版:shirly

校對:喵君姐姐

G.Power教程 | 樣本量估計

樣本量估計 | power analysis 乾貨分享

在不增加樣本量的情況下提高統計檢驗力

跨層/多水平模型的效應量及樣本量問題

相關焦點

  • 問卷實驗知多少:調研家一起做實驗吧
    為什麼要做實驗?我們為什麼要做實驗?儘管實驗的操作者既有天才也不乏凡人,實驗的設計有精準的也有與蹩腳的,一次實驗可能產生重大的發現也可能導致錯誤的推斷,然而每一個實驗背後的目的卻直觀明了:我們試圖通過這種手段,去發現紛繁複雜的現象背後,什麼是真正的原因,什麼是其導致的後果。發現因果關係是科學研究的重要使命。
  • 問卷實驗知多少:調研家一起做實驗吧!
    我們每個普通人經常會有意無意地進行各種實驗。比如說,愛美的女士們,在鏡前試驗哪個色號的口紅讓自己看起來氣色更好;望子成龍的家長們,反覆考證哪一個培訓課程可以讓孩子的成績突飛猛進;還有肺炎期間宅在家中自學成才的各位「廚師」們,一定也反覆調整過配方來讓一道菜或一次烘焙更加成功。為什麼要做實驗?我們為什麼要做實驗?
  • 幼兒識字量對一年級題目理解能力影響的準實驗研究
    2.1  準實驗研究含義及其特點 準實驗研究是指在無須隨機地安排被試,運用原始群體,在較為自然的情況下進行實驗處理的研究方法。對比起真實驗研究,準實驗研究具有:①降低控制水平,增強現實性。②準實驗研究進行的環境是現實的和自然的。③在內在效度上,真實驗優於準實驗設計。但由於準實驗的環境自然而現實,它在外部效度上能夠且應該優於真實驗設計。
  • 一個月不吃晚飯,能瘦多少斤?想要瘦下來,或許應該這麼做
    自從春節大吃大喝過後,不少二三月份就勵志減肥的朋友,如果還沒有付諸行動,那麼在這個立夏剛過的時節裡,應該或多或少都開始著急了。要知道,三四月還不減肥,五六七八九十十一十二月徒傷悲。露肉的季節眼看著就要到了,如何才能在最短的時間內減掉最多的肉呢?一個月不吃晚飯,能瘦多少斤?
  • 機器學習到底需要多少數據?可能並不是越多越好
    機器學習中最值得問的一個問題是,到底需要多少數據才可以得到一個較好的模型?從理論角度,有Probably approximately correct (PAC) learning theory來描述在何種情況下,可以得到一個近似正確的模型。但從實用角度看,PAC的使用範圍還是比較局限的。
  • 不信你試試唄!絕對考智商!
    不信你試試唄!絕對考智商! 1.一張假幣 一天傍晚,一個雜貨鋪來了一位顧客,拿出10元錢買一瓶飲料。飲料3元一瓶,要找給顧客7元。因為沒有零錢,雜貨鋪老闆拿著這張10元錢到隔壁小店換成零錢,找給顧客7元。第二天,隔壁小店來人說昨天的錢是假的,老闆只好還了10元錢,嘆口氣說:今天的損失太大了。請你幫他算一算,他一共損失了多少錢?
  • 關於耦合電容的選取
    打開APP 關於耦合電容的選取 發表於 2019-10-16 10:39:04
  • 蒙格斯智庫:一個人需要多少信息 才能做出決定?
    以色列巴伊蘭大學的Vered Halamish和以色列特拉維夫大學的NiraLiberman於2017年發表在《實驗社會心理學雜誌》(Journalof Experimental Social Psychology)上的論文《在做決定之前要選取多少信息?
  • 對照實驗俺知道,雙盲實驗是個啥?(上)
    我們看了許多有關疫苗研發進展的報導,在這些報導裡,一些名詞反覆出現,比如「臨床研究」、「雙盲實驗」。接下來的兩篇文章,小墨就和大家聊聊什麼是雙盲實驗,以及為什麼要進行雙盲實驗。不過在此之前,我們應該對疫苗的研發和生產的大致階段有一個粗略的了解。
  • 還別說,科學家真的試過……
    長久以來,做夢夢見了什麼都是屬於自己一個人的小秘密。
  • 為證明脫糖電飯煲是「智商稅」,央總的實驗太LOW了吧
    央總的「實驗」記者從網上選購了一款標價319元、品名為「智能降糖煲」的電飯煲產品,及一款普通電飯煲產品,帶到研究所請專家進行對比實驗。專家選取12名志願者分兩組分別食用兩種電飯煲做出的米飯,對食用後人體血糖變化情況進行「雙盲」測定。
  • 【每周英語說】人類是否應該用動物來做實驗?
    PETA認為所有動物實驗都應該停止。另一些人認為這是對抗疾病和生產安全產品的唯一途徑。What do you think? Should animals be used to test new products?你覺得應該用動物來做實驗麼?
  • 單因素完全隨機實驗設計方差分析
    基本特點單因素完全隨機實驗設計適用於這樣的研究:研究中有一個自變量,自變量有兩個或多於兩個水平(P≥2)。它的基本方法是:把被試(實驗單元)隨機分配給處理(自變量)的各個水平,每個被試只接受一個水平的處理。完全隨機實驗設計是用隨機化的方式控制誤差變異的。
  • 做一次CT,到底「吃」了多少輻射?
    紅網時刻12月16日訊(通訊員 陳星星)「醫生,我今年住院治療期間,前前後後做了三次CT,做這麼多CT是不是『吃』了好多輻射啊?」「醫生,我們單位每年體檢都要照胸片,胸片照多了會不會得癌症?」說起輻射帶來的危害,很多人的第一反應就是致癌。
  • 新聞 | 海洋學院助力央視新聞「奮鬥者」號萬米級海試直播
    我國自主研發的「奮鬥者」號載人潛水器萬米級海試首次抵達人類已知的海洋最深處——馬裡亞納海溝。期間,央視新聞新媒體中心推出「挺進萬米深海」特別節目,對海試活動進行了全程直播報導。海洋學院師生受邀參與節目直播活動,利用學院高水平的實驗設施和條件,與央視記者一道,精心設計實驗方案,開展同步模擬實驗和科普講解等,助力直播節目順利完成。
  • 天宮二號不遠萬裡飛去太空做實驗,到底是為啥?
    天宮二號不遠萬裡飛去太空做實驗,到底是為啥? 原標題:   又到一年中秋時,今年天空的第一主角卻不再是皓皓明月。15日晚,朋友圈一度被天宮二號空間實驗室成功發射的重磅消息刷屏。
  • 暖氣試壓需要把家裡閥門打開嗎 暖氣試壓壓力多少才正常
    暖氣試壓壓力多少才正常?暖氣試壓需要把家裡閥門打開嗎供暖試水,家裡閥門肯定要打開的,這樣才能檢查到所有的管路,供暖試水本身就是給採暖系統試壓和檢測漏水的工作,給採暖系統注水打壓的部位包括熱源、管道、散熱末端等,打壓的方式主要有水壓測試、氣壓測試兩種,而且以測水壓居多。
  • 人腦到底相當於多少GHz的CPU?
    之所以如此複雜是由於進行一項模仿人腦活動的實驗需要17.3億個虛擬神經元和10.4萬億個虛擬突觸建立連接,而且每個神經突觸還需要24位元組的內存。從以上這則科技新聞我們可以看出,人腦的運算能力,其實遠勝於當今絕大部分的計算機,但這則新聞,仍然只能讓我們對此有一個大致的概念,真正的數值會是多少GHz呢?
  • 蛇到底怕什麼藥?科學實驗打臉經驗,卻束手無策
    80後和90後的朋友們對《白蛇傳》應該非常熟悉,既然雄黃酒能讓白素貞顯出原形,那麼雄黃這種東西蛇都是最害怕的,因此雄黃就是驅蛇最經典的藥物!那麼雄黃對於蛇來說,真的會有如此大的威力嗎?蛇到底怕不怕雄黃,實驗告訴你都市快報社、杭州市科學技術協會合辦的《好奇實驗室》曾經在今年6月份做過一檔實驗,測試蛇到底怕哪些東西,包括大蒜末、風油精、驅蛇粉(含有雄黃成分)、純雄黃粉和超聲波驅蛇器等傳說中的驅蛇經典五大件
  • 蛇到底怕什麼藥?科學實驗打臉經驗,卻束手無策!
    80後和90後的朋友們對《白蛇傳》應該非常熟悉,既然雄黃酒能讓白素貞顯出原形,那麼雄黃這種東西蛇都是最害怕的,因此雄黃就是驅蛇最經典的藥物!那麼雄黃對於蛇來說,真的會有如此大的威力嗎?蛇到底怕不怕雄黃,實驗告訴你都市快報社、杭州市科學技術協會合辦的《好奇實驗室》曾經在今年6月份做過一檔實驗,測試蛇到底怕哪些東西,包括大蒜末、風油精、驅蛇粉(含有雄黃成分)、純雄黃粉和超聲波驅蛇器等傳說中的驅蛇經典五大件,而測試的對象是一條無毒的菜花蛇!結果如何各位能猜到嗎?