心理學研究一直是研究者和被試渾身上下的誤差進行戰鬥的過程。和自然科學相比,心理學指標往往沒有辦法那樣直接、精確地進行測量,這也導致心理學常被人貼上「不靠譜」的標籤。
2015年8月,一個心理學實驗復現計劃的結果更是引發了人們對心理學成果的「信任危機」——開放科學合作組織(Open Science Collaboration,OSC)對100項心理學實驗成功進行了重複實驗,結果發現,成功復現的實驗還不到四成(更多閱讀:再做一次做不出:100項心理學成果,超過六成不可再現)。
不過,來自哈佛大學和維吉尼亞大學的4位心理學家對此提出了異議。最近他們就在《科學》期刊上發表評論文章[1]指出,OSC的心理學實驗重複計劃有不少漏洞,把重複不出來的結果都賴到原研究上,這個結論其實並沒有那麼可信。
心理學實驗的復現率真那麼糟糕嗎?圖片來自:shutterstock
OSC項目中設置了8%的不可再現率作為一個「標杆」,研究者們認為,考慮到抽樣誤差和統計學顯著性的標準,如果無法復現的實驗在8%以下可以認為是正常的,而超過這個標準就意味著復現性確實存在問題。但是,4位心理學家對這個標杆提出了質疑。他們表示,只有當取樣人群不變,並且完全遵照原版實驗的規程進行復現實驗時,這個標準才能成立,但是看看這些復現實驗,它們並沒有做到這點。
幾位心理學家指出,在這100項復現實驗的實驗條件中,可以找出以下問題:
①被試完全換了一撥人
比如說,有原版實驗研究的是美國人對黑人(非裔美國人)的看法,但在復現實驗裡,被試卻成了一群義大利人,這兩個人群對非裔人群持有的刻板印象很可能是不一樣的;此外,還有原研究要求大學生想像被教授上課叫到的情景,再現研究卻請來一幫沒有上過大學的被試;另一項原研究詢問每天坐車上學的學生理想公寓與學校的距離,再現研究卻用住校學生重複了實驗。
②實驗程序有差異
有的復現實驗在操作方法上也和原版大相逕庭,比如一項原研究要求以色列人想像當兵的後果,再現研究竟然是讓美國人想像自己蜜月後的結果;一項原研究要求幼齡兒童在大屏幕上進行定位遊戲,再現研究卻要求大齡兒童在較小的屏幕上完成任務,這樣一來難度就低多了;一項原研究針對韓國人探究慈善捐助電子郵件中的遣詞造句對回復率的改變,再現研究卻是在全世界範圍發送了郵件。
實驗條件的差異對結果會產生影響,但OSC項目設置的標準卻沒有對此加以考慮。參照另外一個心理學實驗復現項目(「Many Labs」Project, MLP)的結果,心理學家們認為,考慮到復現實驗和原版實驗的條件差異,我們可以「預見」會出現更多的失敗結果。
在評論文章中,心理學家們還對OSC項目的數據強度提出了質疑。在這個項目中,每一個心理學實驗只被重複了一次,這樣得來的數據依舊太單薄。而「許多實驗室」項目(MLP)則把每個實驗重複了35或36次,然後將數據綜合進行計算,最終結果顯示16項研究有85%可以被重現。假設MLP項目也採用OSC項目的處理方法,那麼就只有34%的重複結果落在了原研究結果的置信區間中。由此心理學家們推斷,OSC項目的研究方法過於依賴單一數據結果,這可能也低估了實際的可重複率。
幾位心理學家還指出,當復現實驗的條件和原版有明顯偏差時,這種偏差更偏向於對結果產生負面影響,把這樣的實驗都納入統計,也會對整體數據產生「拖後腿」的作用。
在OSC項目的100項重複實驗進行時,研究者們曾就實驗方法向論文原作者徵求了意見,但只有69%的原作者認同了再現實驗的研究方法。如果把「原作者認同」和「原作者不認同」的實驗分開計算,就會發現前者的復現成功率(59.7%)遠遠超過後者(15.4%)。如果只考慮獲得作者認同的那部分實驗,其實復現率就會改善很多。原論文作者的意見確實是相當主觀的標準,但未獲得原作者認同的那部分實驗方法的可靠性依然值得懷疑。
「這篇論文有著巨大的影響,」 評論文章作者之一、丹尼爾·吉爾伯特(Daniel T. Gilbert)表示,「它在《科學》全部領域的『年度突破』中名列第三。它使很多科學期刊改變了政策,改變了資助機構的態度,並且嚴重損害了公眾對心理學的印象。我們希望OSC能像他們努力生產這些結果那樣來修正大眾對他們研究結果的誤解。」
面對質疑,OSC項目的研究者們也不示弱,3月4日,他們也在《科學》上發布了回應[2]。OSC項目的研究者們認為,被試和實驗程序的差異對再現率並沒有那麼嚴重的影響。實際上,在評論文章中所舉的例子裡, 有三個實驗的方法都獲得了原研究作者的認同。另一個實驗雖然將美國人換成義大利人,但實驗卻再現成功了。由此說明,原作者的認同並不能作為一個令人滿意的指標。
OSC的研究者們指出,其實並沒有「完美再現」這一說法,除了被試和程序存在差異,不同設備、不同語言、被試當下的人生狀態、甚至天氣,又何嘗不是差異?我們也害怕這些差異影響實驗精確度,所以做了驗證性的統計。但結果發現,再現實驗和原實驗間的相似度與再現率其實並沒有很大關係,因此我們才敢說我們的再現實驗是有保障的。
無論如何,雙方研究者們都認同驗證心理學研究結果的復現率是非常重要的事情,這些重複實驗項目的出現也會幫助心理學研究變得更加完善、嚴謹。看到「心理學成果超六成不可再現」的報導,也不必立刻就對整個心理學領域失去信任。至少,心理學家們已經在認真考慮這個問題的解決方案了。(編輯:窗敲雨)
文章題圖:shutterstock 友情提供