為了避免陷入僵局、總結經驗,重複者和原論文作者必須在研究設計上達成一致,提前闡明自己的預期。
筆者協調已發表研究的重複工作已經有好幾年了。最常見的結局是雙方各行其是、各執一詞,尤其是當重複結果與原始結果看起來相矛盾的時候。
「一起來找茬」。| 來源:David Parkins
我們在「可重複性項目」(Reproducibility Project)中也發現了這一點:我們負責管理對癌症生物學一些高影響力論文中的實驗進行重複[1]。在最後完成的50項重複性實驗中(來自23篇論文),有一個實驗要求將白血病細胞移植到免疫功能低下的小鼠體內,並在給予潛在治療前先讓細胞生長。結果,我們團隊、審稿人、論文作者都沒有想到,我們提出的免疫抑制技術(與原論文中的不同)會影響該療法能否延長存活時間這個關鍵問題[2]。待我們重複後,發現存活時間並沒有差異[3]。後來,審稿人表示這種差異其實很關鍵。
類似情況也發生在其他學科。筆者中的一位(B.A.N.)曾在《社會心理學》(Social Psychology)擔任客座編輯,曾有一位審稿人反對一項重複性研究的設計,當時要檢驗的假說是:亞洲女性在被提醒她們的亞洲身份時,會在一項數學測試中表現得更好。之後我們又委託開展了第二個重複研究,這次的研究設計滿足了審稿人的要求。結果,第二次的重複失敗了,但這位審稿人認為不合適的第一個方案基本重複成功了[4,5]。在得知結果後,審稿人指出第二個研究明顯存在缺陷。
重複失敗經常會帶來認知上的僵局。一些研究人員堅稱重複結果反駁了原始論文的觀點;其他人則發現重複性工作有這樣那樣的瑕疵。無論是做重複研究的人員還是原始論文作者,都選擇捍衛自己的結論,或至少捍衛自己的能力;而沒有選擇開展有難度的智力勞動,利用新證據來修正自己的觀點。人類天性和學術激勵機制讓人們很難做到後者。
研究人員如何避免陷入這類僵局呢?我們需要在早期階段花更多時間搞清楚需要驗證的問題,確定驗證過程的關鍵特徵以及我們預期得到的認知。我們需要一個更契合人類天性或至少能讓我們就事論事的方法。這種方法應以尋找正確答案為重點,而不是維護之前的結果。
我們將這種方法稱為「預承諾」(precommitment)。論文發表之後、重複研究開始之前,由論文作者和獨立重複人員合作設計一項重複性實驗,雙方都認可其意義——無論最後結果如何。這個過程可以採用預註冊的形式進行記錄,或是在理想的情況下,利用註冊報告(Registered Report) 的形式(見「重複性路線圖」)。
牢固的框架
在過去十年裡,慈善家、政府資助機構和期刊編輯開始為重複性研究制定政策、啟動項目、投入資金。方法學家也在思考如何讓重複性研究從死胡同裡走出一條活路。
但我們缺少工具,無法最大化利用重複性研究。重複性研究經常被看作是帶有敵意的舉動,而不是科研過程中一個正常而有益的組成部分。預承諾可以讓重複性研究更有價值。它鼓勵合作、消化對立,發揚謙遜的科研精神。這麼做能把精力集中在提高重複性研究的質量上,最大程度汲取經驗,降低以重複性工作是否符合先前觀點為評價依據的趨勢。
重複取決於能否創造出重複某項結果所必需的條件。即使兩項研究使用的方法相同,它們之間依然有著許許多多的差異:年月日、氣候、使用的樣本、實驗人員的身份等等。開展重複性研究要求對一些重要的特徵做出理論上的承諾[6]。
在結果出爐後再做這種承諾很難。在開展重複性研究前詢問研究人員,溫度(或年齡或光線或語言等其他任何變量)是否重要?許多人會坦言他們不知道,或是根本沒有意識到原始實驗的條件是保持不變的。在重複性研究失敗後再問這個問題,後見之明會給你另一個答案:「溫度(或年齡或光線或語言等其他任何變量)當然重要了。」如果重複結果允許在事後再添加假設,重複性研究驗證現有認知的作用就不成立了。
賭一把
那麼,何為理論上的承諾?經濟學家給出的一個觀點是:理論承諾是你願意賭一把的事。
如若研究人員願意就實驗細節千差萬別的重複性研究賭一把,說明他們相信某個現象是可概括、經得起檢驗的。只願意在縮小條件範圍後才預承諾的人,實際是將待驗證的現象縮小到了他們有信心的範圍。
比如一項研究稱經常鍛鍊可以提高記憶力。支持者可能要求重複試驗照搬原始研究中的方法,比如將「經常鍛鍊」的定義限制在跑步而不是騎車。他們可能還會要求把條件限制得比原來的更細——也許只在夜間對英國35歲以下的成年人開展記憶力測試。這方面的堅持顯示出支持者對經常鍛鍊可以提高記憶力的說法缺乏絕對的信心,他們認可的其實是一個更狹窄的理論。如果他們不能提出任何他們願意賭一把的實驗設計,他們可能根本就不相信原始結果是可以重複的。
修正論點
立意良善的重複性研究會按照原始結論來設計實驗。如果結論說明了具體地點,重複時就必須把地點考慮進去。如果結論忽略或不考慮年齡,重複時也不應加以考慮。根據支持者、懷疑者和中立者的觀點設計重複性研究,就能明晰結論的邊界,特別是那些未加詳細定義的結論。
我們目睹過很多次爭論雙方之所以僵持不下,要麼是支持派和懷疑派相互誤解,要麼是雙方各執一詞。為了解決這個問題,我們需要建立一個高效的流程,按照演繹法管理重複性實驗的設計。這個流程必須產出表述清晰、可以驗證的結論,還要能解決反對者提出的質疑。
如果支持者和懷疑者都能為重複性設計背書,又對結果有不同的預測,這種情況下的重複是最有意義的。對抗式協作(adversarial collaboration)的例子體現了這種方法兼具的難度和潛力(見「協作對抗」)。比方說,對於意識持不同看法的權威神經科學家共同參與了巴哈馬群島鄧普頓世界慈善基金會(Templeton World Charity Foundation)發起的一項計劃,致力於設計出他們各自理論能產生不同結果的實驗。一時之間大家群情激昂,甚至有人大呼小叫。但在兩天後,他們提出了實驗設計。實驗結果應於今年晚些時候公布——它不會平息關於意識的爭論,但應該能增進我們的理解(詳見:go.nature.com/3gqou5u)。
協作對抗
支持者和反對者應就達成一致意見的重複性研究設計做出「預承諾」,明確各自不同的預期。
預承諾利用的是對抗式協作——對抗式協作是諾獎得主、心理學家丹尼爾·卡內曼(Daniel Kahneman)和同事在本世紀初提出的一種方法(見參考文獻11)。在對抗式協作中,意見不統一的研究者在一名仲裁者的協助下,同意用實驗平息爭論。
2015年,對一種眼動(稱為眼跳)如何影響記憶喚起持不同意見的研究者,採取了對抗式協作和預註冊研究設計及各方預期結果相結合的形式。最後,全部作者和中間人在一篇合著論文中報告了他們的結果和不同的分析[12]。
Dawid Potgieter認為,這種方法的成功關鍵在於找到善於傾聽、真正想要了解對方主張的對抗者。Potgieter在擔任鄧普頓世界慈善基金會的發現科學項目主任期間,帶頭開展了對抗式協作。
一支國際研究團隊也提出了類似建議,他們正在檢驗闡述合作過程的五種對立模型。他們呼籲在工作開始前,先統一研究者的思路,比如制定共同目標、激發好奇心、肯定實驗人員的能力和好意[13]。
預承諾將秉持這些理念,給每篇論文一個具體流程:一種任意但適宜且可管理的單元。學會評估實驗,學會評估別人對你工作的批評,是嚴謹做研究的核心。我們理應讓其成為科學基建的一部分。
從無到有
七年前,我們在一次實踐中確信了如何將預承諾的理念付諸行動。如今,踐行預承諾的基礎硬體唾手可得:註冊報告。在這個體系中,作者、審稿人和編輯在研究啟動前先進行評估。假使研究問題非常重要,研究方法質量很高,這項研究就能在結果未知的情況下被接收發表[7]。
我們的這個概念驗證實踐包含15篇發表在《社會心理學》特刊中的重複性論文[8]。團隊建議對領域內的重要研究成果進行重複,並讓原始論文作者和其他專家審稿人對擬議的方法做出評判。儘管雙方交流偶爾火藥味很濃,但這些「對抗團隊」和期刊編輯還是本著同一個目標:設計出一種能讓重複結果有意義的實驗方法。這當然沒有消除所有的爭議——遠遠沒有。果不其然,在結果發表後,一篇論文引發了所謂的「重複門」事件,隨即而來的是言語中傷、競爭性重複分析,以及對禮貌修養的反思(詳見go.nature.com/3ftemmf)。
其他論文體現了一種理想的結局:支持者和懷疑者觀察重複結果,就其意義展開辯論,並提出其他解釋。由於方法和分析都是事先一致認定的,對重複結果的其他解釋便相應成了後續研究的內容,而非一次有效實驗的必要部分。
舉個例子,一篇論文對迷信可以提高表現的結論進行了重複,但重複失敗了。這篇論文探討了這樣一種可能性:原始結論為假陽性,或是特定任務類型或論點可以解釋這種差異[9]。關鍵在於,這些潛在的影響因素被描述為今後研究的假設,而不是對非預期重複結果的解釋。從許多方面看,這個過程像是我們初入科研領域時,想像中科學運作的理想方式。
如今,超過250本期刊都提供註冊報告。《自然-通訊》也在7月初加入其中。美國的流感實驗室(Flu Lab)以及紐約的兒童腫瘤基金會這類資助機構分別與科學出版商PLOS合作,資助各自領域中重要發現的註冊報告。這些期刊(和許多其他期刊) 在筆者的單位、非營利性質的開放科學中心運行的一個平臺(http://osf.io/rr)上存檔被接收的註冊報告。我們中心支持採用預承諾流程與註冊報告相結合的期刊。
改變思路
研究人員把研究結果看作是個人財產,重複性研究則讓他們有財產損失的風險,喚起了他們自證無誤的「求生欲」。無論是支持者還是懷疑者,預承諾給了所有人一個機會,讓他們可以遠離低效的制度框架,實現明辨是非曲直的共同目標。提出清晰、具體、可驗證的理論,並明確地報告如何驗證這些理論的論文作者可以得到獎勵。
我們相信,預承諾的可見度夠高,足以轉變激勵的方式。說到底,你更欣賞哪種科學家呢?是從來不贊同對他的成果進行獨立驗證的人;還是當新結果顯示他們錯了時,願意修正自己論點的人?我們有證據證明,研究人員和公眾更喜歡後者[10]。批評者會反擊說,某些實驗本身就很混亂,或是涉及一些高深的技術,或是重複者的精力應該更多地放在原始觀點上。我們認為,驗證已有結論、增進理解,是推動進步的必要條件。
最終,預承諾應成為一種期待。無論結果符合支持者還是懷疑者的預期,它帶來的都是真正的知識。
原文作者:Brian A. Nosek & Timothy M. Errington
參考文獻:
1. Errington, T. M. et al. eLife 3, e04333 (2014).
2. Fung, J. J. et al. eLife 4, e08997 (2015).
3. Shan, X., Fung, J. J. & Kosaka, A. eLife 6, e25306 (2017).
4. Gibson, C. E., Losee, J. & Vitiello, C. Soc. Psychol. 45, 194–198 (2014).
5. Moon, A. & Roeder, S. S. Soc. Psychol. 45, 199–201 (2014).
6. Nosek, B. A. & Errington, T. M. PLoS Biol. 18, e3000691 (2020).
7. Chambers, C. Nature 573, 187–189 (2019).
8. Nosek, B. A. & Lakens, D. Soc. Psychol. 45, 137–141 (2014).
9. Calin-Jageman, R. J. & Caldwell, T. L. Soc. Psychol. 45, 239–245 (2014).
10. Ebersole, C. R., Axt, J. R. & Nosek, B. A. PLoS Biol. 14, e1002460 (2016).
11. Kahneman, D. Am. Psychol. 58, 723–730 (2003).
12. Matzke, D. et al. J. Exp. Psychol. Gen. 144, e1–e15 (2015).
13. Ellemers, N., Fiske, S. T., Abele, A. E., Koch, A. & Yzerbyt, V. Proc. Natl Acad. Sci. USA 117, 7561–7567 (2020).
原文以The best time to argue about what a replication means? Before you do it為標題發表在2020年7月21日的《自然》評論版塊。
原文經授權轉載自公眾號「Nature自然科研」(ID:Nature-Research),如需轉載請聯繫原帳號。