搶著發論文的研究,可能不是好研究

2020-12-04 神經現實

各種名利獎賞刺激我們推出重大論點，但好的科學或許意味著放慢速度，更加謹慎地實踐。

CHRISTIE ASCHWANDEN

封面：Klaus Vedfelt

SOCIAL PSYCHOLOGY 社會心理學

如果科學是尋找真理的一種客觀手段，那它也同樣要求人類的判斷。假如說你是一位懷揣這樣一個假說的心理學家：人們其實明白他們對被汙名化群體帶有一種潛意識的偏見；如果你問他們，他們將會承認這一點。那可能看起來是一個頗為直接的觀點——這一觀點非對非錯。但測試它的方式卻並不顯而易見。首先，什麼是消極的刻板印象？你所討論的被汙名化群體是指哪一類？你如何測量人們在什麼程度上能夠意識到他們的隱性態度？你將如何測量人們在何種程度上願意自我披露？

這些問題將以許多種不同的方式得到回答：而反過來，又可能導致大量不同的發現。一個新的眾包實驗——涉及到超過24個國家地區的15000名被試和200名研究人員——證實了這一點。不同的研究項目以自己的方式來測試同一系列的研究問題時，往往會得到差異化的、有時甚至是對立的結果。

這個眾包項目戲劇性地展示了被廣泛討論的可重複性危機中的觀點。研究者們在設計他們的研究時做出的主觀決策，能夠對觀察的結果產生巨大的影響。不論是通過「P值篡改（p-hacking）*」，或者是他們漫步在「小徑分叉的花園」時所做出的選擇，研究者都可能有意無意地將結果引向一種特定的結論。

*譯者註：P值篡改(p-hacking)：科研人員通過不斷地改變統計方法以使p值<0.05,導致結果的假陽性和實驗的不可重複性。

2016年Nature的一篇論文探討了學術界發表結論的可重複性問題。來自各界的1500名科學家回答了他們對於所在學科存在何種程度的可重複性危機，其中物理和化學科學家對自家文獻的可重複最自信。

—

圖片來源：Monya Baker (2016) Nature News Feature

這篇新論文的主要作者，新加坡國際商學院（INSEAD）的心理學家艾瑞克·烏拉曼（Eric Uhlmann），曾將將矛頭指向一項研究。在這項研究中，29個研究團隊收到了同樣一組數據集，而這些團隊要用這個數據集回答一個簡單的研究問題：「相對較淺膚色運動員而言，足球裁判員是否會給深膚色的運動員更多的紅牌？」儘管分析的數據是完全一樣的，但是沒有哪兩支團隊能給出相同的答案。然而，這些團隊的發現確實都指向了同一個方向。

紅牌研究顯示了數據分析的決策是怎樣影響到結果的，但烏爾曼也擔心其他的決策也會捲入研究設計中。因此他發起了最近的這項研究。這項研究規模更龐大，也更野心勃勃，未來會在《心理學公報》（The Psychological Bulletin）（數據和材料都在網上公開）上發表。這一項目從五種假說開始。這五種假說都已得到實驗性檢驗，但實驗的結果仍未公布。

除了像上述足球運動員所體現的潛在聯繫的假說之外，這些假說還包括：人們如何回應激進的談判策略，或者什麼樣的因素會讓人們更願意接受運動員使用興奮劑。烏爾曼和他的同事向很多研究團隊拋出了同樣一個問題，但並不告訴他們有關最原始的那項研究的信息，或者那些研究發現了什麼。

隨後，這些團隊分別設計了各自的實驗，以檢驗一些共同因素作用下的假設。這些研究必須在線上進行，從共享的被試資料庫裡隨機地抽取出參與者。每一項研究設計都操作了兩次：第一次的被試來自亞馬遜公司的Mechanical Turk（譯者註：亞馬遜旗下的勞務眾包平臺），第二次則是全新的、從一個叫Pure Profile的調查公司裡找到的一群被試。

研究表明，這些團隊在設計實驗時中會出現巨大差異。例如，第一個假說是關於人們是否能夠意識到他們會存在內隱偏見（unconscious bias)。一個團隊僅僅要求被試按他們對如下敘述的贊同程度評級：「不管我對社會公平抱有怎樣的外在信念（也就是，有意識地），我相信我對被汙名化的社會群體成員會自動地（無意識地）持有消極聯想。」根據這一回答，他們得出該假設是錯誤的：人們並不報告潛在的消極成見的意識。

當我們相信不該相信的事情時，我們在相信什麼？

通常我們被證實大錯特錯時，會惱羞成怒地作出辯駁。理解認知失調，有助於對這一現象作出解釋。相關閱讀 →　

對於這個假說，另一個團隊則是這樣測試的：他們詢問被試對一個政治黨派的自我認同感，然後讓他們按對假定的對立黨派成員的感覺做一個評級。以這種方法，他們發現了人們很願意報告他們自己的消極成見。而第三個團隊給被試展示了白皮膚、黑皮膚或者超重肥胖的（也有小貓小狗的）男男女女的照片，然後讓他們按自己對這些人直接的直覺反應評級。他們的結果也展示了人們確實承認對被汙名化群體的成員持有消極成見。

這項研究結束時，有七個團隊發現了支持這一假說的證據，而有六個團隊則發現了反對證據。綜合一切考慮，這些數據並不能支持「人們能意識到、且報告他們自己的潛在成見」的觀點。但是，如果你看到的只是一個團隊設計的結果，那很容易就會得到一個不同的結論。

這項研究發現，五種假說中有四種假說都出現了一種相似的模式：不同的研究團隊在相反的方向上產生了統計學顯著效應。哪怕一個研究問題的答案所指方向一致，影響的效應大小卻相差甚遠。在13個研究團隊中，有11個團隊得出的數據能夠清晰地支持「極端的提議讓人們更加不相信談判」的假說。然而，在剩下的兩個團隊中發現的統計效應只隱約指向這種觀點。一些團隊發現極端的提議對信任有很大的影響，而其他團隊發現這些因素影響甚微。

眾包資源假說測試 | 連線雜誌

示例一：「當直接問到：人們是否會自我袒露一種隱匿的、對汙名化社會群體成員的不由自主的消極聯想？」示例二：「比起在一開始先做出緩和的提議的談判者，在一開始先做出極端化的提議的談判者，會讓人對其更加信任還是更不信任，或者都一樣呢？」示例三：「哪種效果會不顧物質/經濟的需求而持續地作用對那些群體的道德判斷：有利的還是有害的，或者沒有任何影響？」示例四：「人們反對興奮劑在體育運動中的使用的原因，部分出自於他們『違背了規則』......」示例五：「功利主義還是倫理方向的義務論更能聯繫到個人的福祉？」

——柯亨的d效果範圍，95%的置信區間

圖表：連線雜誌

資源：Landy et al.

安娜·德勒柏（Anna Dreber）認為，這個故事告訴我們，單單一項研究能告訴我們的無足輕重。她是斯德哥爾摩經濟學院（the Stockholm School of Economics ）的經濟學家，也是該項目的作者之一。「我們作為研究者，必須對我們怎麼說話格外小心，你不該說，『我已經檢驗了這個假說』，你必須說，『我用一種特定的方式檢驗了它』，它對其他情況是否具有普遍性取決於更多的研究結果。」

這個問題，以及披露這個問題的辦法，並不是社會心理學所獨有的。與此相似的是，近日一個項目讓70個團隊用同一個功能性磁共振圖像的數據集合來檢驗9種假設。沒有兩支團隊使用了完全一樣的方法，而不出意料的是，他們的結果各種各樣。

如果只通過這些項目的結果來判斷，那麼我們也許可以合理地推測出科學文獻如同一片結果對立的密林（如果對於同一個問題，不同的研究團隊總能得到不同的答案，那麼期刊中應該滿是矛盾）。然而，事實與此相反。科學期刊中到處都是確證假設結果成立的研究，而那些零結果就不幸成為了「文件抽屜」問題*（file-drawer problem）的一部分。想想上述關於內隱偏見的假說的結論：一半的團隊發現有利證據，一半的團隊發現反對證據。如果這項研究真的以出版為目標，那麼前者將在正式論文中找到落腳點，餘下的將被掩蓋並遺忘。

*譯者註：「文件抽屜」問題(file-drawer problem)：在科研出版界，人們傾向於篩選性地發表更積極、顯著的結果。

人們的信念過濾了我們所能看到/意識到的證據

—

圖片來源：GEPS Bulletin

烏爾曼及其同事的證明，提示了假設應該在多樣且透明的方式中得到檢驗。「我們需要做更多的研究，試著以不同的方式看待同一個問題。」來自牛津大學的心理學家多樂絲·畢肖普（Dorothy Bishop）說道。那樣的話，你可以「在你上躥下跳、跳舞慶祝之前，真正地闡明它有多麼可靠」。

結果當然是論證了謙卑審慎的重要性，烏爾曼說。「我們必須謹慎地對待我們在文章中、我們的大學在公開出版物中、我們在媒體採訪中所說的內容，我們需要嚴謹地對待我們的主張。」各種名利獎賞刺激我們推出重大論點，但好的科學或許意味著放慢速度，更加謹慎地實踐。

放慢速度也是倫敦大學學院心理學家烏塔·費瑞斯（Uta Frith），在一篇最近發表於《認知科學趨勢》（ Trends in Cognitive Sciences）的論文裡所提出的。費瑞斯寫道，「目前的『發表或發黴』（publish or perish）的文化，對科學家和科學自身具有腐蝕性的影響。」多發論文，而不是努力發表高質量的論文，這給研究者帶來壓力的同時，也欺騙了科學，她說。「快的科學讓我們走小路、抄近道，也的確會導致可重複性危機。」她寫道。那麼她的建議是什麼呢？「慢科學。」它致力於「科學的更大目標」——即作為一種尋找真理的方式。她說，對研究者而言，促進「慢科學」的方法，就是從特級葡萄園的葡萄栽培實踐中尋找啟發——他們為了維持葡萄酒的最優質量，而想盡辦法限制其產量。

畢肖普也提出類似的建議，科學家要限制他們的產出，「為了發展一種理論，你需要大量的觀察，而我認為我們常常觀察得很少，」她說，「然後我們在不成熟的時候就進行理論建構。但如果我們能夠更廣泛，更全面地去探索那些得到觀察的情況，那我們的理論建構也會更優質一些。」如果說，這項關於五種假說的研究教會了我們什麼，那就是：科學是一個過程，而且是一個漫長的過程。

翻譯：兵書

校對：曹安潔

排版：夏明明

https://www.wired.com/story/200-researchers-5-hypotheses-no-consistent-answers/

Christie Aschwanden

克裡斯蒂·阿什萬登（Christie Aschwanden）（@懸崖之巔）(@cragcrest)是一名獲獎科學記者。她是紐約時報暢銷書《準備好了：我們的所有運動員能從奇怪的康復科學中學到什麼》的作者，以及播客「新興形式」的聯合主持人。

搶著發論文的研究,可能不是好研究

相關焦點

搶著發論文背後

搶著發論文背後-虎嗅網

研究顯示喜歡發朋友圈，論文能更容易被接收

「研究黑磷不只是為了發論文」—新聞—科學網

如何寫好學術研究論文題目?

回顧性研究才是發論文首選

橫斷面研究類型論文【摘要】的書寫標準及要求 | 橫斷面研究專題

青海人搶紅包竟然不是隨機分配的!有訣竅?

一種研究模式：多發論文，研究足跡，找不到真恐龍

研究發現:距離地球最近的黑洞可能並不是黑洞……

研究發現：距離地球最近的黑洞可能並不是黑洞……

英文不是攔路虎,英語不好也可以發SCI

研究發現:成績好的學生更有可能吃早點

破除「SCI至上」:不是否定SCI,更不是反對發論文

哪些人更「容易」發論文？網紅有望挑戰學術大牛

「修改人類胚胎基因」論文,發還是不發?

研究方法 | 社會科學論文選題策略與寫作技巧

留學前的背景提升:發表國際論文,如何選擇研究方向?

為什麼SSCI難發?和大家交流一下SSCI論文發表的經驗

章魚不是地球「本地魚」？多個研究表明，它們可能來自外星