一篇要求重新定義P值界值的論文,炸起科學界百人論戰

2021-01-08 果殼網

(錦衣Reload/編譯,vicko238、Ent/校)72位學術大牛一起發了篇論文,引來87位作者署名的反駁論文。對於統計學上牽動人心的P值要多小才能算結果顯著,科學家們開始了一場大規模論戰,甚至用上了谷歌共享文檔。

荷蘭埃因霍溫理工大學的心理學家丹尼爾·萊肯斯(Daniël Lakens)以心直口快聞名。

2017年7月22日,他在讀完一篇標題為《重新定義統計顯著性》的預印本論文後,毫不留情地在推特上開噴:「一群聰明人給出這麼恐怖的糟糕建議,我對此非常失望。」這篇被噴的這篇論文由72位著名的科學家共同完成,兩個月後發表在了知名期刊《自然-人類行為》上。

發起反駁論文的作者丹尼爾·萊肯斯。圖片來源:BART VAN OVERBEEKE FOTOGRAFIE

而讓萊肯斯抓狂的原因是:這篇論文建議降低在眾多實驗中使用的顯著性閾值,讓p值低於0.005而非現在使用的0.05時才能算作結果顯著。科學家們希望用這種方式降低假陽性率,提高科學實驗的重現率。

但是37歲的萊肯斯認為這是一個災難性的想法。在一個更低的顯著性閾值要求下,需要更大的樣本量才能讓統計結果顯著,會讓許多實驗無法操作。再者,他說,「當科學如此多樣化的時候,為什麼要限制一個單一的p值標準?」 

他和他的同事們在今年年初也投遞了一篇針鋒相對的論文,被《自然-人類行為》接受。與眾不同的是,這篇文章是全世界上百位科學家在谷歌文檔裡共同寫出來的。

什麼是p值?

P值是一個非常難掌握的概念。現在,讓我們先通過簡單粗暴的方式理解區分關於p值的各種概念:

零假設:默認立場,或這說兩個統計現象A和B沒有聯繫。

假設:科學家提出並要去證明的觀點,與零假設矛盾。如:假設A和B有聯繫。證明以歸謬法的邏輯,若零假設是錯的,那麼與零假設相反的結論可能有效。

P值:簡單來說,P值越小,零假設有問題的可能性越大,你的假設就越可能成立。若P=0.05,則這時拒絕零假設,有5%的可能性你「冤枉了」正確的零假設;若P=0.01,那麼拒絕零假設你只有1%的可能是錯的。

顯著性閾值(α):P值小到什麼時候才能拒絕零假設又被學界認可?這個一刀切的門檻就是顯著性閾值,完全人為設定。目前這個學界認可的門檻高度是0.05,即當p值小於0.05時可以說實驗結果統計學上顯著。

P值方法是廣泛使用的統計手段,但因其自身的缺陷飽受爭議。學界對於p值的討論一直很熱烈,有一批科學家就認為,由p值小於0.05推出的結論並不如人們想像中的那麼靠譜,需要降低實驗中使用的顯著性閾值。

谷歌文檔裡的激烈討論

想要反駁修訂閾值的論文,光用推特可不行。

畢竟經過一次擴容後的推特,最多也才能發280個字。為了能深入討論P值修訂的問題,萊肯斯乾脆在谷歌上創建了一個共享文檔,標題是「為你的α值正名:對『重新定義統計顯著性』的回應」。萊肯斯在文檔中列出了12個討論點,包括「我們應該對這個建議做出評價還是無視它」以及「這樣重新定義統計顯著性存在的潛在負面影響是什麼」。

萊肯斯說他想要這次的方案儘可能考慮每個人的想法,使想加入的人都等加入進來,並且沒有主動找任何有名的科學家。在這種情況下,有接近150位科學家加入了討論,文檔激增到了100頁。

討論的參與者十分多樣,有很多來自不那麼有名的學校,很多人分享了他們的私人經驗。因為p值和樣本量有關,所以想要得到小於0.005的p值,可能需要更多的樣本。有些參與者表示他們難以負擔這樣的大型實驗,或者是沒有辦法招募到足夠的被試。有些人則指出這個更低的閾值會使研究者轉而尋求「方便的樣本」,比如找本科學生或者採用網絡研究。批評者還指出滿足要求的大型實驗更加難以複製,違背了提出新標準的初衷。同時,一個更嚴格的顯著性閾值可能會讓研究人員規避風險、更少地去研究困難課題。

除開修改閾值對科研造成的負面影響,參與者們對論文最大的質疑還是在於:0.005其實和0.05一樣隨意,真正的閾值實際上取決於我們對一個主題的了解程度和在這個主題上得到錯誤答案的風險。比如,初步實驗對出現假陽性結果的風險接受度應該更高,藥物實驗則可能需要一個更低的p值。

萊肯斯希望能將谷歌文檔中的討論變成論文發表,不過這一次事情沒有那麼順利。

人多也有人多的麻煩

丹尼爾·布拉福德(Daniel Bradford)是威斯康星大學麥迪遜分校的臨床心理學博士生。布拉福德十分高興能為論文出一份力,「我做了很久的統計學學生,也參過大量改良心理學實驗方法的討論。」不過他剛開始的時候懷疑這種共同寫作的方法行不通,「在我和僅僅五位作者共同完成論文的時候,都時常想如果人更少的話效率會更高。」

為了順利成文,萊肯斯從討論中提取了要點放在一個新的谷歌文檔裡作為論文的基礎。

「這份文檔的演變過程讓人難以置信,人們添加、刪除再添加,旁觀者又提出新的看法。這種模式奏效了。人們願意承擔特定工作,比如修改參考文獻、檢查段落和標點的問題。當我們不得不壓縮文章的時候,一些作者化身食人魚消滅掉了一切不必要的內容。」萊肯斯說。

雖然作者們精誠合作,但留給萊肯斯的任務還是很多——尤其是在萊肯斯需要完成常規工作的情況下。他只能利用空閒時間來完成任務,比如早上或者夜間。「有那麼一瞬間我覺得我要瘋了。」萊肯斯說。

在論文完稿的過程中,有幾個參與者選擇了退出,部分原因是他們不同意論文中的部分內容。最終87個人同意成為論文的共同作者。

修訂閾值派的回應

萊肯斯等人的論文建議完全丟棄「統計顯著性」的標籤。作為替代,研究者應該描述並解釋它們的實驗設計和數據處理方式,包括所選取的統計閾值。「有時候顯著性水平可以是0.05,有時候是0.005,或者是0.10。」萊肯斯說。

對於萊肯斯的觀點,主張修訂顯著性閾值的科學家們也有所回應。

原論文《重新定義統計顯著性》的第一作者是德克薩斯農工大學的瓦倫·詹森(Valen Johnson),他認為萊肯斯的方法行不通。「讓每篇論文的作者決定他們自己的顯著性水平是不可行的,」他在寫給《科學》的郵件中寫道,「理由很簡單,沒有足夠的資源對每個被提出的顯著性閾值進行詳細、公證的審查。」同時也不清楚「證明α的合理性」在實際中如何操作,論文的共同作者、阿姆斯特丹大學的埃裡克-簡·瓦根馬克斯(Eric-Jan Wagenmakers)補充道。

另一位重要的共同作者態度更為溫和。在維吉尼亞大學的心理學家布萊恩·諾塞克(Brian Nosek)看來,「萊肯斯那篇論文中傳達出的信息非常好,實際上不是對我們的論文的批判。」 諾塞克說《重新定義統計顯著性》這篇論文傳達的關鍵信息非常有限:目前0.05的顯著性閾值讓人們高估了證據的可信度,如果要降低這一閾值,0.005是一個合理的替代值。

「其他對顯著性問題的建議,比如拋棄所有的顯著性檢驗、對所選取的α做出解釋、結合貝葉斯推論、更多的重複實驗等等,也都是非常不錯的改進。」諾塞克說。

這一場辯論還會繼續,不過地點可能不會是谷歌文檔了。谷歌文檔中發生的故事「令人驚嘆」但效率並不是很高,萊肯斯說,「當你的時間有限時,你不應該這麼做。」

「討論很激烈。我們確實因為無法取得統一的意見,放棄掉了一些論點。如果只有我一個作者,我會把那些加進去的。」萊肯斯補充說道。

看來關於統計顯著性,能討論的還有很多。而每一次討論,都可能是完善科學方法的星星之火。(編輯:vicko238)

題圖來源:zignifica.com

相關焦點

  • 一篇要求重新定義P值的論文,炸起科學界百人論戰
    對於統計學上牽動人心的P值要多小才能算結果顯著,科學家們開始了一場大規模論戰,甚至用上了谷歌共享文檔。荷蘭埃因霍溫理工大學的心理學家丹尼爾·萊肯斯(Daniël Lakens)以心直口快聞名。2017年7月22日,他在讀完一篇標題為《重新定義統計顯著性》的預印本論文後,毫不留情地在推特上開噴:「一群聰明人給出這麼恐怖的糟糕建議,我對此非常失望。」
  • PLOS: P值焦慮會否顛覆整個科學界的可信度
    p值操控(p-hacking)的普遍性和解決辦法最近刊載於PLOS one的一篇文章試圖更準確地去衡量這個問題。1. 什麼是p-hacking?熟悉零假設檢驗(Null hypothesis testing)的人都知道,研究人員總是在試圖發表否定null hypothesis的研究,來證明自己假設的正確。
  • 九成以上研究者或無法正確理解p值
    一項針對Science、Nature和PNAS三本頂級雜誌的調查表明,在過去的20年,出現在三本雜誌中的圖表仍高度、且越來越依賴於p值(Cristea & Ioannidis, 2018)。但是,如此常用的p值在統計學界和科學界其實褒貶不一。
  • JAMA:p值檢驗,你用對了嗎?
    2016年3月18日 訊 /生物谷BIOON/ --最近一篇關於p值檢驗的總數統計總結了1990至2015以來的多篇生物醫學文獻,發現被錯誤理解的統計數據越來越多,報導p值時沒有同時報導應效應量和置信區間指標。史丹福大學醫學院的研究人員做了一項針對數百萬計的期刊文章的研究統計。
  • 沿用還是棄用P值:還是讓它錦上添花吧!| BMC Journal
    論文標題:Viewing 「p」 through the lens of
  • 乾貨|統計學的P值危機
    他們提出:「我們永遠不應該僅僅因為P值大於0.05之類的閾值而得出「沒有差異」或「沒有關聯」 ,或者等價,因為置信區間包括零。我們也不應該斷定兩項研究之間存在衝突,因為一項研究結果具有統計學意義,另一項則沒有。這些錯誤會浪費研究工作並誤導政策決策。」
  • 你真的懂p值嗎? 說人話的統計學
    ►辛辛苦苦做了實驗收了數據,正想大步邁向SCI高分文章,你是否不知數據分析該如何下手? ►投出了文稿,卻等來了審稿人對統計方法似是而非的挑刺,你是否不清楚該如何應對?►別擔心,你不是一個人在戰鬥!►在本系列中,我們將和你一起,探討最實用、最關鍵的統計學知識和方法。我們將指出常見的統計學誤區和陷阱,回答那些你一直想問但不好意思問的問題。
  • p值誤我?——「貝葉斯因子」了解一下
    特別歡迎認知心理、管理心理、工程心理、教育心理、社會心理、心理測量、醫學心理、心理衛生與諮詢、體育運動心理、文藝心理、司法心理及心理學在其他領域的運用等方面的論文。即日起,應用心理學雜誌社將對發表於《應用心理學》的優秀心理學研究論文進行推送,關注我們,你將獲得最新最棒的心理學研究動態!
  • 統計︱P值-0.05就發表,不然就去死!
    這兩種方法進行長期且痛苦的論戰。雖然Fisher的這一觀點同樣也遭到了現代統計學家的反對,但是他對現代假設檢驗的發展作出了巨大的貢獻。)Fisher的具體做法是:2.選擇一個檢驗統計量(例如z 統計量或Z 統計量) ,該統計量的分布在假定的參數取值為真時應該是完全已知的。
  • 800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話
    【新智元導讀】統計顯著性和p值是衡量研究可靠性的重要標準。這個標準是怎麼來的?今年3月Nature上一篇主張廢除p值的文章,為何獲得800位科學家聯名支持?如果沒有p值門檻,研究質量會出現大滑坡嗎?戳右邊連結上 新智元小程序 了解更多!每年,全球有數百萬學生修讀統計學課程。隨著世界上的數據量越來越大,統計學已成為越來越受歡迎的話題。
  • 美國宣布禁用p值,原來p值很危險,如何取代p值?
    1月22日,美國政治學頂級學術期刊《政治分析》在他們的官方twitter上宣布從2018年的開始的第26輯起禁用p值。根據該刊的聲明,其主要原因是:「p值本身無法提供支持相關模式或假說之證據。」  投影片上這些論點,大部分是說我們在傳統統計檢定的執行上,對 p 值有各種誤解跟誤用。現在很多人談到"p 值的危險"、"p 值的陷阱"、"p 值的誤用"、還有"p 值的誤解"。甚至有些學術期刊,也開始改變他們的編輯政策。像有本叫作 Basic and Applied Social Psychology 的心理學期刊,已經決定以後文章都不能使用 p 值,大家能夠想像嗎?
  • 這個數字,幾乎所有實驗室都在用,卻讓整個科學界陷入危機
    近100年來,幾乎所有科學家在分析實驗數據時,都會用到p值這個工具:只有p小於0.05,才意味著實驗結果具有統計顯著性,才能在學術期刊上正式發表。但是,統計顯著性的概念以及支撐它的p值具有相當大的局限性。而正是這樣的缺陷,讓整個科學界都處於危機中。
  • 【p值之爭】史丹福大學陸教授有話說
    在這篇論文中陸老師還特別提出了數據質量的問題:「進入分析的數據是垃圾,所產出的只能是垃圾!」看來,任何一個從事臨床科研的工作者都應當避免成為有意和無意的垃圾製造者。p 值之爭概述:p值是生物醫學研究中使用最廣泛的統計學概念。
  • 「P值」背後那些不可不知的事兒
    ;⑥ 羅想起了費舍爾爺爺規定的 α = 0.05,(這個界限值的意思是說,根據約定俗稱的規定,在假設硬幣沒問題的情況下,得到不正常結果的概率最小為0.05還是可以接受的,可能真的是運氣不好)但是,現在p只有0.03125,這麼小概率的事怎麼可能發生呢???
  • 這個數字幾乎所有實驗室都在用,卻讓科學界陷入危機
    因此,菲舍爾的這一建議誕生了p小於0.05等價於所謂的統計顯著性,這成了「顯著」的數學定義。菲舍爾的遺憾近一個世紀之後,在科學研究的許多領域,p值小於0.05被認為是確定實驗數據可靠性的金標準。這個標準支持了大多數已發表的科學結論,違反這一標準的論文很難發表,而且也很難得到學術機構的資助。然而,即使是菲舍爾也明白,統計顯著性的概念以及支撐它的p值具有相當大的局限性。
  • 循證|專題2:如何解讀循證醫學研究結果——P值的意義到底何在?
    臨床意義是否具有顯著性,主要觀察的是結果效應的大小,而統計學意義是否具有顯著性,則主要觀察的是P值的大小。因此,P值成為了循證醫學中一項重要的臨床醫學結果指標,但是,隨著對循證研究及臨床實踐認識的逐步深入,學術界發現做出科學的論斷不能單純依靠P值。
  • 聽說P界值要從0.05降到0.005?不,這不是真的不是真的
    P不過最近,p值得日子也不好過,質疑的聲音真是此起彼伏。首先,兩年前美國統計協會(ASA)發表了關於p值的聲明:看到了吧,我怎麼覺得他是想說:p值啥也幹不了啊。當然還有更直白的表達:(Political Analysis, 2018)2018年1月22日,美國學術期刊《政治分析》宣布從2018年的開始的第26輯起禁用p值。其要義在於:政治分析將不再在回歸表或其他地方報告P值。造成這種變化的原因有很多,其中最重要的一個原因是:單純依靠p值本身,並不能提供支持特定模式或假設的證據。
  • 美國統計學會權威發布:P值應該這麼用,學界有錯須改正
    The American Statistician)(點擊閱讀原文,或至 http://amstat.tandfonline.com/doi/pdf/10.1080/00031305.2016.1154108 下載該論文)。我們使用P值來檢測組間或方法間的差別、評估目標變量間的關係,等等。但ASA指出,P值被廣泛誤用了。
  • 【統計】p值和FDR
    那麼我們通常所說的p值的計算公式可以簡單寫成:p值衡量的是一個原本應該是𝐻0的判斷被錯誤認為是𝐻1(𝑟𝑒𝑗𝑒𝑐𝑡𝐻0)的比例,所以它是針對單次統計推斷的一個置信度評估。從另一個方向理解,在假設𝐻0成立的前提下,即先假設「兩組沒有差異」,比較兩組的差值,如果差值符合正態分布,p值越小,說明「兩組沒有差異」的概率越小,通常情況下,當p值小於0.05時,認為是小概率事件,即「兩組沒有差異」「幾乎不可能發生。我們接受𝐻1,「兩組有明顯差異」,就是我們經常在論文裡看到的陽性結果。
  • P值之死
    一、一個悲傷的故事:破滅的年少成名之夢首先跟大家說一個悲傷的故事,該故事來源於nature最近發布的一篇文章「statistical errors」,我把這個故事叫做「破滅的年少成名之夢」話說,維吉尼亞大學有一位意氣風發俊朗不凡的博士研究生莫德爾。