一篇要求重新定義P值的論文,炸起科學界百人論戰

2021-01-20 中科院物理所

72位學術大牛一起發了篇論文，引來87位作者署名的反駁論文。對於統計學上牽動人心的P值要多小才能算結果顯著，科學家們開始了一場大規模論戰，甚至用上了谷歌共享文檔。

荷蘭埃因霍溫理工大學的心理學家丹尼爾·萊肯斯（Daniël Lakens）以心直口快聞名。2017年7月22日，他在讀完一篇標題為《重新定義統計顯著性》的預印本論文後，毫不留情地在推特上開噴：「一群聰明人給出這麼恐怖的糟糕建議，我對此非常失望。」這篇被噴的論文由70位著名的科學家共同完成，兩個月後發表在了知名期刊《自然－人類行為》上。

發起反駁論文的作者丹尼爾·萊肯斯。圖片來源：BART VAN OVERBEEKE FOTOGRAFIE

而讓萊肯斯抓狂的原因是：這篇論文建議降低在眾多實驗中使用的顯著性閾值，讓p值低於0.005而非現在使用的0.05時才能算作結果顯著。科學家們希望用這種方式降低假陽性率，提高科學實驗的重現率。

但是37歲的萊肯斯認為這是一個災難性的想法。在一個更低的顯著性閾值要求下，需要更大的樣本量才能讓統計結果顯著，會讓許多實驗無法操作。再者，他說，「當科學如此多樣化的時候，為什麼要限制一個單一的p值標準？」

他和他的同事們在今年年初也投遞了一篇針鋒相對的論文，被《自然－人類行為》接受。與眾不同的是，這篇文章是全世界上百位科學家在谷歌文檔裡共同寫出來的。

P值是一個非常難掌握的概念。現在，讓我們先通過簡單粗暴的方式理解區分關於p值的各種概念：

零假設：默認立場，或者說兩個統計現象A和B沒有聯繫。

假設：科學家提出並要去證明的觀點，與零假設矛盾。如：假設A和B有聯繫。證明以歸謬法的邏輯，若零假設是錯的，那麼與零假設相反的結論可能有效。

P值：簡單來說，P值越小，零假設有問題的可能性越大，你的假設就越可能成立。若P=0.05，則這時拒絕零假設，有5%的可能性你「冤枉了」正確的零假設；若P=0.01，那麼拒絕零假設你只有1%的可能是錯的。

顯著性閾值（α）：P值小到什麼時候才能拒絕零假設又被學界認可？這個一刀切的門檻就是顯著性閾值，完全人為設定。目前這個學界認可的門檻高度是0.05，即當p值小於0.05時可以說實驗結果統計學上顯著。

P值方法是廣泛使用的統計手段，但因其自身的缺陷飽受爭議。學界對於p值的討論一直很熱烈，有一批科學家就認為，由p值小於0.05推出的結論並不如人們想像中的那麼靠譜，需要降低實驗中使用的顯著性閾值。

想要反駁修訂閾值的論文，光用推特可不行。

畢竟經過一次擴容後的推特，最多也才能發280個字。為了能深入討論P值修訂的問題，萊肯斯乾脆在谷歌上創建了一個共享文檔，標題是「為你的α值正名：對『重新定義統計顯著性』的回應」。萊肯斯在文檔中列出了12個討論點，包括「我們應該對這個建議做出評價還是無視它」以及「這樣重新定義統計顯著性存在的潛在負面影響是什麼」。

萊肯斯說他想要這次的方案儘可能考慮每個人的想法，使想加入的人都等加入進來，並且沒有主動找任何有名的科學家。在這種情況下，有接近150位科學家加入了討論，文檔激增到了100頁。

討論的參與者十分多樣，有很多來自不那麼有名的學校，很多人分享了他們的私人經驗。因為p值和樣本量有關，所以想要得到小於0.005的p值，可能需要更多的樣本。有些參與者表示他們難以負擔這樣的大型實驗，或者是沒有辦法招募到足夠的被試。有些人則指出這個更低的閾值會使研究者轉而尋求「方便的樣本」，比如找本科學生或者採用網絡研究。批評者還指出滿足要求的大型實驗更加難以複製，違背了提出新標準的初衷。同時，一個更嚴格的顯著性閾值可能會讓研究人員規避風險、更少地去研究困難課題。

除開修改閾值對科研造成的負面影響，參與者們對論文最大的質疑還是在於：0.005其實和0.05一樣隨意，真正的閾值實際上取決於我們對一個主題的了解程度和在這個主題上得到錯誤答案的風險。比如，初步實驗對出現假陽性結果的風險接受度應該更高，藥物實驗則可能需要一個更低的p值。

萊肯斯希望能將谷歌文檔中的討論變成論文發表，不過這一次事情沒有那麼順利。

丹尼爾·布拉福德（Daniel Bradford）是威斯康星大學麥迪遜分校的臨床心理學博士生。布拉福德十分高興能為論文出一份力，「我做了很久的統計學學生，也參過大量改良心理學實驗方法的討論。」不過他剛開始的時候懷疑這種共同寫作的方法行不通，「在我和僅僅五位作者共同完成論文的時候，都時常想如果人更少的話效率會更高。」

為了順利成文，萊肯斯從討論中提取了要點放在一個新的谷歌文檔裡作為論文的基礎。

「這份文檔的演變過程讓人難以置信，人們添加、刪除再添加，旁觀者又提出新的看法。這種模式奏效了。人們願意承擔特定工作，比如修改參考文獻、檢查段落和標點的問題。當我們不得不壓縮文章的時候，一些作者化身食人魚消滅掉了一切不必要的內容。」萊肯斯說。

雖然作者們精誠合作，但留給萊肯斯的任務還是很多——尤其是在萊肯斯需要完成常規工作的情況下。他只能利用空閒時間來完成任務，比如早上或者夜間。

「有那麼一瞬間我覺得我要瘋了。」萊肯斯說。

在論文完稿的過程中，有幾個參與者選擇了退出，部分原因是他們不同意論文中的部分內容。最終87個人同意成為論文的共同作者。

萊肯斯等人的論文建議完全丟棄「統計顯著性」的標籤。作為替代，研究者應該描述並解釋它們的實驗設計和數據處理方式，包括所選取的統計閾值。「有時候顯著性水平可以是0.05，有時候是0.005，或者是0.10。」萊肯斯說。

對於萊肯斯的觀點，主張修訂顯著性閾值的科學家們也有所回應。

原論文《重新定義統計顯著性》的第一作者是德克薩斯農工大學的瓦倫·詹森（Valen Johnson），他認為萊肯斯的方法行不通。「讓每篇論文的作者決定他們自己的顯著性水平是不可行的，」他在寫給《科學》的郵件中寫道，「理由很簡單，沒有足夠的資源對每個被提出的顯著性閾值進行詳細、公證的審查。」同時也不清楚「證明α的合理性」在實際中如何操作，論文的共同作者、阿姆斯特丹大學的埃裡克－簡·瓦根馬克斯（Eric-Jan Wagenmakers）補充道。

另一位重要的共同作者態度更為溫和。在維吉尼亞大學的心理學家布萊恩·諾塞克（Brian Nosek）看來，「萊肯斯那篇論文中傳達出的信息非常好，實際上不是對我們的論文的批判。」諾塞克說《重新定義統計顯著性》這篇論文傳達的關鍵信息非常有限：目前0.05的顯著性閾值讓人們高估了證據的可信度，如果要降低這一閾值，0.005是一個合理的替代值。

「其他對顯著性問題的建議，比如拋棄所有的顯著性檢驗、對所選取的α做出解釋、結合貝葉斯推論、更多的重複實驗等等，也都是非常不錯的改進。」諾塞克說。

這一場辯論還會繼續，不過地點可能不會是谷歌文檔了。谷歌文檔中發生的故事「令人驚嘆」但效率並不是很高，萊肯斯說，「當你的時間有限時，你不應該這麼做。」

「討論很激烈。我們確實因為無法取得統一的意見，放棄掉了一些論點。如果只有我一個作者，我會把那些加進去的。」萊肯斯補充說道。

看來關於統計顯著性，能討論的還有很多。而每一次討論，都可能是完善科學方法的星星之火。

轉載來源：果殼科學人

編譯：錦衣Reload

審校：vicko238、Ent

編譯來源：Science, Nearly 100 scientists spent 2 months on Google Docs to redefine the p-value. Here’s what they came up with.

排版：曉嵐

題圖來源：EMCrit

編輯：太陽騎士07

近期熱門文章Top10

↓ 點擊標題即可查看 ↓

1. 物理定律告訴你，天下有情人終將分手！

2. 裝物理學家很歡樂很沉重

3. 無孔不入的喝酒養生觀念，當真你就中計了

4. 物理學家辭掉NASA工作玩摺紙，竟被請回實驗室「折衛星」

5. 物理學最難的方程之一，解答獎金達100萬美元

6. 地球上最神奇的10種物質，你見過幾個？

7. 廣義相對論很難？幾分鐘帶你簡單入門！

8. 狗狗最討厭主人做的12件事，看到第幾個你中槍了？

9. 蜂巢的洞口為什麼是六邊形而不是圓形？| No.93

10. 我們發現一種『新型炸藥』，其原料就在你們剛包好的餃子裡 | 正經玩 SP

點此查看以往全部熱門文章

相關焦點

一篇要求重新定義P值界值的論文,炸起科學界百人論戰

（錦衣Reload/編譯，vicko238、Ent/校）72位學術大牛一起發了篇論文，引來87位作者署名的反駁論文。對於統計學上牽動人心的P值要多小才能算結果顯著，科學家們開始了一場大規模論戰，甚至用上了谷歌共享文檔。荷蘭埃因霍溫理工大學的心理學家丹尼爾·萊肯斯（Daniël Lakens）以心直口快聞名。
PLOS: P值焦慮會否顛覆整個科學界的可信度

p值操控(p-hacking)的普遍性和解決辦法最近刊載於PLOS one的一篇文章試圖更準確地去衡量這個問題。1. 什麼是p-hacking？熟悉零假設檢驗（Null hypothesis testing）的人都知道，研究人員總是在試圖發表否定null hypothesis的研究，來證明自己假設的正確。
這個數字,幾乎所有實驗室都在用,卻讓整個科學界陷入危機

近100年來，幾乎所有科學家在分析實驗數據時，都會用到p值這個工具：只有p小於0.05，才意味著實驗結果具有統計顯著性，才能在學術期刊上正式發表。但是，統計顯著性的概念以及支撐它的p值具有相當大的局限性。而正是這樣的缺陷，讓整個科學界都處於危機中。
這個數字幾乎所有實驗室都在用,卻讓科學界陷入危機

因此，菲舍爾的這一建議誕生了p小於0.05等價於所謂的統計顯著性，這成了「顯著」的數學定義。菲舍爾的遺憾近一個世紀之後，在科學研究的許多領域，p值小於0.05被認為是確定實驗數據可靠性的金標準。這個標準支持了大多數已發表的科學結論，違反這一標準的論文很難發表，而且也很難得到學術機構的資助。然而，即使是菲舍爾也明白，統計顯著性的概念以及支撐它的p值具有相當大的局限性。
科學界剛剛確定,重新定義千克單位(公斤),以後體重該這樣算了

「千克」來適應現在社會的精確要求。科學家為「大K」稱重因為它的變化，導致了誤差難以滿足現在的精確要求，所以重新定義千克被科學界提上了日程，而科學家們會在第普朗克常數的原理這裡就不介紹了，感興趣的可以查一下，反正用它計算出來的精度比起「大K」而言穩定至少100萬倍以上。那麼這個重新定義的千克對我們大家有什麼影響嗎？這個重新定義的千克它的作用大多用於科學研究，比如計算、製藥計算、氣候的變化等等科學研究方面，因為科學研究要求的精度很重要，所以把計量的單位精確到微克是很有必要的。
沿用還是棄用P值:還是讓它錦上添花吧!| BMC Journal

論文標題：Viewing 「p」 through the lens of
你真的懂p值嗎? 說人話的統計學

►辛辛苦苦做了實驗收了數據，正想大步邁向SCI高分文章，你是否不知數據分析該如何下手？ ►投出了文稿，卻等來了審稿人對統計方法似是而非的挑刺，你是否不清楚該如何應對？►別擔心，你不是一個人在戰鬥！►在本系列中，我們將和你一起，探討最實用、最關鍵的統計學知識和方法。我們將指出常見的統計學誤區和陷阱，回答那些你一直想問但不好意思問的問題。
JAMA:p值檢驗,你用對了嗎?

2016年3月18日訊 /生物谷BIOON/ --最近一篇關於p值檢驗的總數統計總結了1990至2015以來的多篇生物醫學文獻，發現被錯誤理解的統計數據越來越多，報導p值時沒有同時報導應效應量和置信區間指標。史丹福大學醫學院的研究人員做了一項針對數百萬計的期刊文章的研究統計。
p值誤我?——「貝葉斯因子」了解一下

特別歡迎認知心理、管理心理、工程心理、教育心理、社會心理、心理測量、醫學心理、心理衛生與諮詢、體育運動心理、文藝心理、司法心理及心理學在其他領域的運用等方面的論文。即日起，應用心理學雜誌社將對發表於《應用心理學》的優秀心理學研究論文進行推送，關注我們，你將獲得最新最棒的心理學研究動態！
九成以上研究者或無法正確理解p值

一項針對Science、Nature和PNAS三本頂級雜誌的調查表明，在過去的20年，出現在三本雜誌中的圖表仍高度、且越來越依賴於p值(Cristea & Ioannidis, 2018)。但是，如此常用的p值在統計學界和科學界其實褒貶不一。
統計︱P值-0.05就發表,不然就去死!

這兩種方法進行長期且痛苦的論戰。雖然Fisher的這一觀點同樣也遭到了現代統計學家的反對，但是他對現代假設檢驗的發展作出了巨大的貢獻。）Fisher的具體做法是：2.選擇一個檢驗統計量(例如z 統計量或Z 統計量) ，該統計量的分布在假定的參數取值為真時應該是完全已知的。
乾貨|統計學的P值危機

他們提出：「我們永遠不應該僅僅因為P值大於0.05之類的閾值而得出「沒有差異」或「沒有關聯」，或者等價，因為置信區間包括零。我們也不應該斷定兩項研究之間存在衝突，因為一項研究結果具有統計學意義，另一項則沒有。這些錯誤會浪費研究工作並誤導政策決策。」
800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話

【新智元導讀】統計顯著性和p值是衡量研究可靠性的重要標準。這個標準是怎麼來的？今年3月Nature上一篇主張廢除p值的文章，為何獲得800位科學家聯名支持？如果沒有p值門檻，研究質量會出現大滑坡嗎？戳右邊連結上新智元小程序了解更多！每年，全球有數百萬學生修讀統計學課程。隨著世界上的數據量越來越大，統計學已成為越來越受歡迎的話題。
循證|專題2:如何解讀循證醫學研究結果——P值的意義到底何在?

臨床意義是否具有顯著性，主要觀察的是結果效應的大小，而統計學意義是否具有顯著性，則主要觀察的是P值的大小。因此，P值成為了循證醫學中一項重要的臨床醫學結果指標，但是，隨著對循證研究及臨床實踐認識的逐步深入，學術界發現做出科學的論斷不能單純依靠P值。
「千克」瘦了,今天重新定義會不會影響你買菜

那麼為何要重新定義？是否會對普通生活產生影響？以及會對科學界產生怎樣的影響？對於這些疑問，李世松博士進行了詳細解答。砝碼「瘦了」一粒沙的重量促使科學家做決定「其實，想重新定義千克的想法科學界已思考很久了。」李世松說。早在1889年定義千克之時，計量學家們就擔心實物基準量值會隨時間而變。
「P值」背後那些不可不知的事兒

；⑥ 羅想起了費舍爾爺爺規定的 α = 0.05，（這個界限值的意思是說，根據約定俗稱的規定，在假設硬幣沒問題的情況下，得到不正常結果的概率最小為0.05還是可以接受的，可能真的是運氣不好）但是，現在p只有0.03125，這麼小概率的事怎麼可能發生呢？？？
美國宣布禁用p值,原來p值很危險,如何取代p值?

1月22日，美國政治學頂級學術期刊《政治分析》在他們的官方twitter上宣布從2018年的開始的第26輯起禁用p值。根據該刊的聲明，其主要原因是：「p值本身無法提供支持相關模式或假說之證據。」　　投影片上這些論點，大部分是說我們在傳統統計檢定的執行上，對 p 值有各種誤解跟誤用。現在很多人談到"p 值的危險"、"p 值的陷阱"、"p 值的誤用"、還有"p 值的誤解"。甚至有些學術期刊，也開始改變他們的編輯政策。像有本叫作 Basic and Applied Social Psychology 的心理學期刊，已經決定以後文章都不能使用 p 值，大家能夠想像嗎？
「千克」原器失準科學界更新定義

「千克」原器失準　科學界更新定義沈敏「1千克」多重？這一國際標準質量單位近130年來由一個小巧的鉑銥合金圓柱體定義。這一「國際千克原器」保存在法國首都巴黎西郊一間地下儲藏室內，擋不住歲月和汙染導致的細微變化，難以適應現代精密測量要求。全球數百名科學家定於16日匯聚巴黎西郊凡爾賽宮，參加第26屆國際計量大會，正式以一個物理常數定義「千克」，讓那塊外號「大K」的圓柱體退役。
p值、信賴區間為何被數百科學家連名反對?

正如標題所言這三位號召科學家放棄追求「統計學意義」，並且停止用統計學中常見的 p 值作為判斷標準。因為p 值可能會誤導科學決策首先明確必須停止的事：我們不應該僅僅因為 p 值大於某個臨界值，比如 0.05 或者因為零在信賴區間，而下結論說兩組之間「沒有差異」或者「沒有關聯」。
重新回答科玄論戰——科學的異化（一）

科學所帶來的成果已經造福於人類，三次科學技術革命就是最好的明證，我們身邊所發生的一切，包括通信工具所帶來的便捷，交通工具所帶來的方便，科學在近代社會發展中所起的作用在歷史上無出其右。所以，對於科學的異化我們要慎重對待，之於科玄論戰則是科學異化到一定程度之後所爆發出來的必然釋放，結果雖然是以馬克思主義為代表的知識分子所取勝，但是我們不應該只關注結果。更有甚者，我們應該冷靜下來重新思考科學的功過與科玄論戰之中所提出來的一些新穎的觀點與精闢的論述以及鞭辟入裡的深思。

一篇要求重新定義P值的論文,炸起科學界百人論戰

相關焦點

一篇要求重新定義P值界值的論文,炸起科學界百人論戰

PLOS: P值焦慮會否顛覆整個科學界的可信度

這個數字,幾乎所有實驗室都在用,卻讓整個科學界陷入危機

這個數字幾乎所有實驗室都在用,卻讓科學界陷入危機

科學界剛剛確定,重新定義千克單位(公斤),以後體重該這樣算了

沿用還是棄用P值:還是讓它錦上添花吧!| BMC Journal

你真的懂p值嗎? 說人話的統計學

JAMA:p值檢驗,你用對了嗎?

p值誤我?——「貝葉斯因子」了解一下

九成以上研究者或無法正確理解p值

統計︱P值-0.05就發表,不然就去死!

乾貨|統計學的P值危機

800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話

循證|專題2:如何解讀循證醫學研究結果——P值的意義到底何在?

「千克」瘦了,今天重新定義 會不會影響你買菜

「P值」背後那些不可不知的事兒

美國宣布禁用p值,原來p值很危險,如何取代p值?

「千克」原器失準 科學界更新定義

p值、信賴區間為何被數百科學家連名反對?

重新回答科玄論戰——科學的異化（一）

「千克」瘦了,今天重新定義會不會影響你買菜

「千克」原器失準科學界更新定義