800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話

2020-11-29 新智元

【新智元導讀】統計顯著性和p值是衡量研究可靠性的重要標準。這個標準是怎麼來的?今年3月Nature上一篇主張廢除p值的文章,為何獲得800位科學家聯名支持?如果沒有p值門檻,研究質量會出現大滑坡嗎?戳右邊連結上 新智元小程序 了解更多!

每年,全球有數百萬學生修讀統計學課程。隨著世界上的數據量越來越大,統計學已成為越來越受歡迎的話題。如果大多數學生都從這門課中記住一點,那可能就是「統計顯著性」和「p值」的概念。

這兩個概念通常用於量化研究結果是否是偶然發生的問題。例如,某公司想要衡量兩個不同廣告投放到Facebook上的影響。他們發現,一個廣告吸引了10%的用戶點擊,而另一個廣告吸引了8%。為了弄清楚這種差異是確有意義,還是偶然發生,就可能會進行統計學測試,看看結果是否「顯著」。如果發現這種產生這種差異的可能性為5%或更低,則判定為偶然,否則認為這個差異確有意義。通常,很多商業和醫學上的決策都是基於這個「5%原則」制定的。

「統計顯著」和p值的起源:從「建議」到「金標準」

「顯著」一詞最早見於19世紀80年代,英國經濟學家和統計學家弗朗西斯·埃奇沃思(Francis Edgeworth)在統計檢驗中首次使用該詞。據統計學家格倫·謝弗(Glenn Shafer)稱,當時使用這個詞的方式與今天不同。Edgeworth討論了這個詞有多大機率「標誌」了有意義的差異。當時Edgeworth將一項發現稱為「可能顯著的」或「一定顯著的」。

1925 年,英國遺傳學家、統計學家羅納德·菲舍爾(Ronald Fisher)出版《研究者的統計方法》(Statistical Methods for Research Workers)一書。這本書奠定了他現代統計學之父的地位。他在書中著重講到研究人員應如何將統計檢驗理論應用於實際數據,以便基於數據得出他們所發現的結論。當使用某個統計假設來做檢驗時,該檢驗能夠概述數據與其假設的模型之間的兼容性,並生成一個p值

菲舍爾建議,為方便起見,可以考慮將p值設為0.05。對於這一點,他專門論述道:「在判斷某個偏差是否應該被認為是顯著的時候,將這一閾值作為判斷標準是很方便的。」他還建議,p值低於該閾值的結論是可靠的,因此不要把時間花在大於該閾值的統計結論上。菲舍爾的這一建議被越來越多的人所接受,p<0.05逐漸與「統計顯著性」畫上了等號,成為「顯著」的數學定義。

到20世紀中葉,研究人員開始稱某項結果「高度顯著」或「幾乎不顯著」。「顯著」一詞變得更像是建議,而不是判斷。後來,統計顯著性和p值由於標準明確、計算方便逐漸成為衡量科學研究可靠性的重要標準。

Nature發文:是時候放棄「統計顯著性」了!獲800人籤名支持

今年3月,學者Valentin Amrhein,Sander Greenland和Blake McShane提出,如果沒有這個概念可能會更好。他們希望「統計學顯著」這個概念應該退出歷史舞臺,他們的觀點得到很多人的支持。他們在《自然》期刊上撰文,要求將「統計顯著」這個詞從統計學中去掉,此文獲得800多位學者的籤名支持,其中不乏量化和統計學領域的重要人物。

他們的這篇文章名為《科學家們起來反對統計學意義》(Scientists rise up against statistical significance)。

標題猶如戰鬥檄文一樣令人振奮。在文章發出不到24小時,就有250多人籤名支持,一周之內吸引了超過800名研究人員共同反對。

大學裡好不容易聽懂的統計學,會變成一件沒「意義」的事情嗎?

為什麼要放棄統計學顯著性的概念?

幾代人以來,研究人員一直被警告說:統計上不顯著的結果並不能「證明」零假設(即假設各組之間沒有差異,或者某個處理方法對某些測量結果沒有影響)。統計上顯著的結果也不能「證明」其他一些假設。這種誤解用誇大的觀點扭曲了文獻,而且導致了一些研究之間的衝突。

三位統計學家提出一些建議,讓科學家們不至於成為這些誤解的犧牲品。

首先明確必須停止的事:永遠不應該僅僅因為P值大於閾值(如0.05)就得出「沒有差異」或「沒有關聯」的結論;或者,僅僅因為置信區間包含0就得出這樣的結論。

同時,我們也不應該斷定兩項研究之間存在衝突,只因為其中一項研究的結果具有統計學意義,而另一項則沒有。這些錯誤浪費了研究工作,誤導了政策決策。

當區間估計包含嚴重的風險增加時,得出結論認為統計上不顯著的結果顯示「無關聯」是荒謬的;同樣荒謬的是,聲稱這些結果與先前研究中顯示相同觀察效果的結果相反。然而,這些常見的實踐表明,依賴統計意義上的閾值會誤導我們。

這些錯誤以及類似的錯誤普遍存在。對數百篇文章的調查發現,統計上不顯著的結果被解釋為「沒有差異」或「沒有影響」的約有一半。

Amrhein,Greenland和McShane認為,基於規則的思維是「統計顯著性」的最大問題。他們認為:「麻煩是人為的和認知層面的,而不是統計學上的:將結果分類為'統計顯著'和'統計不顯著',使人們認為以這種方式劃分的對象屬於不同類別。」

這種對「統計顯著性」的二元化標準的嚴重依賴,可能導致對醫學和社會科學新發現的真實性信心不足甚至喪失。

造成這個問題的重要原因是,統計顯著性的重要性被過分誇大。2015年,可重複性危機項目(現為開放科學中心)開展了一項實驗,對100篇重要的社會心理學論文進行了重複性檢驗,結果發現只有36.1%的論文的結論可以被重複出來。2018年,社會科學可重複性項目評估了《自然》與《科學》在2010年至2015年間發表的21項社會科學實驗研究的可重複性。他們發現,與原研究相比,其中只有13項研究中(約佔總研究的62%)的重複實驗產生了顯著結果。

研究人員不應考慮結果是否「統計顯著性」,而是應該對結果進行成本效益分析,因為微不足道的結果可能仍然有用。比如實驗性抗癌藥物與安慰劑之間的差異為陽性,但達不到統計學顯著的標準,這時將該藥物提供給某些患者仍然是值得的,尤其是藥效獲得強理論支持的情況下。也就是說,應該根據結果有用的可能性來討論結果,而不是看是否滿足一些統計閾值。

反對意見:放棄p值,「無可辯駁的廢話」將充斥期刊

不過,並非所有人都認為應該取消「統計顯著性」的概念和p值。統計學家、史丹福大學教授約翰·約阿尼迪斯(John Ioannidis)就是其中之一。他曾對Nature這篇文章表達了明確的質疑,並撰文總結了與該文作者Sander Greenland和Blake McShane的商榷內容。他認為,設立一定的門檻是有必要的,如果沒有「統計顯著性」作為界限,那麼幾乎任何結果都可能會發表,「無可辯駁的廢話」將會佔據統治地位。」

「放棄統計學意義」真的是個好主意嗎?John Ioannidis列舉了他對Nature那篇引發大討論的文章的不同意見:

1. Natue文章的陳述(以下簡稱「陳述」):統計上顯著的結果也不能「證明」其他一些假設。這種誤解用誇大的觀點歪曲了文獻,而且導致了一些研究之間的衝突。

該陳述的誤導性在於:完全刪除「統計學意義」將使任何人都可以對任何結果作出任何誇大的說明。如果刪除了統計學意義,也可能有助於在研究之間確實存在衝突時聲稱不存在衝突。

2. 陳述:讓我們明確什麼是必須停止的事情:我們不應該僅僅因為P值大於閾值(如0.05)就得出「沒有差異」或「沒有關聯」的結論;或者,僅僅因為置信區間包含0就得出這樣的結論。

該陳述的誤導性在於:在大多數科學領域,我們需要得出結論,然後傳達我們對結論的不確定性。對於如何得出結論,明確的、預先規定的規則是必要的。否則,任何人都可以一句自己的奇想得出任何結論。在許多情況下,使用足夠嚴格的p值閾值(例如,對於許多學科而言為p = 0.005)是非常有意義的。我們需要做出一些謹慎的選擇,然後繼續前進。嚴格地說,說任何和所有的聯繫都不能被100%排除是正確的,但實際上這是無稽之談。如果廢除了p值,科學將陷入癱瘓,因為我們不能排除所有可能導致任何事情的可能性。

3. 陳述:有XX%的論文將統計上不顯著的結果解釋為「沒有差異」

該陳述的誤導性在於:在許多/大多數/所有的情況下,這可能都是完全恰當的,我們必須仔細檢查每個case。剩下的100-XX%中的一些/許多沒有被解釋為「沒有差異」,這可能至少是不恰當的。

4. 陳述:編輯們在介紹這期特刊的時候謹慎地說,「不要說』統計意義重大』」。另一篇數十人署名的文章呼籲作者和期刊編輯否認這些言論。我們同意並呼籲放棄統計意義的整個概念。我們並不是要放棄p值,而是呼籲停止以傳統的二分法使用P值——來決定結果是反駁還是支持一項科學假設。

誤導性在於:我認為在討論關於科學方法的議題時呼籲「籤名」是不恰當的。我們確實需要在大多數情況下非黑則白地得出結論:這種基因變異是否會導致抑鬱?我應該花10億美元來開發基於這一途徑的治療方法嗎?這種治療是否有效?汙染物是否會致癌?

5. 陳述:例如,得到P = 0.03和P = 0.06之間的差異與一次均勻拋硬幣得到正面和反面之間的差異相同。

誤導性在於:這個例子事實上是錯誤的;只有在我們確定其影響確實是非空的情況下才成立。

6. 陳述:一種實用的方法是將置信區間重新命名為「兼容區間」(compatibility intervals)……

誤導性在於:在當前的混亂局面下,還要添加一個新的、特殊的術語嗎?「兼容」甚至是一個糟糕的選擇,可能比「置信」更糟糕。由於存在偏差,結果可能是完全錯誤的。如果存在偏差,X% CI(無論C代表什麼)可能在很多情況下甚至都不包含真值。

7. 陳述:我們建議作者描述區間內所有值的實際含義,特別是觀察到的效果和極限。

誤導性在於:我認為,更重要的是考慮可能存在哪些偏差,哪個偏差可能導致整個區間偏離,並因此與事實不符。

8. 陳述:與0.05的閾值一樣,用於計算區間的默認95%本身也是一種任意約定。

誤導性在於:確實如此,但這意味著更合適的P值閾值和X%CI區間是更可取的,這些需要預先仔細確定。否則,如果都事後確定,研究者的任何先入之見都是可以「支持」的。

9. 陳述:諸如背景證據、研究設計、數據質量和對潛在機制的理解等因素往往比P值或區間等統計度量更重要。

誤導性在於:雖然聽起來很合理,所有這些因素都很重要,但大多數因素通常都是主觀的。相反,統計分析至少具有一定的客觀性。如果在收集數據和運行分析之前仔細設置規則,那麼基於某些閾值(p值、Bayes因子、FDR或其他)的統計指導可能是有用的。否則,統計推斷也變成了完全是事後的、主觀的。

10.陳述:我們聽到的反對放棄統計學意義的意見最多的是,科學研究需要做出是或否的決定。但是,對於監管、政策和業務環境中經常需要做的選擇,基於成本、收益和所有潛在後果的可能性來做決策總是勝過僅基於統計顯著性做的決策。此外,對於是否進一步做某個研究的決定,p值與後續研究的可能結果之間沒有簡單的聯繫。

誤導性在於:這種說法等同於無稽之談。確實,在大多數情況下需要作出是/否的決定,這就是為什麼刪除統計學意義無濟於事。它會導致「一切皆有可能」的情況。對於需要做出決定的問題,研究設計需要提前(儘可能提前)考慮所有其他參數,並設置一些預先指定的規則,確定哪些是「成功」/可操作的結果,哪些不是。這可以基於p值、貝葉斯因子、FDR或其他閾值或其他函數。但遊戲需要一些規則才能公平。否則,我們將陷入比現在更混亂的局面,因為主觀解釋已經比比皆是了。例如,任何公司都可以聲稱其產品的任何試驗結果確實支持其申請專利。John Ioannidis教授總結道:Nature的這篇評論基於一種潛在的信念,即在統計學p值之外,還存在無數真實、重要的影響,而我們錯誤地忽略了它們。但主要問題恰恰相反:有無數關於關聯和影響的謬論,一旦發表,就很難擺脫。三位統計學家呼籲放棄「統計學意義」,將使那些試圖通過篡改統計數據來作弊的人非常高興,因為現在他們根本不用擔心統計數據了。完全擺脫統計學意義和預設的、經過仔細考慮的閾值,有可能使謬論變得無可辯駁。

總的來看,目前關於「統計顯著性」的根深蒂固的想法還不會很快消失。統計顯著性對於定量分析仍然非常重要,目前,美國統計協會和英國皇家統計協會的官方期刊都以這個詞(Significance)命名。

參考連結:

https://qz.com/638059/many-scientific-truths-are-in-fact-false/

https://www.nature.com/articles/d41586-019-00857-9?from=singlemessage&isappinstalled=0#ref-CR4

https://statmodeling.stat.columbia.edu/2019/03/20/retire-statistical-significance-the-discussion/

https://qz.com/1729049/the-origins-of-the-concept-of-statistical-significance/

相關焦點

  • Nature評論:800名科學家聯名反對統計學意義,放棄P值「決定論」
    普遍的問題 首先明確必須停止的事:我們不應該僅僅因為p值大於某個臨界值,比如0.05或者因為零在置信區間,而下結論說兩組之間『沒有差異』或者『沒有關聯』。也不應斷定,因為一個研究的假設檢驗的結果有統計顯著,而另一個假設檢驗沒有,因此這兩個研究存在衝突。這些錯誤會浪費研究工作並誤導科學決策。
  • JAMA:p值檢驗,你用對了嗎?
    2016年3月18日 訊 /生物谷BIOON/ --最近一篇關於p值檢驗的總數統計總結了1990至2015以來的多篇生物醫學文獻,發現被錯誤理解的統計數據越來越多,報導p值時沒有同時報導應效應量和置信區間指標。史丹福大學醫學院的研究人員做了一項針對數百萬計的期刊文章的研究統計。
  • P值不滿意的時候,科研小白和嚴謹的科學家都會咋辦?​
    ,科研小白和嚴謹的科學家都會咋辦?媒體報導Nature發布的反對P值這麼折磨你的,也在折磨其他科學家,這不有800科學家聯名要求廢除P值。「什麼玩意兒,憑啥非要小於那個零點零幾?」比他小就是比他小,要啥P值?吃飽的撐的?捍衛P值的另外一幫人存在即合理,P值出現是有一定意義的。如果P值被廢除,論文裡將充滿無法被證偽的廢話。
  • 【p值之爭】史丹福大學陸教授有話說
    Halsey 等 [4] 在 Nature Methods 最近發表的自文章中討論到:「人們在使用 p 值時往往沒有意識到,在大多數情況下,一個研究的統計功效太低以至於 p 值無益餘數據解釋。研究人員如果放棄用 p 值而使用替代的統計方法來解釋數據會做的更好。」
  • 九成以上研究者或無法正確理解p值
    況且,由於p 值會因研究設計和操作的不同自然而言地有一定差異,這就意味著在不同的實驗中p值本就沒有可比性。鑑於以上種種理由,執科學發表之牛耳的自然雜誌(Nature),2018年發表了一篇800多位科學家聯合署名的反對濫用統計顯著性的評論文章。
  • p值、信賴區間為何被數百科學家連名反對?
    統計學課本中寫到:沒有統計顯著性則不能「證明」零假設(關於兩組之間無差或者兩個實驗組和對照組的假設)。同時,統計顯著性也不「證明」其他假設。三位統計學教授主張:反對統計學意義、停用 p 值為判斷標準。近日Nature 雜誌發布了三位統計學家的一封公開信表示: 這種誤解用誇大的觀點扭曲了文獻,而且導致了一些研究之間的衝突。
  • 美國宣布禁用p值,原來p值很危險,如何取代p值?
    小編今天為大家介紹美國德州大學奧斯汀校區政府系林澤民教授2016/6/6在臺灣政大社科院的演講,題目為《看電影學統計:p值的陷阱》。  院長、陳老師,各位老師、各位同學,今天很榮幸能夠到政大來,和大家分享一個十分重要的課題。
  • 驚爆| p值不是什麼?【連載3】
    點擊查看 【引言】昨日轉載美國德州大學奧斯汀校區政府系林澤民教授2016年在臺灣政大社科院的演講《看電影學統計:p值的陷阱》,他首先講的p值是什麼?今天刊出的是p值不是什麼?由於這部分的文字比較長,將分三期刊出。
  • 被Nature科學家封殺的P值,到底有什麼意義?
    Valentin Amrhein,加州大學洛杉磯分校的流行病學的統計學教授Sander Greenland,伊利諾州埃文斯頓西北大學的統計學方法學家和營銷學教授Blake McShane。因此,我決定講清楚p值是什麼,以及如何將它們用於假設檢驗,以期有助於你更加直觀透徹地理解p值,顯然我們不能跳過對其他相關概念和p值定義的基本理解,但我保證會以一種直觀的方式進行解釋,而不是直接向你扔去一堆技術術語。
  • 800多科學家聯名反對「統計學意義」,P值該廢了
    在文章發出不到24小時,就有250多人籤名支持,一周之內吸引了超過800名研究人員共同反對。大學裡好不容易聽懂的統計學,會變成一件沒「意義」的事情嗎?為什麼要放棄統計學意義的概念?幾代人以來,研究人員一直被警告說:統計上不顯著的結果並不能「證明」零假設(即假設各組之間沒有差異,或者某個處理方法對某些測量結果沒有影響)。
  • 給數據科學家直白解釋P值的含義
    最近,有人問我如何向外行人簡單地解釋 p 值。我發現這很難做到。即使對了解 p 值的人,解釋 p 值總是一個令人頭疼的問題,更不用說對不懂統計學的人了。我去維基百科找了一些東西,這是它的定義:在統計假設檢驗中,對於給定的統計模型,p 值或概率值是在原假設為真時,統計值(如兩組間的樣本均值差)與實際觀察結果相等或更大的概率。
  • 一篇要求重新定義P值界值的論文,炸起科學界百人論戰
    再者,他說,「當科學如此多樣化的時候,為什麼要限制一個單一的p值標準?」 他和他的同事們在今年年初也投遞了一篇針鋒相對的論文,被《自然-人類行為》接受。與眾不同的是,這篇文章是全世界上百位科學家在谷歌文檔裡共同寫出來的。什麼是p值?P值是一個非常難掌握的概念。
  • 數據造假新手段「P值黑客」
    如今,在科學研究中,出現了比學術欺詐更令人擔憂發指的行為——P值黑客(P-hacking)。「P值黑客」是指操作科學數據,從而使結果看上去具有統計學意義的行為。這個詞最早由賓夕法尼亞大學的西蒙松教授提出,一起來看看他是怎麼說的:Professor Uri Simonsohn of UPenn discussed what he refers to as "p-hacking."
  • 二、統計檢驗與p值
    所以在統計學上,假設都是以「無罪假設」出現,稱之為零假設(null hypothesis),假設是關於總體參數的論斷,而零假設總是「無罪「論斷,如沒有差別,沒有效果,沒有變化,沒有關係等,而備擇假設總是」有罪「論斷。我們以零假設為基礎,計算概率(p值),做出統計推斷。如果p值小於閾值,則拒絕零假設,接受備擇假設。
  • 乾貨|統計學的P值危機
    A、P值經常被誤解,統計的顯著性不等於實際的顯著性。今年3月份Nature發表了三個統計學家的一封公開信《科學家們起來反對統計學意義》(Scientists rise up against statistical significance),標題如戰鬥檄文令人振奮。
  • 「P值」背後那些不可不知的事兒
    於是,她悄悄地跑到一邊先拋了5次做測試,結果傻眼了,5次全部都是正面朝上......賈的陰謀終於沒有得逞。最近,小昌在看了一篇文章後,對R²和p值對於模型擬合好壞判斷有了新的認知。大家也可以看看這篇文章是如何「現身說R²和p」的:《Lung Microbiota is Related to Smoking Status and to Development of ARDS in Critically Ill Trauma Patients》。
  • 【統計】p值和FDR
    那麼我們通常所說的p值的計算公式可以簡單寫成:p值衡量的是一個原本應該是𝐻0的判斷被錯誤認為是𝐻1(𝑟𝑒𝑗𝑒𝑐𝑡𝐻0)的比例,所以它是針對單次統計推斷的一個置信度評估。從另一個方向理解,在假設𝐻0成立的前提下,即先假設「兩組沒有差異」,比較兩組的差值,如果差值符合正態分布,p值越小,說明「兩組沒有差異」的概率越小,通常情況下,當p值小於0.05時,認為是小概率事件,即「兩組沒有差異」「幾乎不可能發生。我們接受𝐻1,「兩組有明顯差異」,就是我們經常在論文裡看到的陽性結果。
  • 隨手學統計:繞不過的 p 值
    原假設:我們認為品茶女士沒有品茶能力觀察結果:品茶女士把 8 杯茶都品了出來p 值:0.014這裡 p 值代表的含義是:如果品茶女士沒有品茶能力,那麼她品出 8 杯茶的概率是0.014。對,這個 p 值(概率)很小很小!
  • 假設檢驗:使用p值來接受或拒絕你的假設
    假設檢驗的定義假設是關於參數值(均值、方差、中值等)的陳述、假設或主張。假設是對你周圍世界的某件事的有根據的猜測。它應該可以通過實驗或觀察來測試。它與原假設相反,替代假設和原假設一起覆蓋了總體參數的所有可能值。用H1表示。讓我們用一個例子來理解這一點:一家肥皂公司聲稱他們的產品平均殺死99%的細菌。為了檢驗這家公司的主張,我們將提出零和替代假設。
  • 統計學中的P值與顯著性的意義
    一、P值是什麼?