大學統計學白上了?800多科學家聯名反對「統計學意義」,P值該廢了

2021-02-18 經管世界

你,和經濟,密不可分。

讀中國經濟,關注經管世界

【考研】2019年考研調劑信息匯總,持續更新中……

三位統計學家在Nature上發布公開信,號召科學家放棄追求「統計學意義」,這封公開信一周之內吸引了超過800名研究人員共同籤署。大學裡好不容易聽懂的統計學,會變成一件沒「意義」的事情嗎?

最新一期Nature雜誌發表了三位統計學家的一封公開信,他們號召科學家放棄追求「統計學意義」,並且停止用統計學中常見的P值作為判斷標準。

一般認為P≤0.05或者P≤0.01就有顯著性差異,研究就有統計意義。

統計學上無顯著的結果並不能「證明」零假設;統計上顯著的結果也沒有「證明」某些其他假設。事實真的是這樣嗎?

他們的這篇文章名為《科學家們起來反對統計學意義》(Scientists rise up against statistical significance)。

標題猶如戰鬥檄文一樣令人振奮。在文章發出不到24小時,就有250多人籤名支持,一周之內吸引了超過800名研究人員共同反對。

大學裡好不容易聽懂的統計學,會變成一件沒「意義」的事情嗎?

為什麼要放棄統計學意義的概念?

幾代人以來,研究人員一直被警告說:統計上不顯著的結果並不能「證明」零假設(即假設各組之間沒有差異,或者某個處理方法對某些測量結果沒有影響)。統計上顯著的結果也不能「證明」其他一些假設。這種誤解用誇大的觀點扭曲了文獻,而且導致了一些研究之間的衝突。

因此,三位統計學家提出一些建議,讓科學家們不至於成為這些誤解的犧牲品。

首先明確必須停止的事:永遠不應該僅僅因為P值大於閾值(如0.05)就得出「沒有差異」或「沒有關聯」的結論;或者,僅僅因為置信區間包含0就得出這樣的結論。

同時,我們也不應該斷定兩項研究之間存在衝突,只因為其中一項研究的結果具有統計學意義,而另一項則沒有。這些錯誤浪費了研究工作,誤導了政策決策。

例如,考慮一系列對消炎藥意外效果的分析。由於他們的研究結果在統計學上不顯著,一組研究人員得出結論說:暴露在這些藥物中與新發房顫(最常見的心律紊亂)「無關」,並且這些結果與之前的一項研究結果相反,而之前的研究結果具有統計學意義。

現在,讓我們看看實際的數據。研究人員描述了他們的統計不顯著的結果,發現風險比為1.2。他們還發現95%的置信區間跨越了從微不足道的風險降低3%到非常顯著的風險增加48%(P = 0.091)。研究人員從較早的具有統計學意義的研究中發現,風險比同樣為1.2。這項研究更加精確,其風險區間在9%到33%之間(P = 0.0003)。

當區間估計包含嚴重的風險增加時,得出結論認為統計上不顯著的結果顯示「無關聯」是荒謬的;同樣荒謬的是,聲稱這些結果與先前研究中顯示相同觀察效果的結果相反。然而,這些常見的實踐表明,依賴統計意義上的閾值會誤導我們。

謹防錯誤結論

這些錯誤以及類似的錯誤普遍存在。對數百篇文章的調查發現,統計上不顯著的結果被解釋為「沒有差異」或「沒有影響」的約有一半。

2016年,美國統計協會在《美國統計學家》上發表聲明,警告誤用統計意義和P值。本月,《美國統計學家》雜誌又發表了40多篇關於「21世紀的統計推斷:一個沒有P<0.05的世界」的論文。編輯們在介紹這期特刊的時候謹慎地說,「不要說』統計意義重大』」。

《美國統計學家》雜誌最新報導

三位統計學家也同意這一點,並呼籲放棄整個統計意義的概念。

這三位統計學家寫完《科學家們起來反對統計學意義》(Scientists rise up against statistical significance)一文草稿之後,邀請了其他人閱讀,並表示如果人們同意三人的觀點,就籤上自己的名字。

沒想到這篇文章得到了諸多人的贊同,在最初的24小時內,就有250人籤了名。一星期後,共收到800多份籤名,籤名者包括來自50多個國家的統計學家、臨床和醫學研究人員、生物學家和心理學家,除南極洲沒人以外,所有大洲都有人籤名。

一名倡導者稱,這是「對統計意義輕率測試的外科手術式打擊」,也是「一個為更好的科學實踐發聲的機會」。

同時,三位統計學家也強調,他們不是在呼籲禁止P值。不是說P值不能在某些特定的應用程式中用作決策標準,而是他們與過去幾十年的許多其他研究結果一樣,呼籲停止以傳統的二分法使用P值——來決定結果是反駁還是支持一項科學假設。

避免這種「二分法」的一個原因是,所有的統計數據,包括P值和置信區間,都會隨著研究的不同而自然地發生變化,並且往往變化非常大。事實上,單憑隨機變化就能很容易導致P值的巨大差異,遠遠不止落在0.05閾值的任何一側。例如,即使研究人員可以對一些真實的效果進行兩次完美的複製研究,每次都有80%的機會達到P < 0.05,那麼其中一個得到P < 0.01,另一個得到P > 0.30也就不足為奇了。無論P值是大是小,都需要謹慎。

問題不在於統計,而在於人和認知:把結果分成「統計顯著性」和「統計非顯著性」,讓人們認為以這種方式分配的項目是截然不同的。同樣的問題也可能出現在任何涉及二分法的統計替代方法中,無論是頻域法、貝葉斯法還是其他方法。

不幸的是,科學家和期刊編輯們錯誤地認為,超過統計意義的臨界值就足以證明一個結果是「真實的」,這導致他們對這類結果給予了特權,從而扭曲了文獻。統計上有意義的估計值在大小上向上偏倚,而且可能偏差的幅度很大,而統計上不顯著的估計值是向下偏倚的。

因此,任何側重於統計學意義的估計的討論都是有偏見的。最重要的是,對統計意義的嚴格關注鼓勵研究人員選擇一些數據和方法,這些數據和方法對於某些期望的結果具有統計顯著性(或者僅僅是可發表的),或者對於不期望的結果沒有統計顯著性,例如藥物的潛在副作用,從而使結論無效。

預先登記研究和承諾公布所有分析的所有結果可以大大減輕這些問題。然而,即使是預先登記的研究結果也可能因分析計劃中始終未作決定而產生偏差。即使是出於好意,這也會發生。

Nature在2014年的一篇文章中,討論了P值並不像許多科學家所假設的那樣可靠,當時文章引起了業界很大反響,由此引發了後來美國統計協會在2016年警告濫用統計意義和P值。

如果研究人員確實放棄了統計學意義,他們應該做些什麼呢?

三位統計學家認為:我們必須學會接受不確定性。

一種實用的方法是將置信區間重新命名為「兼容區間」(compatibility intervals),並以避免過度自信的方式解釋它們。具體地說,建議作者描述區間內所有值的實際含義,特別是觀察到的效果和極限。在這樣做時,他們應該記住,考慮到用來計算區間的統計假設,區間極限之間的所有值都與數據合理地兼容。因此,在區間中挑出一個特定的值(例如null值)沒有任何意義。

當談到兼容間隔時,請記住四件事:

首先,僅僅因為區間給出了與數據最相容的值,在給定假設條件下,並不意味著區間外的值是不相容的;它們只是兼容性較差。事實上,區間外的值與區間內的值沒有本質上的區別。因此,說區間表示所有可能的值是錯誤的。

其次,根據假設,並不是所有的值都與數據一致。點估計值(point estimate)是最兼容的,接近它的值比接近極限的值更兼容。這就是為什麼我們敦促作者討論點估計,即使他們有一個大的P值或一個大的區間,以及討論該區間的極限。

第三,與0.05的閾值一樣,用於計算區間的默認95%本身也是一種任意約定。它基於這樣一種錯誤的想法,即計算出的區間本身有95%的機率包含真實值,同時還有一種模糊的感覺,即這是一個自信決策的基礎。根據應用程式的不同,可以調整不同的級別。而且,就像在抗炎藥物的例子中一樣,如果把區間估計施加的二分法當作一種科學標準來對待,區間估計可能會使統計顯著性的問題長期存在。

最後,也是最重要的一點,要謙虛:兼容性評估取決於用於計算區間的統計假設的正確性。在實踐中,這些假設受制於相當大的不確定性。使這些假設儘可能清晰,並測試你可以測試的假設,例如通過繪製數據並擬合替代模型,然後報告所有結果。

無論統計數據顯示什麼,都可以為你的結果提出理由,但要討論一系列可能的解釋,而不僅僅是你喜歡的那些。推論應該是科學的,而不僅僅是統計的。背景證據、研究設計、數據質量和對潛在機制的理解等因素往往比P值或區間等統計度量更重要。

同時,三位統計學家呼籲消除統計意義,並將置信區間作為兼容性區間,這並不是萬靈藥。儘管它將消除許多不好的實踐,但它很可能引入新的問題。因此,監測文獻中的統計濫用應該是科學界目前的一項優先事項。

但是,當原始研究和複製研究的結果高度一致時,消除分類將有助於阻止過分自信的斷言、「沒有區別」的不合理聲明和關於「複製失敗」的荒謬聲明。濫用統計意義對科學界和那些依賴科學建議的人造成了很大的危害。P值、區間和其他統計度量都有它們的位置,但現在是統計意義消失的時候了。

這也並不意味著大學的統計學白上了。研究人員可以從教育自己對統計的誤解開始,最重要的是在每項研究中從多個角度考慮不確定性。從邏輯、背景知識和實驗設計應與P值和類似指標一起考慮,以得出結論並確定其確定性。

在確定使用哪種方法時,研究人員還應儘可能地關注實際問題。對於使用統計數據的最佳方式而言,在抽象理論上給予否定的人,在提出具體情景時,往往會給予肯定的結果。

簡而言之,要持懷疑態度,選擇一個好問題,並嘗試以多種方式回答它。畢竟,接近事實需要很多數字。

最後,介紹一下這三位統計學家。

Valentin Amrhein,瑞士巴塞爾大學的動物學教授;

Sander Greenland,加州大學洛杉磯分校的流行病學和統計學教授;

Blake McShane,伊利諾州埃文斯頓西北大學的統計學方法學家和營銷學教授。

Nature文章地址:https://www.nature.com/articles/d41586-019-00857-9?from=singlemessage&isappinstalled=0#ref-CR4

參考連結:https://www.nature.com/articles/d41586-019-00874-8

來源:新智元譯自Nature

【遇見·愛】經管世界公益交友平臺-人工智慧匹配

經管世界【ID:ourxueshu】

  經管世界公眾號由大數據與金融團隊創建,所有推送文章通過人工智慧選取。

100萬+經管人的選擇。

  同時作為資源共享平臺,我們為廣大用戶整理了計量統計軟體和資料,方便大家學習。回復Google(打開Google、Google學術方法)、Office、Stata、MATLAB、Eviews、SPSS、SAS、Python、時間序列、CFA、CPA、超盤手、股票等關鍵字,即可免費獲取最新軟體、視頻資料等!

  另外,團隊開發了翻譯、最新電影、笑話、顏值測試、藝術籤名設計、公益徵婚交友平臺、星座運勢、短網址、英語閱讀等功能,回復相應關鍵字即可,歡迎體驗。要做就做唯一的公眾號^_^

微信改版後,為了避免錯過精彩推送

強烈建議大家將我們設為【星標】

點擊閱讀原文」查看最新考研調劑信息^_^

相關焦點

  • 統計學白上了?Nature:800名科學家聯名反對統計學意義,放棄P值「決定論」
    從左到右依次為:Valentin Amrhein,Blake McShane,Sander Greenland這篇公開信名為《科學家們起來反對統計學意義》(Scientists rise up against
  • 800名科學家聯名反對統計學意義,放棄P值「決定論」!
    註:這三位統計學家是:Valentin Amrhein,瑞士巴塞爾大學的動物學教授;Sander Greenland,加州大學洛杉磯分校的流行病學和統計學教授;Blake McShane,伊利諾州埃文斯頓西北大學的統計學方法學家和營銷學教授。
  • 800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話
    【新智元導讀】統計顯著性和p值是衡量研究可靠性的重要標準。這個標準是怎麼來的?今年3月Nature上一篇主張廢除p值的文章,為何獲得800位科學家聯名支持?如果沒有p值門檻,研究質量會出現大滑坡嗎?戳右邊連結上 新智元小程序 了解更多!每年,全球有數百萬學生修讀統計學課程。隨著世界上的數據量越來越大,統計學已成為越來越受歡迎的話題。
  • 乾貨|統計學的P值危機
    A、P值經常被誤解,統計的顯著性不等於實際的顯著性。今年3月份Nature發表了三個統計學家的一封公開信《科學家們起來反對統計學意義》(Scientists rise up against statistical significance),標題如戰鬥檄文令人振奮。
  • 大學裡好不容易聽懂的統計學,會變成一件沒「意義」的事情嗎?
    三位統計學家在Nature上發布公開信,號召科學家放棄追求「統計學意義」,這封公開信一周之內吸引了超過800名研究人員共同籤署。大學裡好不容易聽懂的統計學,會變成一件沒「意義」的事情嗎? 統計學白學了?
  • 怎樣理解p=0.06的統計學意義?
    長青藤: 美國北卡羅萊納大學前心理學系主任曾明確說過,「marginally significantly的意義就相當於NOT significant。」如果作者拿marginally significantly p=0.06作為統計學意義的證據說事,那麼0.07行不行?如果0.07行,0.1行不行?
  • 怎樣理解 p=0.06 的統計學意義?
    長青藤: 美國北卡羅萊納大學前心理學系主任曾明確說過,「marginally significantly的意義就相當於NOT significant。」如果作者拿marginally significantly p=0.06作為統計學意義的證據說事,那麼0.07行不行?如果0.07行,0.1行不行?
  • 統計學中一直提到的P值究竟是什麼?
    本文轉載自:統計網結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變量關聯有5%的可能是由於偶然性造成的。即假設總體中任意變量間均無關聯。
  • 你真的懂p值嗎? 說人話的統計學
    由於只拋了5次,不可能得到比5次更多的正面了,因此在這個例子裡不存在比樣本「更極端的結果」。►那麼,什麼是「與樣本相同」的結果?這取決於藍精靈是否對這枚鋼蹦兒偏向某一邊有特定的假設。藍精靈想起,格格巫提出的辦法是如果反面就由他搞衛生,那就應該沒有鋼蹦兒偏向反面的可能性。所以他認為,要是這塊鋼蹦兒不均勻,就只可能偏向正面。在這種情況下,「與樣本相同的結果」就只有5次正面這一種。
  • 當統計學遇上大數據——P值消亡
    「破滅的年少成名之夢」        話說,維吉尼亞大學有一位意氣風發俊朗不凡的博士研究生莫德爾。我要是能計算出這個概率,就知道「這個樣本來自該總體」這件事有多靠譜了,如果概率太小,就認為是不靠譜的事情,那麼就可以認定這個假設是錯的。這就是假設檢驗裡的「小概率事件原理」,這個概率就是後來風靡學術界的「P值」,一般認為概率小於5%,就是不靠譜的事情,則需要拒絕原假設。
  • 統計學需要一場變革
    這本書的書名在當時看起來並不會「暢銷」,但實際上這本書卻取得了巨大的成功,而且還使菲舍爾成為現代統計學之父。在這本書中,他著眼於研究人員如何將統計檢驗理論應用於實際數據,以便基於數據得出他們所發現的結論。當使用某個統計假設來做檢驗時,該檢驗能夠概述數據與其假設的模型之間的兼容性,並生成一個p值。
  • 搞定統計學必知:P值、T檢驗、卡方檢驗、假設檢驗……
    結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。
  • 統計學指標P值還可信嗎?
    統計學指標P值還可信嗎? 統計作為研究方法,是許多科研結果能成立的關鍵,統計中的計算好掌握,然而統計方法的概念卻有許多陷阱,一不小心就會踏入泥沼而不可自拔。
  • 【論p】ASA關於統計意義和P值的聲明
    許多發表的科學結論是以p值這個指標評估的「統計學意義」概念為支撐的。雖然p值是一個有用的統計學測度,但它普遍地被錯誤使用和錯誤解釋。這已經導致某些科學雜誌不鼓勵使用p值,某些科學家建議廢棄它,自從引入p值以來某些爭論就基本上沒有變過。在這個背景下,美國統計學會(ASA)相信,以一個正式的聲明來澄清關於正確使用和解釋p值的若干廣泛贊同的原則,可以使科學界從中得益。
  • 【愛上統計學】看科學家是如何使用被叫做「統計學」的工具的
    現在給我幾分鐘的時間向你展示一些非常成功的科學家如何使用被廣泛使用的叫做統計學的工具。米歇爾·蘭普爾是艾莫裡大學的兒科專家和人類學家。她和朋友喝咖啡的時候,朋友談到她的孩子長得多麼多麼的快。實際上,這個初為人母的朋友幾乎是說她的兒子「像野草一樣瘋長。」蘭普爾博士十分的好奇(像所有的科學家對事物感到好奇一樣),她想她應該實際測量這個孩子以及其他孩子在嬰兒期的生長速度。
  • 當統計學遇上大數據——P值消亡 | 網際網路數據資訊網-199IT | 中文...
    「破滅的年少成名之夢」        話說,維吉尼亞大學有一位意氣風發俊朗不凡的博士研究生莫德爾。我要是能計算出這個概率,就知道「這個樣本來自該總體」這件事有多靠譜了,如果概率太小,就認為是不靠譜的事情,那麼就可以認定這個假設是錯的。這就是假設檢驗裡的「小概率事件原理」,這個概率就是後來風靡學術界的「P值」,一般認為概率小於5%,就是不靠譜的事情,則需要拒絕原假設。
  • 統計學公開課大盤點
    2.2 可汗學院公開課:統計學 這門課是統計學入門課程,將涵蓋統計學所有的主要知識,包括:隨機變量、均值方差標準差、統計圖表、概率密度、二項分布、泊松分布、正態分布、大數定律、中心極限定理、樣本和抽樣分布、參數估計、置信區間、伯努利分布、假設檢驗和p值、方差分析、回歸分析等內容。
  • 統計學常用概念|T檢驗、F檢驗、卡方檢驗、P值、自由度
    F值和t值就是這些統計檢定值,與它們相對應的概率分布,就是F分布和t分布。統計顯著性(sig)就是出現目前樣本這結果的機率。2,統計學意義(P值或sig值) 結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯 是總體中各變量關聯的可靠指標。
  • 統計中重要的檢驗:T檢驗、F檢驗及其統計學意義
    F值和t值就是這些統計檢定值,與它們相對應的概率分布,就是F分布和t分布。統計顯著性(sig)就是出現目前樣本這結果的機率。結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變量關聯有5%的可能是由於偶然性造成的。即假設總體中任意變量間均無關聯,我們重複類似實驗,會發現約20個實驗中有一個實驗,我們所研究的變量關聯將等於或強於我們的實驗結果。
  • 統計學知識闖關
    第4關:統計學意義(P值) 答:結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,P值為結果可信程度的一個遞減指標,P值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。P值是將觀察結果認為有效即具有總體代表性的犯錯概率。