統計學基礎遭質疑! p值、信賴區間為何被數百科學家連名反對?

2021-01-08 騰訊網

顯著性這一概念是支撐統計學發展的大廈。

統計學課本中寫到:沒有統計顯著性則不能「證明」零假設(關於兩組之間無差或者兩個實驗組和對照組的假設)。同時,統計顯著性也不「證明」其他假設。

三位統計學教授主張:反對統計學意義、停用 p 值為判斷標準。

近日Nature 雜誌發布了三位統計學家的一封公開信表示: 這種誤解用誇大的觀點扭曲了文獻,而且導致了一些研究之間的衝突。

註:這三位統計學家是:Valentin Amrhein,瑞士巴塞爾大學的動物學教授;Sander Greenland,加州大學洛杉磯分校的流行病學和統計學教授;Blake McShane,伊利諾州埃文斯頓西北大學的統計學方法學家和營銷學教授。

這篇公開信名為《科學家們起來反對統計學意義》(Scientists rise up against statistical significance)。 正如標題所言這三位號召科學家放棄追求「統計學意義」,並且停止用統計學中常見的 p 值作為判斷標準。

因為p 值可能會誤導科學決策

首先明確必須停止的事:我們不應該僅僅因為 p 值大於某個臨界值,比如 0.05 或者因為零在信賴區間,而下結論說兩組之間「沒有差異」或者「沒有關聯」。 也不應斷定,因為一個研究的假設檢驗的結果有統計顯著,而另一個假設檢驗沒有,因此這兩個研究存在衝突。 這些錯誤會浪費研究工作並誤導科學決策。

比如說,在一系列研究消炎藥的服用效果的研究中,因為這些研究的結果沒有呈現統計的顯著性,一些研究人員就下結論說服用這些藥物與新發的心房顫動(最常見的幹擾心跳頻率的症狀)沒有關聯,同時這一結果與那些早期呈現統計顯著的研究相悖。

我們不如一起來看看實際的數據。研究學者聲稱他們的沒有呈現統計顯著性的結果的風險比(相對危險程度:暴露組的發病率與未暴露組的發病率之比,用於說明前者是後者的多少倍)是1.2(服用藥物比沒有服用的風險高20%)。

他們還發現 95% 的信賴區間跨越了從微不足道的風險降低 3% 到非常顯著的風險增加 48%(p 值為 0.091)。 而對比前一組,聲稱結果呈現顯著性的研究,風險比也是 1.2。 他們的研究只是更加精確,風險間隔區間在 9% 到 33% 之間(p 值為 0.0003)。

沒有呈現統計顯著性的結果表示「沒有關聯」,而信賴區間卻包含一定程度上風險是非常可笑的。 同理,因此斷言這些結果是矛盾的但是結果卻相同(風險比都是 1.2)也是滑稽的。 但是這些習以為常的做法說明依賴於統計臨界值會誤導我們。

這些相似的錯誤到處都有:對數以百計的文章的調查已經發現,統計上不顯著的結果被解釋為表示「無差異」或「無影響」在一半左右。

800 位學者連名呼籲停止使用p 值定義假設

2016 年,美國統計協會(ASA)發布了一篇聲明警告那些不恰當的使用假設檢定和p 值的學者。這個月,nature 期刊發布了特刊試圖進一步推進這方面的改革,並刊登超過40 篇關於「21 世紀統計推斷:P

另一篇文章與幾十位籤署者呼籲作者和研究者停止使用這些詞語。 我們也同樣贊成這個號召,並呼籲這個統計概念被禁止。

我們並不是孤身一人,這個活動發起後, 在最初的24 小時已經有250 人籤下了名字。 一周以後,籤署者增加到了 800 位 ,這些籤名的人來自學術機構或者之前或現在從事著統計建模相關的領域。

除南極洲以外的各個洲的統計學家,臨床或藥物研究人員,生物學家,心理學家也都籤下了名字。 一名宣導者稱,這是「對統計意義輕率測試的外科手術式打擊」,也是「一個為更好的科學實踐發聲的機會」。

統計學家並非全盤否定p 值,而是保留偏差性

同時,三位統計學家也強調, 我們並不禁止p 值的使用,也沒有說 p 值不能在某些領域當做決策標準,比如決定生產過程符合某些品質控制標準。 我們也不提倡什麼都可以,不可信的證據突然變可信。 我們僅僅只是提議在常規的,二分法的情況下不用 P 值來決定一個結果是否反駁一個科學假設。

問題不是出在於統計,而在於人類和認知: 將結果分為「統計顯著」和「統計不顯著」讓人以為這種方式的分類的結果或者項目是完全不同的。 任何提出的涉及二分法的統計替代方案都可能出現同樣的問題,無論是頻率論,貝葉斯方法還是其他的方法。

不幸的是,科學家和期刊編輯們錯誤地認為,超過統計意義的臨界值就足以證明一個結果是「真實的」,這導致他們對這類結果給給了特權,從而扭曲了研究結果。 統計上有意義的估計值在大小上向上偏倚,而且可能偏差的幅度很大,而統計上不顯著的估計值是向下偏倚的。

因此, 任何側重於為其重要性選擇的估計的討論都會有偏差 。除此之外,對統計學意義的嚴格關注鼓勵研究人員選擇數據和方法,這些數據和方法對某些期望的(或簡單可發布的)結果產生統計學意義,或者對不希望的結果產生統計學上的無意義,例如潛在的副作用。

預先登記研究和承諾公布所有分析的所有結果可以減輕這些問題。 然而,也可能會因分析計劃中始終存在的決定而產生偏見。 即使是出於好意,這也會發生。

「兼容區間」取代p 值和信賴區間,接受不確定性

同樣, 我們並不主張放棄P 值,信賴區間或其他統計措施,只是我們不應該武斷對待它們。 包括統計上的二分法,以及基於其他統計測量(例如貝葉斯因素)的分類。

避免這種「二分法」的一個原因是所有的統計數據,包括P 值和信賴區間,在各個研究之間自然會有所不同,並且差異通常會達到令人驚訝的程度。 事實上,單獨的隨機變化很容易導致 P 值的大幅度波動,遠遠超 過 0.05 閾值的任何一側。

例如,即使研究人員可以對一些真實效應進行兩次完美的複製研究,每次都有80% 的力量(偶然性)達到P 0.30 就不足為奇了。 無論 P 值是小還是大,都需要謹慎。

我們必須學會接受不確定性。 一種實用的方法是將信賴區間重命名為「兼容區間」,並以避免過度自信的方式解釋它們。 具體而言,我們建議作者描述區間內所有值的實際含義,尤其是觀察到的效應(或點估計)和上下限。

在這樣做時,他們應該記住,在給定用於計算區間的統計假設的情況下,區間上下限之間的所有值都與數據合理地兼容。 因此,在區間中挑出一個特定值(例如空值)為「顯示」是沒有意義的。

我們厭倦了在演示文稿,研究文章,評論和教學材料中看到這種荒謬的「無效證明」和非關聯主張。 包含空值的區間通常還包含具有高實用重要性的非空值。 也就是說,如果你認為區間內的所有值實際上並不重要,那麼你可能會說「我們的結果非常具有兼容性,但重要性並不高」。

「兼容區間」四大應用,讓推論超出統計決定論

在談論兼容性區間時,請記住四件事。 首先,給定假設的條件下,僅僅因為區間給出了與數據最兼容的值是不恰當的,因為這並不 意味著它之外的值是不兼容的;其他值只是兼容性較差。 實際上,區間之外的值與區間內的值沒有實質性差異。 因此聲稱區間顯示了所有可能的值是錯誤的。

其次,根據假設,並非所有內部值都與數據同等兼容。 點估計是最兼容的,其附近的值比接近上下限的值更兼容。 這就是為什麼我們敦促作者討論點估計,即使它們具有較大的 P 值或較寬的區間,以及討論該區間的上下限。

例如,上述作者可能寫道:與以前的研究一樣,我們的研究結果表明,給給抗炎藥物的患者新發房顫的風險增加了20%。 儘管如此,根據我們的假設,風險差異從 3% 增加 20% 和從 48% 增加 20%,影響顯然是不一樣的,也與我們的數據合理地兼容。 解釋點估計,同時承認其不確定性 ,將阻止你做出「無差異」的虛假結論,並避免過度自信的論斷。

第三,與它來自的0.05 閾值一樣,用於計算區間的默認95% 本身就是一種任意約定。 計算的區間本身有 95% 的可能性包含真值是錯誤的,再加上模糊的感覺,這是一個信賴區間決定的基礎。 根據應用,可以證明不同的信賴水準是合理的。 並且,如在抗炎藥物實例中,當它們施加的二分法被視為科學標準時,區間估計可以使統計顯著性的問題永久存在。

最後,最重要的是要保持謙虛: 兼容性評估取決於用於計算區間的統計假設的正確性。實際上,這些假設充其量只有很大的不確定性。儘可能清楚地做出這些假設並測試你可以做的假設,例如搭建數據並擬合替代模型,然後報告所有結果。

無論統計數據顯示什麼,都可以提出可能的原因,但應當討論所有潛在的解釋,而不僅僅是有利的解釋。 推論應該是科學的,並且遠遠超出統計。背景證據,研究設計,數據品質和對潛在機制的理解等因素通常比統計指標(如 P 值或區間)更重要。

統計學退休,是盼統計方法和數據清單更加周全

我們聽到的讓統計學退休的觀點是,我們必須做出是或否的決定。但對於監管,政策和商業環境中經常需要做出的選擇,往往是基於所有潛在後果的成本、收益和可能性的決策,而不是僅基於統計顯著性的決策。此外,對於是否進一步追求研究思想的決定,P 值與後續研究的可能結果之間不是簡單的聯繫。

讓統計學退休意義是什麼呢?我們希望統計方法和數據清單更加詳細和細緻。作者應該強調他們的估計和不確定性。 例如,明確地討論它們的區間的下限和上限。這不會依賴重要性測試。

當報告P 值時,它們將以合理的精度給出(例如,P = 0.021 或P = 0.13),沒有星形或字母之類的裝飾來表示統計顯著性而不是二元不等式(P 0.05)。 解釋或發布結果的決定不會基於統計閾值。人們花在統計軟體上的時間會更少,而且更多的時間在思考。

我們要求停止濫用統計學意義,信賴區間作為兼容性區間並不是靈丹妙藥。 雖然信賴區間會消除許多不良做法,但它很可能會引入新的做法。 因此,監測文獻中的統計濫用應該是科學界的一個優先事項。

但是,當原始和複製研究的結果高度兼容時,根除分類將有助於制止過度自信的主張,無差別的「無差異」聲明以及關於「複製失敗」的荒謬聲明。

濫用統計意義對科學界和依賴科學建議的人造成了很大的傷害。 P 值、區間和其他統計測量都有它們的作用,但現在是統計意義真正引起大家注意的時候了。

相關焦點

  • Nature評論:800名科學家聯名反對統計學意義,放棄P值「決定論」
    這篇公開信名為《科學家們起來反對統計學意義》(Scientists rise up against statistical significance)。正如標題所言這三位號召科學家放棄追求「統計學意義」,並且停止用統計學中常見的P值作為判斷標準。
  • 800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話
    【新智元導讀】統計顯著性和p值是衡量研究可靠性的重要標準。這個標準是怎麼來的?今年3月Nature上一篇主張廢除p值的文章,為何獲得800位科學家聯名支持?如果沒有p值門檻,研究質量會出現大滑坡嗎?戳右邊連結上 新智元小程序 了解更多!每年,全球有數百萬學生修讀統計學課程。隨著世界上的數據量越來越大,統計學已成為越來越受歡迎的話題。
  • 大學統計學白上了?800多科學家聯名反對「統計學意義」,P值該廢了
    統計學上無顯著的結果並不能「證明」零假設;統計上顯著的結果也沒有「證明」某些其他假設。事實真的是這樣嗎?他們的這篇文章名為《科學家們起來反對統計學意義》(Scientists rise up against statistical significance)。
  • 乾貨|統計學的P值危機
    A、P值經常被誤解,統計的顯著性不等於實際的顯著性。今年3月份Nature發表了三個統計學家的一封公開信《科學家們起來反對統計學意義》(Scientists rise up against statistical significance),標題如戰鬥檄文令人振奮。
  • 二、統計檢驗與p值
    所以在統計學上,假設都是以「無罪假設」出現,稱之為零假設(null hypothesis),假設是關於總體參數的論斷,而零假設總是「無罪「論斷,如沒有差別,沒有效果,沒有變化,沒有關係等,而備擇假設總是」有罪「論斷。我們以零假設為基礎,計算概率(p值),做出統計推斷。如果p值小於閾值,則拒絕零假設,接受備擇假設。
  • 大學統計學白讀了?科學家聯名反對「統計學意義」
    統計學上無顯著的結果並不能「證明」零假設;統計上顯著的結果也沒有「證明」某些其他假設。事實真的是這樣嗎?他們的這篇文章名為《科學家們起來反對統計學意義》。在文章發出不到24小時,就有250多人籤名支持,一周之內吸引了超過800名研究人員共同反對。大學裡好不容易聽懂的統計學,會變成一件沒「意義」的事情嗎?為什麼要放棄統計學意義的概念?
  • 醫學統計學基礎概念:P值與可信區間
    首先,我們先要明確P值中的P意指probability,即概率。根據美國統計協會2016年的定義,P值是指在一個特定的統計模型下,從樣本數據計算出的估計值(如兩組間樣本均數差)等於觀測值或比觀測值更為極端的概率(Wasserstein, 2016)。讀到這裡,或許讀者就會更疑惑這到底是什麼意思?讓我們用上文案例做進一步解釋,上文已經提及。
  • StatQuest生物統計學 - 線性擬合的R2和p值
    R2是擬合所能解釋的數據波動的比例p值是擬合只是隨機變異的可能性大小上一節StatQuest生物統計學 - 擬合基礎已經講過線性擬合
  • 當統計學遇上大數據——P值消亡
    有一天,我走進統計學的神殿 ,將所有謊言都裝進原假設的盒子裡,        「P值為零」,        一個聲音傳來,        「但你已經不能再拒絕,因為,P值已經死了」
  • P值之死|當統計學遇上大數據
    由於擔心實驗結果陷入再現性爭論,莫兄和他的導師決定重複實驗,但是,在添加了新的數據之後,P值變成了0.59,這連0.05的顯著性水平都沒有達到!傷心絕望的莫老兄知道,他觀察的心理學效應站不住腳了,一同破滅的,還有那顆年少成名的美麗夢想。
  • 統計學中的P值與顯著性的意義
    一、P值是什麼?
  • 你真的懂p值嗎? 說人話的統計學
    ►辛辛苦苦做了實驗收了數據,正想大步邁向SCI高分文章,你是否不知數據分析該如何下手? ►投出了文稿,卻等來了審稿人對統計方法似是而非的挑刺,你是否不清楚該如何應對?►別擔心,你不是一個人在戰鬥!►在本系列中,我們將和你一起,探討最實用、最關鍵的統計學知識和方法。我們將指出常見的統計學誤區和陷阱,回答那些你一直想問但不好意思問的問題。
  • 統計學常用概念|T檢驗、F檢驗、卡方檢驗、P值、自由度
    專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯 是總體中各變量關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變量關聯有5%的可能是由於偶然性造成 的。即假設總體中任意變量間均無關聯,我們重複類似實驗,會發現約20個實驗中有一個實驗,我們所研究的變量關聯將等於或強於我們的實驗結果。
  • 美國宣布禁用p值,原來p值很危險,如何取代p值?
    今天談的當然是不一樣的題目,雖然它是一個很重要、很嚴肅的題目,但我希望大家可以輕鬆一點,所以也要放兩部電影片段給大家看,一部是《玉蘭花》,另一部則是《班傑明的奇幻旅程》,這兩部電影都有助於我們來了解今天要談論的主題:p 值的陷阱。  科學的統計學危機:p 值有什麼問題?  為什麼要談論 p 值的問題?
  • 【統計學】讓人糾結的P值
    關於統計學的爭議最多的就是P值,就是這個大寫斜體的P值。無數文章曾經都寫過這個「無效假設檢驗」話題。無效假設檢驗是統計學的基本原理和基石,是指根據於某種實際需要,對未知的或不完全知道的統計總體提出一些假設。然後由樣本的實際結果,經過一定的計算,作出在概率意義上應當接受那種假設的測驗。一般的描述是,你假設兩組處理是不同的,然後用檢測數據進行統計學計算(經常說分析)。
  • 概率的意義:隨機世界與大數法則
    但統計裡,除非做些限制,否則常無定於一尊的方法。對不可測的未來,我們常要做估計,統計在這方面,能扮演很好的角色。諸如銅板出現正面的概率,及病人的存活率等,皆能估計。但有時覺得以一個值估計,雖然明確,但估計值很難恰好等於真實值,一翻兩瞪眼,常估計不準。信賴區間的概念,因而產生。
  • 【論p】ASA關於統計意義和P值的聲明
    許多發表的科學結論是以p值這個指標評估的「統計學意義」概念為支撐的。雖然p值是一個有用的統計學測度,但它普遍地被錯誤使用和錯誤解釋。這已經導致某些科學雜誌不鼓勵使用p值,某些科學家建議廢棄它,自從引入p值以來某些爭論就基本上沒有變過。在這個背景下,美國統計學會(ASA)相信,以一個正式的聲明來澄清關於正確使用和解釋p值的若干廣泛贊同的原則,可以使科學界從中得益。
  • 九成以上研究者或無法正確理解p值
    況且,由於p 值會因研究設計和操作的不同自然而言地有一定差異,這就意味著在不同的實驗中p值本就沒有可比性。鑑於以上種種理由,執科學發表之牛耳的自然雜誌(Nature),2018年發表了一篇800多位科學家聯合署名的反對濫用統計顯著性的評論文章。
  • 【p值之爭】史丹福大學陸教授有話說
    觀察到的p-值是個統計量,也就是統計觀測值。自身有方差。有時看著p值很小,置信區間卻很寬。但所有的替代方案都會存在同樣的問題。所以p值是評價隨機影響的重要指標,是必要條件之一。但不是充分條件。只用p值決定科研成果是對p值的錯誤使用。醫生不會用一個指標去診斷疾病」。「臨床意義在先,統計學意義在後。無臨床意義的研究不需要統計驗證。」
  • JAMA:p值檢驗,你用對了嗎?
    2016年3月18日 訊 /生物谷BIOON/ --最近一篇關於p值檢驗的總數統計總結了1990至2015以來的多篇生物醫學文獻,發現被錯誤理解的統計數據越來越多,報導p值時沒有同時報導應效應量和置信區間指標。史丹福大學醫學院的研究人員做了一項針對數百萬計的期刊文章的研究統計。