【論p】ASA關於統計意義和P值的聲明

2020-11-29 健康界

我行我show!中國醫院管理案例評選,醫院卓越管理實踐大秀場。

點擊查看

近些年,科學研究的日益定量化和大型複雜數據集的激增擴充了統計學方法應用的範圍。它創造了科學進步的新途徑,但也帶來對從研究數據提取結論的關注。科研結論的真實性,包括其可再現性,不僅僅取決於統計學方法。合適地選擇技術、恰當地進行分析以及正確解釋統計結論,在保證結論正確和確切表達結果的不確定性上也起了關鍵作用。許多發表的科學結論是以p值這個指標評估的「統計學意義」概念為支撐的。雖然p值是一個有用的統計學測度,但它普遍地被錯誤使用和錯誤解釋。這已經導致某些科學雜誌不鼓勵使用p值,某些科學家建議廢棄它,自從引入p值以來某些爭論就基本上沒有變過。在這個背景下,美國統計學會(ASA)相信,以一個正式的聲明來澄清關於正確使用和解釋p值的若干廣泛贊同的原則,可以使科學界從中得益。這裡提及的內容不僅影響科研,而且也影響研究基金、雜誌工作、職業發展、科學教育、公共政策、新聞和法律。這個聲明並不想解決與合理統計實踐有關的所有問題,也不想平息基本爭議。而是借這個聲明以非技術的語言,按照統計學界的廣泛共識,闡明若干原則,有助於改善定量科學的實施或解釋。

什麼是p值?

非正式而言,p值是在一個特定統計模型之下,數據(例如,兩個比較組樣本均數之差)的一個統計學概括,等於其觀察值或取更極端值的概率。

原  則

1.p值可以表明數據和特定統計模型之間如何不相容。

p值提供一個辦法來概括一個特定數據集和為其建議的一個模型之間的不相容性。最常見的情形是在一組假定之下構建的一個模型和一個所謂的「零假設」。零假設常常是效應不存在,諸如兩組之間無差異,或者一個因素和一個結局之間無關係。如果用以計算p值的基本假定成立,p值越小,數據和零假設之間不相容性越大。這個不相容性可以解釋為質疑或提供證據反對零假設或基本假定。

2.p值並不度量研究假設為真的概率,或者數據純系隨機產生的概率。

研究者常常希望把p值放到關於零假設為真,或者觀察數據系隨機產生的敘述中。p值並非如此。它描述數據和特定假設之間的關係,而不是描述假設本身。

3.科學結論和商務或政策決定不可以僅僅基於一個p值是否通過特定的閾值。

將數據分析或科學推斷簡化為機械的「一刀切」裁定(諸如「p<005」),這樣來證明科學論斷或結論會導致錯誤的信念和糟糕的決策。在「一刀切」的一側,結論立即是「正確」,在另一側,立即是「錯誤」。研究者作科學推斷時必須考慮許多因素,包括研究的設計、測量的品質、所研究現象的外部證據,以及數據分析背後的假定是否成立。實踐固然常要求二擇一,作「yesno」決定,但是,並不意味單靠p值就能保證一個決定正確與否。將廣泛使用的「統計學意義」(通常解釋為「p≤0.05」)作為宣布一個科學發現(或真理)的合格證會導致科學過程相當大的歪曲。

4.正確恰當的推斷要求完整的報告和透明度

p值和有關的分析決不可選擇性地報告。數據作了多重分析,卻只報告特定部分的p值(一般報告通過了閾值的那些)會使得所報告的p值根本不可解釋。專挑有前途的發現,又稱為數據捕撈、意義追逐、意義尋覓、選擇性推斷和「p黑客」,導致已發表文獻中虛假的、過度統計學意義的結果,必須嚴格避免。人們一定不要正規地實施多重統計檢驗而產生這個問題:每當研究者基於根據統計結果選擇報告什麼,如果不告訴讀者如何選擇及其偏倚,那些結果的解釋必是嚴重歪曲不實的。研究者必須公開研究階段被探索假設的個數、所有數據收集的決策、實施過的所有統計分析和計算過的所有p值。至少要知道進行了多少分析和什麼分析以及怎樣選擇某些分析(包括p值)來報告,才能基於p值和相關的統計量作出真實的結論。

5.p值或統計學意義並不度量效應的大小或結果的重要性。

統計學意義並不等價於科學、人類或經濟意義。較小的p值不一定意味較大或較重要效應的出現,較大的p值不一定意味缺乏重要性或沒有效應。任何效應,不論多小,如果樣本量足夠大或測量精度足夠高,總能產生一個小的p值;如果樣本量小或測量不精確,大的效應也可能產生不起眼的p值。類似地,如果估計的精度不同,同一個被估計的效應將有不同的p值。

6.p值本身並不對模型或假設提供一個好的度量

研究者必須知道,沒有背景或其他證據,p值提供的信息是有限的。例如,一個接近0.05的p值本身只是反對零假設的微弱證據。類似地,一個相對大的p值並不意味證據有利於零假設;許多其他的假設可能和觀察到的數據同樣或者更加一致。由於這些原因,當其他方法適宜和可行時,數據分析決不可止於一個p值的計算。

其他方法

鑑於出現p值的錯誤使用和錯誤概念,有些統計學家願意以其他方法補充甚至取代p值。包括比檢驗更強調估計,諸如置信區間、可信區間或預測區間;貝葉斯方法;證據的其他測度,諸如似然比或貝葉斯因子;以及其他途徑,諸如決策理論模型和錯誤發現率。所有這些測度和方法依賴於更多假定,但它們較多直接關注效應的大小(及其連帶的不確定性)或假設是否正確。

結  論

好的統計實踐,作為好的科學實踐的基本成分,強調好的研究設計和實施原則,數據的多種數值和圖形概括、理解所研究的現象、結果的全面和完整的報告,以及正確邏輯和定量地理解數據概括意味什麼。沒有任何單一的指標可以取代科學推理。

【注】美國統計協會(American Statistical Association,簡稱ASA),是全美最主要的為統計學以及相關專業所設立的組織機構。其於1839年11月27日於麻薩諸塞州波士頓成立。

【譯者】:方積乾 教授,1961年獲復旦大學數學學士學位,1982年至1985年在加利福尼亞大學伯克利分校,師從蔣慶琅教授,研究生命現象的隨機過程模型,獲生物統計學博士。1985年在北京醫科大學由講師直接提升為教授。1991年任中山醫科大學公共衛生學院教授、主任、博士導師。國際生物統計學會中國組負責人;中國衛生統計學會副會長、廣東省衛生統計學會會長。曾在英國肯特大學、澳大利亞國立大學講學,1993以來,任香港中文大學兼職教授。

相關焦點

  • 【論p】ASA關於P值的聲明:背景、過程和目的
    統計學界已經深度關注科學結論的可重現性和可重複性問題。我們觀察到,不深入這些術語的定義和區別,許多混淆甚至懷疑科學的真實性正在發生。這樣的懷疑會導致激進的選擇,諸如Basic and Applied Social Psychology的編輯們竟決定廢棄P值(零假設意義檢驗)(Trafimow and Marks,2015)。
  • 美國統計協會關於統計顯著性和p值的說明
    研究者往往希望將P值⽤於描述零假設成⽴的具體真實性有多⼤,或者是在隨機抽樣中抽取到觀察數值的實際可能性是多少,但是P值與⼆者都相去甚遠。事實上,P值是關於我們如何去解釋特定假設的數據,⽽不是對這⼀假設的解釋本⾝。(3)科學的結論和政策的制定不可以僅僅基於p值是否通過特定的閾值。
  • 【統計】p值和FDR
    那麼我們通常所說的p值的計算公式可以簡單寫成:p值衡量的是一個原本應該是𝐻0的判斷被錯誤認為是𝐻1(𝑟𝑒𝑗𝑒𝑐𝑡𝐻0)的比例,所以它是針對單次統計推斷的一個置信度評估。從另一個方向理解,在假設𝐻0成立的前提下,即先假設「兩組沒有差異」,比較兩組的差值,如果差值符合正態分布,p值越小,說明「兩組沒有差異」的概率越小,通常情況下,當p值小於0.05時,認為是小概率事件,即「兩組沒有差異」「幾乎不可能發生。我們接受𝐻1,「兩組有明顯差異」,就是我們經常在論文裡看到的陽性結果。
  • 統計︱P值-0.05就發表,不然就去死!
    對於外行人很少聽過的一個科學術語產生憤怒,這事聽起來可能很瘋狂,但它的結果意義重大。對於p值的誤用會導致不良的科學風氣與成果(對於這一點大家沒有異議)。對一些科學領域逐漸增長的擔憂,催生了這份一致聲明。p值在一些領域已經成了決定研究論文是否值得出版的試金石。
  • 美國宣布禁用p值,原來p值很危險,如何取代p值?
    根據該刊的聲明,其主要原因是:「p值本身無法提供支持相關模式或假說之證據。」小編今天為大家介紹美國德州大學奧斯汀校區政府系林澤民教授2016/6/6在臺灣政大社科院的演講,題目為《看電影學統計:p值的陷阱》。  院長、陳老師,各位老師、各位同學,今天很榮幸能夠到政大來,和大家分享一個十分重要的課題。
  • 隨手學統計:繞不過的 p 值
    當 p<0.05 時,統計結果蘊藏著怎樣的玄機?歡迎走進今天的「隨手學統計」,丁香調查帶你認識這個繞不過的 p 值。首先,毋庸置疑,p 值是個概率。其真實的含義是當假設情形為真時,出現超出假設中的極端觀察結果的概率。還沒完全看懂這個定義是在說什麼?
  • 二、統計檢驗與p值
    所以在統計學上,假設都是以「無罪假設」出現,稱之為零假設(null hypothesis),假設是關於總體參數的論斷,而零假設總是「無罪「論斷,如沒有差別,沒有效果,沒有變化,沒有關係等,而備擇假設總是」有罪「論斷。我們以零假設為基礎,計算概率(p值),做出統計推斷。如果p值小於閾值,則拒絕零假設,接受備擇假設。
  • 驚爆| p值不是什麼?【連載3】
    [注1]」中國藥業人若想「不畏浮雲遮望眼[注2]」,除了提升自己的思維和理念,還有其他辦法嗎?統計學,不好學!接來下的文字很「專業」,敬請硬著頭皮往下看。【續昨】p值不是什麼?我本來放這部電影都是為了在教學上解釋 p 值的概念,可是後來當我注意到對於 p 值的爭議之後,覺得其實這一部電影也可以用來幫我們了解為什麼用 p 值來做統計推論有可能是錯的。
  • 被Nature科學家封殺的P值,到底有什麼意義?
    P值在潛移默化地影響著我們的生活,那麼有沒有想過我們所依賴的P值到底可靠嗎?P值的表面意義是,當原假設為真時,檢驗統計量出現某不應該值所需的概率;而其實際意義則是,只需多小的概率就能出現拒絕原假設的檢驗統計值。
  • Nature評論:800名科學家聯名反對統計學意義,放棄P值「決定論」
    但是這些習以為常的做法說明依賴於統計臨界值會誤導我們。 這些相似的錯誤到處都有:對數以百計的文章的調查已經發現,統計上不顯著的結果被解釋為表示「無差異」或「無影響」在一半左右。 2016年,美國統計協會(ASA)發布了一篇聲明警告那些不恰當的使用假設檢定和p值的學者。
  • JAMA:p值檢驗,你用對了嗎?
    2016年3月18日 訊 /生物谷BIOON/ --最近一篇關於p值檢驗的總數統計總結了1990至2015以來的多篇生物醫學文獻,發現被錯誤理解的統計數據越來越多,報導p值時沒有同時報導應效應量和置信區間指標。史丹福大學醫學院的研究人員做了一項針對數百萬計的期刊文章的研究統計。
  • 怎樣理解 p=0.06 的統計學意義?
    統計學問題一直是個充滿爭議和討論空間的話題。下面長青藤編輯與大家分享的是,由P=0.06引發的一場關於marginal association的討論。
  • 怎樣理解p=0.06的統計學意義?
    統計學問題一直是個充滿爭議和討論空間的話題。下面長青藤編輯與大家分享的是,由P=0.06引發的一場關於marginal association的討論。
  • 統計學中的P值與顯著性的意義
    一、P值是什麼?
  • 800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話
    【新智元導讀】統計顯著性和p值是衡量研究可靠性的重要標準。這個標準是怎麼來的?今年3月Nature上一篇主張廢除p值的文章,為何獲得800位科學家聯名支持?如果沒有p值門檻,研究質量會出現大滑坡嗎?戳右邊連結上 新智元小程序 了解更多!每年,全球有數百萬學生修讀統計學課程。隨著世界上的數據量越來越大,統計學已成為越來越受歡迎的話題。
  • 驚爆| 只要是樣本研究 p值不能少【連載5】
    在等待明天推送的【論p】《中醫藥專家有話說》之前,敬請您還是先「硬著頭皮」把林老師的「偽陽性反機率」統計學「掃盲」讀完。至此,我們的【驚爆】系列將轉為【論p】,更多觀點交鋒,為君呈現,敬請關注!【續昨】偽陽性反機率的問題現在要詳細討論影響偽陽性反機率的因素,就是影響到「統計檢定是顯著的條件之下,虛無假設為真」這一個機率的因素。
  • p值、信賴區間為何被數百科學家連名反對?
    統計學課本中寫到:沒有統計顯著性則不能「證明」零假設(關於兩組之間無差或者兩個實驗組和對照組的假設)。同時,統計顯著性也不「證明」其他假設。三位統計學教授主張:反對統計學意義、停用 p 值為判斷標準。近日Nature 雜誌發布了三位統計學家的一封公開信表示: 這種誤解用誇大的觀點扭曲了文獻,而且導致了一些研究之間的衝突。
  • 【論p】藥企研發主管們有話說
    點擊查看 【L立津】關於p值的「爭論」我認為很有意義。科學研究應當鼓勵百家爭鳴,當然,不急於發聲也是一種科學態度吧?就p值而言,我在想,統計學意義也好,臨床意義也罷,我們需要面對的一個變化是「大數據」「大樣本量」的時代變化……。
  • 九成以上研究者或無法正確理解p值
    但除了這些和p值所依賴的原假設檢驗原理直接相關的局限外,還有一個可能更為嚴重的問題——原假設檢驗和p值本身作為一種統計工具「僅有局限、並無過錯」,但使用者的濫用和誤用,使得原假設檢驗和p值成為了被批判的靶子。這就涉及前面提及的p值的第二個問題:在認知層面,p值本身就容易遭到誤解。
  • p 值是什麼?數據科學家用最簡單的方式告訴你
    假設檢驗假設檢驗在討論 p 值的意義之前,我們先理解一下假設檢驗。在假設檢驗中,常用 p 值確定結果的統計顯著性。我們的最終目標是確定結果的統計顯著性。換句話說,我們需要提出聲明(零假設),並用樣本數據來檢驗聲明是否有效。如果聲明是無效的,就選擇備擇假設。就這麼簡單。而要知道聲明是否有效,就要用 p 值來衡量證據的強度,從而了解到它是否有統計顯著性。如果證據支持備擇假設,那就拒絕零假設並接受備擇假設。後面的章節中會解釋這些內容。