美國統計協會關於統計顯著性和p值的說明

2021-01-21 社會調查與研究方法

(1)P值可顯示數據與⼀個指定統計模型間的不兼容程度。

    P值提供了⼀種⽅法來歸納特定數據集與數據的推薦模型間的不兼容性。最常見的情況即為⼀個在⼀組假定下與「零假設」⼀同構建出的模型。通常,「零假設」假定某⼀效應並不存在,如兩組別間沒有差異,或某個因素與結果間沒有關係。如果計算出P值的潛在假設(替代性假設)成⽴,那麼P值越⼩,統計結果與零假設的不兼容程度越⾼。這⼀不兼容性可以⽤來質疑或⽀撐零假設或潛在假設(替代性假設)。


(2)P值不是用來衡量假設成立的可能性或者數據是偶然概率下產⽣的可能性的。

    研究者往往希望將P值⽤於描述零假設成⽴的具體真實性有多⼤,或者是在隨機抽樣中抽取到觀察數值的實際可能性是多少,但是P值與⼆者都相去甚遠。事實上,P值是關於我們如何去解釋特定假設的數據,⽽不是對這⼀假設的解釋本⾝。


(3)科學的結論和政策的制定不可以僅僅基於p值是否通過特定的閾值。

    將數據分析或科學推斷簡化為刻板的」硬指標「(例如「P<0.05」),以證明結論的科學性,只會導向錯誤的認知和糟糕的決策。⼀個結論不會在分界線的⼀側突然變真,在另⼀側突然變假。為了得出科學的論斷,研究者需要利⽤好多種背景因素,這包括研究的設計,測量的質量,所研究現象的外部證據,以及作為數據分析基礎的假設的效度。務實的考慮通常需要二元的、「是或否」的決策,但這並不意味著僅靠p值就可以確定⼀個決策的正確與否。「統計顯著性」(通常視為「p≤0.05」)被⼴泛⽤來作為宣告⼀項科學發現(或隱含的真理)的「許可證」,這導致了對科學過程的極⼤歪曲。


(4)合理的推斷要求完備的報告和透明度。

    P 值和與之相關的分析不應被有選擇地報告。對數據進行多次分析並且只報告 p 值符合特定要求的(通常是那些 p 值達到了某個顯著性水平的)一部分會導致報告的 p 值本質上沒有意義。報喜不報憂地挑選出(cherrypicking)有價值的發現,或用更為人熟知的術語表述即數據疏浚(data dredging)、顯著性追逐(significance chasing)、顯著性探求(significance questing)、選擇性推斷與 P 值篡改,會導致發表文獻中出現對顯著性檢驗錯誤的過度使用,應當被堅決避免。當研究者根據統計結果選擇性地呈現結論內容的時候,如果讀者沒有被告知這一選擇(的過程本身)及其依據,則研究者對這一結果做出的解釋的有效性、可信度將會被嚴重削弱。而對於這一問題的可能發生,研究者並不必要以進行重複性統計測驗的方式來進行應對。研究者應該公開:研究過程中所探索假設的數量、做出的所有數據收集的決策、執行的所有統計分析以及計算出的所有 P 值。缺乏起碼的對進行了多少分析、哪種分析以及這些分析(包括 P 值)是怎樣被選擇性地報告的知曉,以 P 值以及相關統計數據為基礎的有效科學結論是不能被得出的。


(5)p 值或統計學上的顯著,都不能衡量效應量或效應重要性。

    統計上的意義不同於對科學、人類或經濟發展的意義。較小的 p 值並不一定意味著存在大或重要的效應,而較大的 p 值也不意味著該效應缺乏重要性,甚至不存在效應。不論多麼微小的效應,在樣本量足夠大、測量精度足夠高的情況下,都會產生非常小的 P 值;同樣的,重大的效應在樣本量較小、測量不精確的情況下也可能產生不顯著的 P 值。類似的,預計完全相同的效應,當評估精確度發生變化的時候,也會產生不同的 P 值。


(6)就其本身而言,P值也不能為一個模型或者假設的證據提供一個很好的評估。

    研究者應當意識到,在沒有語境或者其他證據之下孤立的P值將提供很有限的信息。例如,僅考量一個接近於0.05的p值只能為拒絕零假設提供微弱的證據。同理,一個相對大的p值並不一定是對空假設有利的證據;很多其他的假說可能同樣或者更加符合觀測到的數據。出於這些原因,當其他方法是合適或可行的時候,數據分析不應當止於p值的計算。

相關焦點

  • 從統計顯著性到顯著性統計
    2017 年 70 多位學者聯名在雜誌《自然人類行為》上發表文章《重新定義統計顯著性》[1], 2019 年又有 800 多個署名的文章《停用統計顯著性》[2] 在《自然》雜誌上發表,這些都證實了如上的說法。對此,統計學界就身陷囹圄的 p 值做出了有組織的響應。
  • 隨手學統計:繞不過的 p 值
    當 p<0.05 時,統計結果蘊藏著怎樣的玄機?歡迎走進今天的「隨手學統計」,丁香調查帶你認識這個繞不過的 p 值。首先,毋庸置疑,p 值是個概率。其真實的含義是當假設情形為真時,出現超出假設中的極端觀察結果的概率。還沒完全看懂這個定義是在說什麼?
  • 【統計】p值和FDR
    那麼我們通常所說的p值的計算公式可以簡單寫成:p值衡量的是一個原本應該是𝐻0的判斷被錯誤認為是𝐻1(𝑟𝑒𝑗𝑒𝑐𝑡𝐻0)的比例,所以它是針對單次統計推斷的一個置信度評估。從另一個方向理解,在假設𝐻0成立的前提下,即先假設「兩組沒有差異」,比較兩組的差值,如果差值符合正態分布,p值越小,說明「兩組沒有差異」的概率越小,通常情況下,當p值小於0.05時,認為是小概率事件,即「兩組沒有差異」「幾乎不可能發生。我們接受𝐻1,「兩組有明顯差異」,就是我們經常在論文裡看到的陽性結果。
  • 統計︱P值-0.05就發表,不然就去死!
    Fisher的具體做法是:2.選擇一個檢驗統計量(例如z 統計量或Z 統計量) ,該統計量的分布在假定的參數取值為真時應該是完全已知的。3.從研究總體中抽取一個隨機樣本4計算檢驗統計量的值5計算概率P值或者說觀測的顯著水平,即在假設為真時的前提下,檢驗統計量大於或等於實際觀測值的概率。.如果P<0.01,說明是較強的判定結果,拒絕假定的參數取值。
  • 美國統計學會權威發布:P值應該這麼用,學界有錯須改正
    一旦研究者根據統計結果選擇性地展示相應的方法,而讀者對此並不知情,結果的有效性就打了折扣。研究者應該展示研究過程中檢驗過的假設的數量、數據收集的方法、所有使用過的統計方法和相應的P值。5. P值或統計顯著性並不能衡量效應的大小和結果的重要性。
  • 二、統計檢驗與p值
    所以在統計學上,假設都是以「無罪假設」出現,稱之為零假設(null hypothesis),假設是關於總體參數的論斷,而零假設總是「無罪「論斷,如沒有差別,沒有效果,沒有變化,沒有關係等,而備擇假設總是」有罪「論斷。我們以零假設為基礎,計算概率(p值),做出統計推斷。如果p值小於閾值,則拒絕零假設,接受備擇假設。
  • OpenTalks | #11: 關於徹底拋棄「統計顯著性」概念的倡議的簡介及簡評
    虛無假設顯著性檢驗(Null Hypothesis Significance Testing)一直以來都是心理學等學科常用的推斷統計方法。鑑於該方法本身的根本性的缺陷,越來越多的研究者(尤其是統計學家們)倡議必須徹底拋棄「統計顯著性」這一概念。
  • 統計學中的P值,「差異具有顯著性」和「具有顯著差異」
  • 【論p】ASA關於統計意義和P值的聲明
    在這個背景下,美國統計學會(ASA)相信,以一個正式的聲明來澄清關於正確使用和解釋p值的若干廣泛贊同的原則,可以使科學界從中得益。這裡提及的內容不僅影響科研,而且也影響研究基金、雜誌工作、職業發展、科學教育、公共政策、新聞和法律。這個聲明並不想解決與合理統計實踐有關的所有問題,也不想平息基本爭議。而是借這個聲明以非技術的語言,按照統計學界的廣泛共識,闡明若干原則,有助於改善定量科學的實施或解釋。
  • 美國宣布禁用p值,原來p值很危險,如何取代p值?
    小編今天為大家介紹美國德州大學奧斯汀校區政府系林澤民教授2016/6/6在臺灣政大社科院的演講,題目為《看電影學統計:p值的陷阱》。  院長、陳老師,各位老師、各位同學,今天很榮幸能夠到政大來,和大家分享一個十分重要的課題。
  • 800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話
    【新智元導讀】統計顯著性和p值是衡量研究可靠性的重要標準。這個標準是怎麼來的?今年3月Nature上一篇主張廢除p值的文章,為何獲得800位科學家聯名支持?如果沒有p值門檻,研究質量會出現大滑坡嗎?戳右邊連結上 新智元小程序 了解更多!每年,全球有數百萬學生修讀統計學課程。隨著世界上的數據量越來越大,統計學已成為越來越受歡迎的話題。
  • JAMA:p值檢驗,你用對了嗎?
    2016年3月18日 訊 /生物谷BIOON/ --最近一篇關於p值檢驗的總數統計總結了1990至2015以來的多篇生物醫學文獻,發現被錯誤理解的統計數據越來越多,報導p值時沒有同時報導應效應量和置信區間指標。史丹福大學醫學院的研究人員做了一項針對數百萬計的期刊文章的研究統計。
  • GraphPad Prism 統計教程 - 如何使實驗可重複?
    然後,可重現的實驗將詳細說明採樣、數據收集和實驗的過程,以使另一位熟練的研究人員能夠進行相同的實驗。可重複性危機和p值爭議的背景你可能已經聽說過可重複性危機 [1],其中提出了擔憂(確實存在)和質疑 -- 對已發表的帶有統計學顯著性結果的試驗,如果重新操作有多少是可以重現的?
  • 驚爆| 美國頂級學術期刊宣布禁用p值【連載1】
    我本是藥品臨床研究的「門外漢」,但十幾年「浪跡」中藥CRO,深植於心一種「p值崇拜」,乃認為「無p值,不臨床。」然,1月22日,美國政治學頂級學術期刊《政治分析》在其官方twitter上宣布,從2018年開始的第26輯起禁用p值。據該刊之聲明,其主要原因是:「p值本身無法提供支持相關模式或假說之證據。」頂級政治期刊的「禁p」想必會引起連鎖效應,導致其他刊物跟進,是否也會波及到藥品臨床評價呢?
  • 反思統計方法在心理學領域的應用
    假設檢驗在心理學研究的應用中,有一個極為重要的指標——p值,即統計顯著性。許多心理學實證研究工作者試圖通過比較理論預測和觀測數據來評估和檢驗假設,這項工作所依賴的統計依據就是基於p值的零假設顯著性檢驗,主要包括Z檢驗、T檢驗、方差分析、卡方檢驗及非參數檢驗等。  米爾(P. Meehl)指出,「由於心理學的研究對象很複雜,使得建構精確的理論變得非常困難」。
  • 為什麼做科研都追求結果達到顯著性水平(p值小於0.05)?
    - 來源 / 南心網數據統計分析博客 -- 編輯 / 三倉小編 -在科學研究中,人們都希望結果達到顯著性水平,即p值小於0.05,例如希望兩組結果具有顯著性差異,兩個變量存在顯著性相關,回歸係數達到顯著性水平,等等。在做研究假設時,我們絕大多數也是在做p值顯著的假設。那麼,人們為什麼那麼熱衷p值達到顯著性?
  • p值、信賴區間為何被數百科學家連名反對?
    顯著性這一概念是支撐統計學發展的大廈。統計學課本中寫到:沒有統計顯著性則不能「證明」零假設(關於兩組之間無差或者兩個實驗組和對照組的假設)。同時,統計顯著性也不「證明」其他假設。三位統計學教授主張:反對統計學意義、停用 p 值為判斷標準。
  • 畫說統計 P>0.05 你到底要告訴我啥?
    0.05是常用的顯著性水平。P<0.05,是「萬眾期待」的結果。在差別性分析中,這通常說明我們達成了驗證目標。      那麼,p值未低於顯著性水平的檢驗結果,又告訴我們什麼呢?這需要從檢驗假設說起:      以t檢驗為例。
  • 【p值之爭】史丹福大學陸教授有話說
    看來,任何一個從事臨床科研的工作者都應當避免成為有意和無意的垃圾製造者。p 值之爭概述:p值是生物醫學研究中使用最廣泛的統計學概念。最近,學界關於p值的效用以及p值的濫用與已發表的醫學研究無法重複性較差之間可能存在的關聯性有一些爭論。在本文中,我們以通俗易懂的方法介紹p值,並且解釋它的隨機性和局限性。
  • 九成以上研究者或無法正確理解p值
    但事實上,相比統計顯著性或是p值是否小於0.05,對於研究本身而言還有需要更為重要的指標,包括但不限於置信區間(Confidence Interval,CI)、統計效力(power)、效應量(effect size)等等。況且,由於p 值會因研究設計和操作的不同自然而言地有一定差異,這就意味著在不同的實驗中p值本就沒有可比性。