統計︱P值-0.05就發表,不然就去死!

2021-01-21 斐然智達SCI學術服務
寄語:需要多少個統計學家,才能保證對於p值有至少50%的不滿呢?根據曼荷蓮學院統計學家George Cobb半開玩笑的估計,答案是兩個...或者一個。R·A·Fisher(1890-1962)作為一代假設檢驗理論的創立者,在假設檢驗中首先提出P值的概念。他認為假設檢驗是一種程序,研究人員依照這一程序可以對某一總體參數形成一種判斷。也就是說,他認為假設檢驗是數據分析的一種形式,是人們在研究中加入的主觀信息。(當時這一觀點遭到了Neyman-Pearson的反對,他們認為假設檢驗是一種方法,決策者在不確定的條件下進行運作,利用這一方法可以在兩種可能中作出明確的選擇,而同時又要控制錯誤發生的概率。這兩種方法進行長期且痛苦的論戰。雖然Fisher的這一觀點同樣也遭到了現代統計學家的反對,但是他對現代假設檢驗的發展作出了巨大的貢獻。)Fisher的具體做法是:
2.選擇一個檢驗統計量(例如z 統計量或Z 統計量) ,該統計量的分布在假定的參數取值為真時應該是完全已知的。3.從研究總體中抽取一個隨機樣本4計算檢驗統計量的值5計算概率P值或者說觀測的顯著水平,即在假設為真時的前提下,檢驗統計量大於或等於實際觀測值的概率。.如果P<0.01,說明是較強的判定結果,拒絕假定的參數取值。.如果0.01<P值<0.05,說明較弱的判定結果,拒接假定的參數取值。.如果P值>0.05,說明結果更傾向於接受假定的參數取值。 可是,那個年代,由於硬體的問題,計算P值並非易事,人們就採用了統計量檢驗方法,也就是我們最初學的t值和t臨界值比較的方法。統計檢驗法是在檢驗之前確定顯著性水平α,也就是說事先確定了拒絕域。但是,如果選中相同的α,所有檢驗結論的可靠性都一樣,無法給出觀測數據與原假設之間之間不一致程度的精確度量。只要統計量落在拒絕域,假設的結果都是一樣,即結果顯著。但實際上,統計量落在拒絕域不同的地方,實際上的顯著性有較大的差異。因此,隨著計算機的發展,P值的計算不再是個難題,使得P值變成最常用的統計指標之一。P值就是當原假設為真時所得到的樣本觀察結果或更極端結果出現的概率。如果P值很小,說明這種情況的發生的概率很小,而如果出現了,根據小概率原理,我們就有理由拒絕原假設,P值越小,我們拒絕原假設的理由越充分。總之,P值越小,表明結果越顯著。但是檢驗的結果究竟是「顯著的」、「中度顯著的」還是「高度顯著的」需要我們自己根據P值的大小和實際問題來解決。⑴P的意義不表示兩組差別的大小,P反映兩組差別有無統計學意義,並不表示差別大小。⑵ P>α時,差異無顯著意義,根據統計學原理可知,不能否認無效假設,但並不認為無效假設肯定成立。⑶統計學主要用三種α值來與P值比較(0.1;0.05;0.01),也可以計算出確切的P值,也有人用P <0.001,至於選擇哪個要看檢驗的應用領域。⑷顯著性檢驗只是統計結論。判斷差別還要根據專業知識。對於外行人很少聽過的一個科學術語產生憤怒,這事聽起來可能很瘋狂,但它的結果意義重大。對於p值的誤用會導致不良的科學風氣與成果(對於這一點大家沒有異議)。對一些科學領域逐漸增長的擔憂,催生了這份一致聲明。p值在一些領域已經成了決定研究論文是否值得出版的試金石。結果是,那些能夠給出超過某個隨意閾值的研究論文,更有可能被出版;同時具有更大或同等科研重要性的研究可能被扔在抽屜裡,不被科學界所見。 分歧大多圍繞著頻率論者VS貝葉斯方法的技術爭論,以及p值的補充與替代品。「分歧是巨大的。包括對於核心問題以及需要被改革的實踐的不同看法」,Goodman說,「人們為此面紅耳赤」。 最重要的信息之一是,p值無法告訴你,你的假設是否正確。相反,它是在你的假設之下的,你的數據的概率。這聽起來很像「在你的數據之下的,你的假設的概率」,但它們不是一回事,盧森堡健康研究所的一名生物統計學家Stephen Senn說道。要理解原因,可以考慮這樣一個例子,「教皇是基督徒嗎?答案是肯定的」,他說。「基督徒是教皇嗎?答案很可能是否定的。如果你更改了順序,聲明就不存在了」。 在非統計學者中常有的一個誤解是,p值可以告訴你,某個結果「碰巧」發生的概率。這種解讀絕對是錯的,但你又總能一次次地看到。p值只會告訴你有關在某個假設解釋下,得到你的結果的概率——它無法告知結果正確的概率,或者結果是隨機發生的概率。這份聲明中的第二項原則:「p值無法衡量所研究的假設正確的概率,或它們是否隨機發生的概率。」p值也無法告訴你某個影響的規模,某個證據的強度或是某個結果的重要性。儘管有這些限制,p值常被用於區分科學發現的真偽,這帶來了惡劣的影響。當目標從追尋真理,變成獲得符合某個隨意閾值(在許多領域0.05或更小的值被認為「統計顯著」)的p值的時候,研究者們傾向於在數據裡垂釣,使用不同的分析直到發現什麼p值合格的東西。你可以在去年早些時候我們建立的「p值黑客(p-hacking)」工具對此進行了解。的確,許多ASA委員會成員在其評論中表示,p值不是問題所在,而是它如何被使用——「沒能根據『刻意挑選』、『多次測試』、『得到數據後分組』和其他帶來偏差的挑選效果進行調整」,維吉尼亞理工大學的統計哲學家Deborah Mayo 說道。當p值被當作區分結果是否顯著的分類方式時,收集和分析數據的巨大努力被降級為貼標籤,波士頓大學的流行病學家Kenneth Rothman說。  聲明附帶的20個評論展示了一些關於未來何去何從的想法。委員會的一些成員認為應該轉而依靠其他測量工具,如置信區間和貝葉斯分析。其他人認為這樣治標不治本。「解決方案不應是對p值進行改革或用其他統計指標/閾值進行替代」,哥倫比亞大學統計學家Andrew Gelman寫道,「而是去更多接受不確定性與變化」。      如果這份聲明能提煉出什麼簡單的結論,那就是:p值不是真理的標誌,p < 0.05不是區分真假的界線。它們只是謎題中應該與上下文其他證據放在一起考慮的一部分。 本文始於一首俳句詩,它是對於這份p值文件的回覆之一。這裡讓我們用密西根大學生物統計學家Roderick Little的一首打油詩結束本文。Val Johnson說:「這已經過時,我們的研究如果不出現P零點零零五,那就啥也不是!」



內容由經管愛問整理,原作出自經管之家、CHRISTIE ASCHWANDEN(翻譯:王鵬宇)

本文來源:本公號標明轉載文章的出處,版權歸原作者所有,轉載僅作分享之用。如有侵權,請與我們聯繫,將於24小時內刪除。


哎呀!來都來了,點個【在看】再走唄~

相關焦點

  • 美國宣布禁用p值,原來p值很危險,如何取代p值?
    我們作計量研究,都是用 p 值,各位一直用,在學界用了將近一百年,現在卻說不能用。甚至有些文章,說從前根據 p 值檢定做出來的研究成果都是錯的,有人更宣告 p 值已經死了。  所以這是一個很嚴重的問題。在這本期刊做出此決定後,美國統計學會(ASA)有一個回應,表示對於 p 值的問題,其實也沒這麼嚴重,大部分是誤解跟誤用所造成,只要避免誤解與誤用就好。
  • 【統計】p值和FDR
    p值衡量的是一個原本應該是𝐻0的判斷被錯誤認為是𝐻1(𝑟𝑒𝑗𝑒𝑐𝑡𝐻0)的比例,所以它是針對單次統計推斷的一個置信度評估。從另一個方向理解,在假設𝐻0成立的前提下,即先假設「兩組沒有差異」,比較兩組的差值,如果差值符合正態分布,p值越小,說明「兩組沒有差異」的概率越小,通常情況下,當p值小於0.05時,認為是小概率事件,即「兩組沒有差異」「幾乎不可能發生。我們接受𝐻1,「兩組有明顯差異」,就是我們經常在論文裡看到的陽性結果。
  • 隨手學統計:繞不過的 p 值
    當 p<0.05 時,統計結果蘊藏著怎樣的玄機?歡迎走進今天的「隨手學統計」,丁香調查帶你認識這個繞不過的 p 值。首先,毋庸置疑,p 值是個概率。其真實的含義是當假設情形為真時,出現超出假設中的極端觀察結果的概率。還沒完全看懂這個定義是在說什麼?
  • 畫說統計 P>0.05 你到底要告訴我啥?
    0.05是常用的顯著性水平。P<0.05,是「萬眾期待」的結果。在差別性分析中,這通常說明我們達成了驗證目標。      那麼,p值未低於顯著性水平的檢驗結果,又告訴我們什麼呢?這需要從檢驗假設說起:      以t檢驗為例。
  • 為什麼做科研都追求結果達到顯著性水平(p值小於0.05)?
    - 來源 / 南心網數據統計分析博客 -- 編輯 / 三倉小編 -在科學研究中,人們都希望結果達到顯著性水平,即p值小於0.05,例如希望兩組結果具有顯著性差異,兩個變量存在顯著性相關,回歸係數達到顯著性水平,等等。在做研究假設時,我們絕大多數也是在做p值顯著的假設。那麼,人們為什麼那麼熱衷p值達到顯著性?
  • 美國統計協會關於統計顯著性和p值的說明
    研究者往往希望將P值⽤於描述零假設成⽴的具體真實性有多⼤,或者是在隨機抽樣中抽取到觀察數值的實際可能性是多少,但是P值與⼆者都相去甚遠。事實上,P值是關於我們如何去解釋特定假設的數據,⽽不是對這⼀假設的解釋本⾝。(3)科學的結論和政策的制定不可以僅僅基於p值是否通過特定的閾值。
  • P<0.05就萬事大吉了嗎?別天真了!統計功效你造嗎?
    隨便捏一個看起來不錯的數,還是要怎樣去計算?如果這個問題沒有困擾到你,要麼說明你已爐火純青毫不費力,要麼當心你的實驗死得不明不白——就算最後做出來P<0.05,也有可能白做了(不要問我怎麼知道的=_=)。雖然往事不堪回首,但後來聽說不僅是青澀的研究僧,有些在實驗室裡摸爬滾打了好幾年的博士後都未必能處理好,我好像又舒心一點了。
  • 二、統計檢驗與p值
    我們以零假設為基礎,計算概率(p值),做出統計推斷。如果p值小於閾值,則拒絕零假設,接受備擇假設。有時候會有學生找我說,幫忙算個p值,我就會問,你的零假設是什麼?這句話等同於問「你想幹嘛?」,神奇的是,有些時候有些人就真的不知道自己想幹嘛!
  • 聽說P界值要從0.05降到0.005?不,這不是真的不是真的
    P不過最近,p值得日子也不好過,質疑的聲音真是此起彼伏。首先,兩年前美國統計協會(ASA)發表了關於p值的聲明:看到了吧,我怎麼覺得他是想說:p值啥也幹不了啊。Ioannidis, 2018)鑑於對p值存在廣泛的誤解,誤用和過度信任,為了控制假陽性結果的誕生,建議降低檢驗水準到0.005你這是不想讓研究生畢業的節奏啊!
  • P值之死
    關注我們,為您的科研路提速來源:數說工作室有一天,我走進統計學的神殿 ,將所有謊言都裝進原假設的盒子裡,「P值為零」,一個聲音傳來,「但你已經不能再拒絕,因為,P值已經死了」從此,這個世界上充斥著謊言。
  • 美國統計學會權威發布:P值應該這麼用,學界有錯須改正
    來源 美國統計學會,retractionwatch.com編譯 譚坤2014年2月,美國曼荷蓮學院(Mount Holyoke College)數學與統計學教授George Cobb在美國統計學會(American Statistical Association, ASA)的論壇上提出了兩個問題:問:為什麼這麼多學校都在教「P=0
  • 驚爆| p值不是什麼?【連載3】
    我們可以用這個表來呈現有關虛無假設是對或者不對,是被拒絕或者被接受的四種可能性,其中兩種是作出錯誤統計推論的情況。第一個情況,虛無假設是對的,但統計檢定是顯著的,因此虛無假設被推翻了。這種情況叫做Type I error,我們保留了α= 0.05的機率容許它存在。第二個情況,如果虛無假設是錯誤的,但統計檢定不顯著,所以它沒有被推翻,這個情況叫做Type II error。
  • P值之死|當統計學遇上大數據
    ,因為,P值已經死了」從此,這個世界上充斥著謊言。莫德爾對這項發現非常得意,因為數據也給出了非常積極的結果,統計結果顯示P值為0.01,這意味著結果「非常顯著」。莫老兄十分有把握能把自己的論文發表在高影響因子的刊物上。
  • 九成以上研究者或無法正確理解p值
    與NHST的流行相伴是過於強調統計顯著性來區分實驗效應是否存在的理念。這可能使得研究者一直糾結於自己研究的p值是否小於0.05,從而造成所謂的p值操縱(p-hacking)、發表偏見(publication bias)等一系列負面現象。
  • 更加嚴苛的統計學顯著性閾值來了,p<0.05好像要說再見了
    兩天前,Science網站上登了一篇來自Kelly Servick的評論,根據最新的一篇有72個作者將發表在Nature Human Behavior
  • 驚爆| 美國頂級學術期刊宣布禁用p值【連載1】
    我們作計量研究,都是用 p 值,各位一直用,在學界用了將近一百年,現在卻說不能用。甚至有些文章,說從前根據 p 值檢定做出來的研究成果都是錯的,有人更宣告 p 值已經死了。所以這是一個很嚴重的問題。在這本期刊做出此決定後,美國統計學會(ASA)有一個回應,表示對於 p 值的問題,其實也沒這麼嚴重,大部分是誤解跟誤用所造成,只要避免誤解與誤用就好。
  • JAMA:p值檢驗,你用對了嗎?
    2016年3月18日 訊 /生物谷BIOON/ --最近一篇關於p值檢驗的總數統計總結了1990至2015以來的多篇生物醫學文獻,發現被錯誤理解的統計數據越來越多,報導p值時沒有同時報導應效應量和置信區間指標。史丹福大學醫學院的研究人員做了一項針對數百萬計的期刊文章的研究統計。
  • 你真的懂p值嗎? 說人話的統計學
    所以他認為,要是這塊鋼蹦兒不均勻,就只可能偏向正面。在這種情況下,「與樣本相同的結果」就只有5次正面這一種。►所以,如果鋼蹦兒是均勻的,連拋5次得到都是正面的概率就是0.5的5次方,也就是0.03125,這就是我們所說的p值。換句話說,這種結果得玩兒32次才會出現1次。即使不做這樣的計算,藍精靈從日常生活的經驗中,也能感覺到,對於一塊均勻的鋼蹦來說,得到這樣的結果實在不太可能了。
  • 800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話
    當使用某個統計假設來做檢驗時,該檢驗能夠概述數據與其假設的模型之間的兼容性,並生成一個p值。菲舍爾建議,為方便起見,可以考慮將p值設為0.05。對於這一點,他專門論述道:「在判斷某個偏差是否應該被認為是顯著的時候,將這一閾值作為判斷標準是很方便的。」
  • 被Nature科學家封殺的P值,到底有什麼意義?
    大家對0.05的顯著性水平比較認可,把p<0.05作為了一種比較公認的判斷標準,因而符合p<0.05的研究結果就比較容易得到發表)同時,文章指出,當區間估計包括嚴重的風險增加時,得出結論認為統計上不顯著的結果「無關聯」是荒謬的。聲稱這些結果與顯示相同觀察效果的早期結果形成對比同樣荒謬。