P值之死

2021-01-14 解螺旋

點擊上面藍字↑↑↑關注【解螺旋】


——日讀一帖,解螺旋大V團隊伴你科研路

【科研熱點】讓你時間比別人花的少、知道的比他早!

【基金專欄】國自然等各項基金獨到經驗見解

【SCI 專欄】從開始到接收全程tips

【實驗技能】這麼棒快告訴你老闆!

 關注我們,為您的科研路提速


來源:數說工作室


有一天,我走進統計學的神殿 ,將所有謊言都裝進原假設的盒子裡,

「P值為零」,

一個聲音傳來,

「但你已經不能再拒絕,因為,P值已經死了」

從此,這個世界上充斥著謊言。


一、一個悲傷的故事:破滅的年少成名之夢


首先跟大家說一個悲傷的故事,該故事來源於nature最近發布的一篇文章「statistical errors」,我把這個故事叫做「破滅的年少成名之夢」

話說,維吉尼亞大學有一位意氣風發俊朗不凡的博士研究生莫德爾。



他做了一項關於關於政治極端分子的行為研究,樣本大約有2000個人群,結果發現,相比較政治極端分子,政治溫和派似乎更能辨別不同色度的灰色。



莫德爾對這項發現非常得意,因為數據也給出了非常積極的結果,統計結果顯示P值為0.01,這意味著結果「非常顯著」。莫老兄十分有把握能把自己的論文發表在高影響因子的刊物上。



由於擔心實驗結果陷入再現性爭論,莫兄和他的導師決定重複實驗,但是,在添加了新的數據之後,P值變成了0.59,這連0.05的顯著性水平都沒有達到!

傷心絕望的莫老兄知道,他觀察的心理學效應站不住腳了,一同破滅的,還有那顆年少成名的美麗夢想。



實際上,問題並不在數據中,而是P值出了問題,正如羅斯福大學的經濟學家史蒂芬所說,「P值沒有起到人們期望的作用,因為它壓根就不可能起到這個作用。」



為什麼呢?為什麼P值沒有達到人們的期望?它的問題到底在哪?現在和數說君一起來梳理一下P值和假設檢驗的歷史,並從中尋找答案吧。




二、P值和假設檢驗的歷史


1. 拉普拉斯

P值得歷史可以追溯到1770年,數學家拉普拉斯在處理50萬左右的生育數據時,發現男性的生育率超過女性,對於這個無法解釋的「超越」,他計算了一個叫做「P值」的東西,以確定這個「超越」是真實的(Stigler 1986, P.134)。


2. KarlPearson

很多統計學家誤以為關於P值的正式文獻是費雪發表的,其實不然,最早在文獻中正式闡述P值及其計算的,是統計學家Karl Pearson,你可能不了解他,但是他的Pearson卡方檢驗你一定知道,這篇關於卡方檢驗的文章當時被發表在《哲學雜誌》上,文章中一同被介紹的,還有一個被叫做「P值」的東東,見史料。


3. Fisher


P值能風靡學術界這麼多年,費雪是第一推手,被他推動的除了P值,還有被稱為「費雪學派」(Fisherian)的假設檢驗思想。簡單介紹下他的思想:

如果我們想要檢驗一個樣本是否來自某個分布已知的總體,首先要建立一個「原假設」(null hypothesis),比如,下圖的例子我們假設該樣本來自正態總體N(m0,σ),那麼原假設為:

H0:m=m0

但實際上我們得到的樣本均值不是m0,而是,那麼Fisher他老人家當時的想法是:在一個樣本均值為m0的正態總體中,抽樣得到這個均值為的樣本的機率會有多大?我要是能計算出這個概率,就知道「這個樣本來自該總體」這件事有多靠譜了,如果概率太小,就認為是不靠譜的事情,那麼就可以認定這個假設是錯的。這就是假設檢驗裡的「小概率事件原理」,這個概率就是後來風靡學術界的「P值」,一般認為概率小於5%,就是不靠譜的事情,則需要拒絕原假設。

到此為止,Fisher大神隻字未提「備擇假設」,也從沒說任何關於「接受」某個假設的事情,在Fisher的檢驗哲學裡,

因此,費雪以及他的P值檢驗思想,從來沒有涉及到「備擇假設」的概念,沒有被認為可以用來證明某個假設是對的



4. Neyman-Pearson


後來流行的「備擇假設」的概念是在另一個重要的檢驗思想裡提出的,即Neyman-Pearson(以下簡稱N-P)檢驗思想。N-P學派發源於費雪的思想,但卻與之不太一樣,他們兩派相互爭論了很多年。相比較於Fisher學派,Neyman他們主要有三個不同:

(1) 引入備擇假設

Neyman本人曾說,「接受一個假設H,僅僅意味著採用決策A要比決策B好,並不能說明我們必須要相信假設H就是對的。」

(2) 引入兩種錯誤:第一類錯誤和第二類錯誤

第一類錯誤是指拒絕了一個正確的原假設(α),第二類錯誤是指接受了一個錯誤的原假設(β);

Power=1-β,被稱為檢驗效力,它代表著拒絕一個錯誤假設的概率;

N-P的檢驗思想是,控制第一類錯誤(一般事先給定),使得第二類錯誤的值越小越好,即power越大越好。




(3) 使用拒絕域來進行檢驗

在N-P的思想框中,完全沒有提到P值,他們使用拒絕域來對假設進行判別,具體檢驗思想見下圖:




(4) 錯誤的混合

比較以上兩個檢驗我們發現,Fisherian和N-P的檢驗思想完全不同,

費雪學派的P值檢驗思想,沒有涉及備擇假設,也從來沒有被嚴格證明可以用來證明某個假設是對的。實際上,當我們抽取的樣本變化時,得到的P值也會變化,結論也會隨之變化。

N-P學派使用備擇假設,在判定是接受還是拒絕某個假設的時,同時會給出兩類錯誤以及power作為輔助參考,但是該學派(包括Neyman本人)從來不承認「P值」這個東西。雖然樣本不同,他們的結論也會不同,但是N-P方法會在每個結論的後面給出相應的power,說明該結論的靠譜程度,相對於P值檢驗,這個方法更加規則嚴密。

Fisher和Neyman兩人知道對方的觀點,但是彼此都不能相容,Neyman批評Fisher的某些工作從數學上講比「毫無用處」還糟,Fisher對Neyman方法給出的評價是「無比幼稚」、「在西方學界中簡直駭人聽聞」(Nuzzo,2014)。

然而後世的許多統計學家錯誤的將兩個方法進行了混合,衍生出這樣的判別標準,即:

用p<α作為判斷標準,以決定接受原假設還是備擇假設

如Gibbons(1986,p.367)說:「P值與古典方法(即Neyman-Pearson)的關係是,如果p<=α,我們就要拒絕H0,如果p>α,我們就要接受H0。」


三、悲劇的結論


梳理完P值和假設檢驗的歷史,你應該知道為什麼羅斯福大學的經濟學家史蒂芬說,「P值沒有起到人們期望的作用,因為它壓根就不可能起到這個作用。」了,因為P值從來沒有被證明可以用來接受某個假設,即使是拒絕假設,也是基於某個樣本得出的結論,當樣本變動時,結論很可能也會變動

P值檢驗會如此不靠譜?其實,Fisher本人對統計檢驗的觀點更加悲觀,他認為,統計學的功能僅僅在於歸納推論(inductive inference),而不是歸納行動(inductive behavior);統計檢驗應該止於歸納結論,而不涉足於行動判斷(Lv,2012)。

這是一個悲劇的結論,不僅對夢碎的莫德爾老兄,也對所有運用統計學的研究者。


四、解決之道

面對「P值至上」的種種惡果,統計學家們給出了其他的解決方法,


數說君曰:P值死了,這是統計學的重生


——————————————————————

參考文獻:

Fisher, R.A. (1925), StatisticalMethods for Research Workers, Edinburgh: Oliver and Boyd.

(1929), 「The Statistical Method inPsychical Research,」 Proceedings of the Society for Psychical Research, London,39, 189-192.

(1935b), 「The Logic of InductiveInference,」 Journal of the Royal Statistical Society, 98, 39-54.

(1935c), 「Statistical Tests,」Nature, 136, 474.

(1945), 「The Logical Inversion ofthe Notion of the Random Variable,」 SankhyN, 7, 129-132.

(1960),「Scientific Thought and the Refinement of Human Reasoning,」 Journal of theOperations Research Society of Japan, 3, 1-10.

(1966), TheDesign of Experiments (8th ed.), Edinburgh: Oliver and Boyd

Gibbons,J.D. (1986), 「P-Values,」 in Encyclopedia of Statistical Sciences, eds. S. Kotzand N.L. Johnson, New York: Wiley, 366–368.

Neyman, J. (1950), First Course inProbability and Statistics, New York: Holt.

(1967), 「R.A. Fisher (1890–1962), AnAppreciation,」 Science, 156, 1456-1460.

Pearson, E.S. (1928a), 「On the Use and Interpretation of CertainTest Criteria for Purposes of Statistical Inference. Part I,」 Biometrika, 20A,175-240.

(1928b), 「On the Use and Interpretationof Certain Test Criteria for Purposes of Statistical Inference. Part II,」Biometrika, 20A, 263-294.

(1933), 「On theProblem of the Most Efficient Tests of Statistical Hypotheses,」 PhilosophicalTransactions of the Royal Society of London, Ser. A, 231, 289-337.

ReginaNuzzo, 「STATISTICAL ERRORS」, nature

陳希孺.(2002).數理統計簡史. 長沙:湖南教育出版社

呂小康.(2012).Fisher與Neyman-Pearson的分歧與心理統計中的假設檢驗爭議.心理科學

舉報


解螺旋Meta分析培訓班北京站4.18、19日舉行,有興趣的朋友請下拉到底部點擊左下角「閱讀原文」查看詳細信息!


解螺旋最近開設了LncRNA二群(一群人數已滿)、HBV傳染病、常規實驗技術和腫瘤學科科研為主題的微信交流群,趕緊掃碼加入一起討論吧!

長按二維碼掃一掃


解螺旋每月為您精心準備一份科研資源包,4月資源包包含以下內容

snapgene軟體;

SPSS 20.0軟體;

GraphPad Prism 6 破解版;


  對上述資源包有興趣的朋友請轉發此文至朋友圈後向解螺旋微信助手索取,助手微信號:helixlife0,二維碼如下


掃一掃添加(請長按上圖,助手二維碼不怕痛)喵~


近期解螺旋最受歡迎的文章

解螺旋訂閱號頁面回復索引號相關數字)


SCI作圖實例演練(索引號:213)

醫療衛生系統的坑爹自黑式宣傳(索引號:232)

2015年NSFC指南核心內容解讀(索引號:244)

你的細胞太醜了,快救救它吧!(索引號:257)

OMG!NCBI竟然能批量下載基因序列!(索引號:264)

雜誌界的快槍手!投稿3天居然就接收了!!(索引號:272)

醫學SCI投稿必須注意的「禮儀」你都知道了嗎?收藏備查噢!(索引號:276)

lncRNA 的研究策略和技術方法(索引號:282)

7分的Cell Reports文章深度剖析!(索引號:273)

基金摘要的凝、集、推、解四段心法(索引號:284)


【怎麼查索引號對應的文章?】

  如需查看以上文章,請點擊頁面右上方,點擊「查看公眾號」並關注!在解螺旋訂閱號頁面下方此處輸入索引號即可:

  輸入「目錄」查看文章列表!

解螺旋

做或不做科研,從醫之路大不同!解螺旋,一個幫臨床醫生提高科研能力,分享學術經驗,爭取行業話語權的平臺!

微信號:HelixLife


相關焦點

  • P值之死|當統計學遇上大數據
    ,因為,P值已經死了」從此,這個世界上充斥著謊言。一、一個悲傷的故事:破滅的年少成名之夢首先跟大家說一個悲傷的故事,該故事來源於nature最近發布的一篇文章「statistical errors」,我把這個故事叫做「破滅的年少成名之夢」話說,維吉尼亞大學有一位意氣風發俊朗不凡的博士研究生莫德爾。
  • 美國宣布禁用p值,原來p值很危險,如何取代p值?
    1月22日,美國政治學頂級學術期刊《政治分析》在他們的官方twitter上宣布從2018年的開始的第26輯起禁用p值。根據該刊的聲明,其主要原因是:「p值本身無法提供支持相關模式或假說之證據。」  以《政治分析》在政治學之地位,其禁用p值的決定,將會引起連鎖效應,導致其他刊物跟進。一直以來,關於p值的討論爭論不斷。
  • 統計︱P值-0.05就發表,不然就去死!
    對於p值的誤用會導致不良的科學風氣與成果(對於這一點大家沒有異議)。對一些科學領域逐漸增長的擔憂,催生了這份一致聲明。p值在一些領域已經成了決定研究論文是否值得出版的試金石。結果是,那些能夠給出超過某個隨意閾值的研究論文,更有可能被出版;同時具有更大或同等科研重要性的研究可能被扔在抽屜裡,不被科學界所見。 分歧大多圍繞著頻率論者VS貝葉斯方法的技術爭論,以及p值的補充與替代品。「分歧是巨大的。
  • 【p值之爭】史丹福大學陸教授有話說
    觀察到的p-值是個統計量,也就是統計觀測值。自身有方差。有時看著p值很小,置信區間卻很寬。但所有的替代方案都會存在同樣的問題。所以p值是評價隨機影響的重要指標,是必要條件之一。但不是充分條件。只用p值決定科研成果是對p值的錯誤使用。醫生不會用一個指標去診斷疾病」。「臨床意義在先,統計學意義在後。無臨床意義的研究不需要統計驗證。」
  • 當統計學遇上大數據——P值消亡
    有一天,我走進統計學的神殿 ,將所有謊言都裝進原假設的盒子裡,        「P值為零」,        一個聲音傳來,        「但你已經不能再拒絕,因為,P值已經死了」
  • 驚爆| 美國頂級學術期刊宣布禁用p值【連載1】
    我本是藥品臨床研究的「門外漢」,但十幾年「浪跡」中藥CRO,深植於心一種「p值崇拜」,乃認為「無p值,不臨床。」然,1月22日,美國政治學頂級學術期刊《政治分析》在其官方twitter上宣布,從2018年開始的第26輯起禁用p值。據該刊之聲明,其主要原因是:「p值本身無法提供支持相關模式或假說之證據。」頂級政治期刊的「禁p」想必會引起連鎖效應,導致其他刊物跟進,是否也會波及到藥品臨床評價呢?
  • 二、統計檢驗與p值
    我們以零假設為基礎,計算概率(p值),做出統計推斷。如果p值小於閾值,則拒絕零假設,接受備擇假設。有時候會有學生找我說,幫忙算個p值,我就會問,你的零假設是什麼?這句話等同於問「你想幹嘛?」,神奇的是,有些時候有些人就真的不知道自己想幹嘛!
  • 數據造假新手段「P值黑客」
    如今,在科學研究中,出現了比學術欺詐更令人擔憂發指的行為——P值黑客(P-hacking)。「P值黑客」是指操作科學數據,從而使結果看上去具有統計學意義的行為。這個詞最早由賓夕法尼亞大學的西蒙松教授提出,一起來看看他是怎麼說的:Professor Uri Simonsohn of UPenn discussed what he refers to as "p-hacking."
  • 【統計】p值和FDR
    那麼我們通常所說的p值的計算公式可以簡單寫成:p值衡量的是一個原本應該是𝐻0的判斷被錯誤認為是𝐻1(𝑟𝑒𝑗𝑒𝑐𝑡𝐻0)的比例,所以它是針對單次統計推斷的一個置信度評估。從另一個方向理解,在假設𝐻0成立的前提下,即先假設「兩組沒有差異」,比較兩組的差值,如果差值符合正態分布,p值越小,說明「兩組沒有差異」的概率越小,通常情況下,當p值小於0.05時,認為是小概率事件,即「兩組沒有差異」「幾乎不可能發生。我們接受𝐻1,「兩組有明顯差異」,就是我們經常在論文裡看到的陽性結果。
  • 統計學中的P值與顯著性的意義
    一、P值是什麼?
  • 九成以上研究者或無法正確理解p值
    況且,由於p 值會因研究設計和操作的不同自然而言地有一定差異,這就意味著在不同的實驗中p值本就沒有可比性。鑑於以上種種理由,執科學發表之牛耳的自然雜誌(Nature),2018年發表了一篇800多位科學家聯合署名的反對濫用統計顯著性的評論文章。
  • 隨手學統計:繞不過的 p 值
    當 p<0.05 時,統計結果蘊藏著怎樣的玄機?歡迎走進今天的「隨手學統計」,丁香調查帶你認識這個繞不過的 p 值。首先,毋庸置疑,p 值是個概率。其真實的含義是當假設情形為真時,出現超出假設中的極端觀察結果的概率。還沒完全看懂這個定義是在說什麼?
  • 驚爆| p值不是什麼?【連載3】
    點擊查看 【引言】昨日轉載美國德州大學奧斯汀校區政府系林澤民教授2016年在臺灣政大社科院的演講《看電影學統計:p值的陷阱》,他首先講的p值是什麼?今天刊出的是p值不是什麼?由於這部分的文字比較長,將分三期刊出。
  • 800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話
    【新智元導讀】統計顯著性和p值是衡量研究可靠性的重要標準。這個標準是怎麼來的?今年3月Nature上一篇主張廢除p值的文章,為何獲得800位科學家聯名支持?如果沒有p值門檻,研究質量會出現大滑坡嗎?戳右邊連結上 新智元小程序 了解更多!每年,全球有數百萬學生修讀統計學課程。隨著世界上的數據量越來越大,統計學已成為越來越受歡迎的話題。
  • JAMA:p值檢驗,你用對了嗎?
    研究表明,文章作者報告p值的越來越多,但他們誤解了p值的含義。p值是報告科學結論是否真實的統計學意義的概率值。研究人員發現,因為p值常被誤用,對p值使用的增多並不代表生物醫學研究或數據分析水平的提高。"研究人員通常對p值的使用技術不佳,用有偏見的方式使用,因此變得非常具有誤導性。"
  • 給數據科學家直白解釋P值的含義
    最近,有人問我如何向外行人簡單地解釋 p 值。我發現這很難做到。即使對了解 p 值的人,解釋 p 值總是一個令人頭疼的問題,更不用說對不懂統計學的人了。我去維基百科找了一些東西,這是它的定義:在統計假設檢驗中,對於給定的統計模型,p 值或概率值是在原假設為真時,統計值(如兩組間的樣本均值差)與實際觀察結果相等或更大的概率。
  • 「P值」背後那些不可不知的事兒
    硬幣似乎有偏向正面的傾向,這叫備擇假設H1 ;③ 羅想了一下,會不會是我運氣不好呢,有沒有可能錯怪她,這種錯誤叫做第一類錯誤,記為α;④ 羅又一細想,背脊發涼,萬一硬幣真的有問題,我做測試又沒能發現,豈不是著了她的道,這種錯誤叫做第二類錯誤,記為β;⑤ 假設硬幣是均勻的,連拋5次得到都是正面的概率就是0.5的5次方,也就是0.03125,這就是p值
  • 為什麼卡方值是0,p值是1?
    ——《推拿》有個老師在做卡方檢驗的時候,做出來的卡方值是0,p值也接近1 了,自我感覺不太對,就來諮詢我,我索性把這個做一個統一的講解。(數據為亂編,如有雷同,純屬巧合。)這是SPSS錄入數據的界面,檢驗一下兩組之間性別人數是否有差異。
  • 當統計學遇上大數據——P值消亡 | 網際網路數據資訊網-199IT | 中文...
    有一天,我走進統計學的神殿 ,將所有謊言都裝進原假設的盒子裡,        「P值為零」,        一個聲音傳來,        「但你已經不能再拒絕,因為,P值已經死了」        從此,這個世界上充斥著謊言
  • 被Nature科學家封殺的P值,到底有什麼意義?
    Nature上的統計學家早就發現,P值本身無法提供支持相關模式或假說之證據,P值可能給我們每個人都上演了一場「楚門的世界」,先附上Nature連結,看看他們怎麼說。因此,我決定講清楚p值是什麼,以及如何將它們用於假設檢驗,以期有助於你更加直觀透徹地理解p值,顯然我們不能跳過對其他相關概念和p值定義的基本理解,但我保證會以一種直觀的方式進行解釋,而不是直接向你扔去一堆技術術語。