統計 讓人糾結的統計學P值

2021-02-07 解螺旋

特別福利:關註解螺旋微信號,回復關鍵詞「10月」,可索取10月資源包:統計分析SPSS軟體及教程學習資源包。

作者:孫學軍 解螺旋已獲作者授權

轉載請註明來源:解螺旋,醫生科研助手

每次研究生答辯,委員會們為了顯示自己的認真負責態度,都會對統計學方法,統計學差異,P值等問題特別重視。大家顯然對這個問題都是一知半解,甚至誤解。關於統計學的爭議最多的就是P值,就是這個大寫斜體的P值。無數論文和博客曾經寫過這個「無效假設檢驗」話題。

無效假設檢驗是統計學的基本原理和基石,是指根據某種實際需要,對未知的或不完全知道的統計總體提出一些假設。然後由樣本的實際結果,經過一定的計算,作出在概率意義上應當接受那種假設的測驗。一般的描述是,你假設兩組處理是不同的,然後用檢測數據進行統計學計算(經常說分析),計算什麼,計算這兩組因為抽樣誤差產生這種差異的概率不超過5%(任何小於5%的概率)。統計學經過大量研究認為,相同的概率不超過5%,屬於小概率事件,我們就可以說這兩組數據存在顯著(顯著只是統計學機率,不是相差多少)差異。

請注意,統計學分析的結果是兩組差異的可能性P值大小,並不是相差的多少,但是我們現在對P值非常認真,幾乎到了崇拜的地步。如果沒有達到預期的小概率,即使數據差別很大,我們也不承認差異。在臨床研究中,我們幾乎都不相信個案,認為這是偶然的可能性很大,除非像某些絕對不可能發生的案例,例如你用某方法治療愛滋病,患者完全痊癒,有一個我也服。其他的,例如你治某個惡性癌症患者,完全康復。因為本來就存在不名原因自愈的可能,我絕對不相信,儘管我也覺得有點神奇。


《自然》認為P值只是冰山一角,是「無效假設檢驗」。而根據數學和統計規律,影響P值大小的最重要因素是樣本量和差異大小。如果差異足夠大,例如某種抗血壓藥物的治療效果,很小的樣本量就可以計算出足夠小的P值,如果差異比較小,例如某種癌症治療藥物,可以通過擴大樣本量獲得足夠小的P值。言外之意,P值本身是可以操縱的數據,那麼對能操縱的一個P值的崇拜有何必要?對P值這一質疑,不只是停留在爭論上,甚至有的學術雜誌政策專門提出禁止使用P值。2015年2月《基礎和應用社會心理學雜誌》就決定禁止使用P值。

不得不承認,有很多統計和研究設計方法很成功,也非常有價值。P值計算是統計學分析的最後一個階段。在實踐中,在研究早期階段對數據進行分析對研究結果也非常重要,這種分析應該貫穿於從實驗設計到影響因素,能提前了解誤差的來源和性質,是來自幹擾因素,還是簡單的測量誤差,從而對實驗設計進行細微調整。

(足夠小的)P值是非常容易獲得的目標,也是應用廣泛和容易被濫用的統計學標準。在實際應用中,不斷調整統計學差異給濫用統計學標準提供了方便。例如通過換用不同的統計學方法以獲得最有利(符合預期)的統計學結論。

理論上,P值只適合小樣本的統計學分析,因為只要足夠的樣本量,任何細微的差別都能找到足夠小的P值。用貝葉斯因子或其他統計指標代替P值是權衡真假陽性的選擇,或者是提高統計效率,本身並不能徹底解決問題。

統計學教育非常重要。就好像任何進行DNA序列分析和遙感的人都必須學習使用機器,任何使用統計學工具分析數據的人都必須對統計概念和數據分析軟體進行培訓。甚至研究生指導老師也必須進行統計學培訓,以提高對潛在統計學分析錯誤的識別能力。一些在線課程就是針對這些問題,例如約翰霍普金斯大學的Data ScienceSpecialization等,用戶可以方便地學習使用一些計算機統計分析軟體。

但教育不能解決所有的問題。數據分析的教學基本採用學徒模式,每個學科都發展出自己的統計分析文化,決策是基於特定學科文化傳統而不是經驗證據。例如經濟學家和生物醫學科學家對同樣類型的數據採用完全不同的分析方法。

數據分析的最終目標應該是基於證據。這類似於循證醫學,鼓勵醫生只接受有對照試驗證明療效的證據。無論怎麼爭論,統計學都不能放棄,爭論看來沒有太多必要,只要你繼續科研對統計學糾結就會存在。

資料連結http://www.nature.com/news/statistics-p-values-are-just-the-tip-of-the-iceberg-1.17412

回復關鍵字,查看你感興趣的內容:

回復「SCI專欄」查看相關文章

回復「國自然專欄」查看相關文章

回復「信號通路專欄」查看相關文章

回復「CNS專欄」查看相關文章

回復「實驗工具專欄」查看相關文章

回復「統計」查看數據統計相關文章

回復「國自然1」查看國自然科學問題分析

部分精彩推薦,回復左邊數字查看:

43:臨床基礎科研,從零基礎到初窺門徑

154:史上最全lncRNA資料庫大全

168:SCI與SCIE區別掃盲!

255:科研文獻管理必備神器

281:SCI雙盲評審利弊:評Nature審稿新政策

304:教你使用RevMan軟體繪製森林圖

378:蛋白質組學研究技術大全

402:再減肥你就特麼得愛滋了!

解螺旋為您科研出謀劃策:臨床基礎科研方法論,實用經驗分享,實驗和數據統計工具應用、SCI論文投稿技巧,信號通路專欄,腫瘤,基因,蛋白等熱門領域研究進展


點擊閱讀原文查看解螺旋十月培訓信息

相關焦點

  • 隨手學統計:繞不過的 p 值
    當 p<0.05 時,統計結果蘊藏著怎樣的玄機?歡迎走進今天的「隨手學統計」,丁香調查帶你認識這個繞不過的 p 值。首先,毋庸置疑,p 值是個概率。其真實的含義是當假設情形為真時,出現超出假設中的極端觀察結果的概率。還沒完全看懂這個定義是在說什麼?
  • 【統計】p值和FDR
    從這裡我們可以看到,p值其實是「假陽性率FPR」,通過表格的第一列可以計算出。p值衡量的是一個原本應該是𝐻0的判斷被錯誤認為是𝐻1(𝑟𝑒𝑗𝑒𝑐𝑡𝐻0)的比例,所以它是針對單次統計推斷的一個置信度評估。從另一個方向理解,在假設𝐻0成立的前提下,即先假設「兩組沒有差異」,比較兩組的差值,如果差值符合正態分布,p值越小,說明「兩組沒有差異」的概率越小,通常情況下,當p值小於0.05時,認為是小概率事件,即「兩組沒有差異」「幾乎不可能發生。我們接受𝐻1,「兩組有明顯差異」,就是我們經常在論文裡看到的陽性結果。
  • 統計︱P值-0.05就發表,不然就去死!
    Fisher的具體做法是:2.選擇一個檢驗統計量(例如z 統計量或Z 統計量) ,該統計量的分布在假定的參數取值為真時應該是完全已知的。3.從研究總體中抽取一個隨機樣本4計算檢驗統計量的值5計算概率P值或者說觀測的顯著水平,即在假設為真時的前提下,檢驗統計量大於或等於實際觀測值的概率。.如果P<0.01,說明是較強的判定結果,拒絕假定的參數取值。
  • 自然《科學方法:統計錯誤》統計有效性的黃金標準P值並不可靠(中英對照22k字附PDF發「自然p值統計錯誤」下載)
    下期文章全面介紹假設檢驗中p值的概念和統計學應用、論文分析和期刊使用情況;包括多個分析數據舉例和計算說明。科技論文經常使用統計方法。統計中,一般認為P值≤0.05或者P≤0.01有顯著性差異,研究具有統計意義。事實真的這樣嗎?P值小於等於0.05是否真有統計學意義?
  • 統計檢驗假設的P值與檢驗水準α
    本文給大家普及一下檢驗假設中常用到的P值、檢驗水準α以及如何合理解釋。p值是在原假設(零假設)H0正確的前提下,出現觀察結果以及比之觀察結果更極端情形的概率,P值由相應統計模型計算而來,其計算根本不涉及備擇假設。
  • 美國統計學會權威發布:P值應該這麼用,學界有錯須改正
    一旦研究者根據統計結果選擇性地展示相應的方法,而讀者對此並不知情,結果的有效性就打了折扣。研究者應該展示研究過程中檢驗過的假設的數量、數據收集的方法、所有使用過的統計方法和相應的P值。5. P值或統計顯著性並不能衡量效應的大小和結果的重要性。
  • 醫學論文中統計報告要注意的諸多細節:p值、置信區間...
    1.2 p值略高於0.05,不是一種「趨勢」對於p=0.07這種情況,避免說「有達到統計學差異的趨勢」,或「接近統計顯著性」,因為p值不是在移動的。可以說,儘管我們看到一些證據表明接受新手術患者的反應率有所改善,但兩組間的差異並未達到傳統的統計學顯著性水平。
  • P還是那個P,But美國統計協會到底說了啥?
    假設檢驗的前世今生    2016年3月7日,美國統計協會(ASA)在其官網http://amstat.tandfonline.com/上在線發布了 「美國統計協會關於P值的聲明:背景,過程及目的」,說明了一些前因後果、組織實施過程及目的和初衷。不過,更為重要的是另一個聲明:「美國統計協會關統計顯著性及P值的聲明」。
  • 美國宣布禁用p值,原來p值很危險,如何取代p值?
    因為在近十多年來,不只是政治學界,而是很多學門,特別是在科學領域,有很多文章討論傳統統計檢定方法、尤其是 p 值統計檢定的問題,甚至有位很有名的統計學者,Andrew Gelman 寫了篇文章,叫作《科學的統計學危機》(The Statistical Crisis in Science),說是危機一點都不言過其實。這就是為何我說:今天要討論的其實是很嚴肅的問題。
  • 【論p】ASA關於統計意義和P值的聲明
    合適地選擇技術、恰當地進行分析以及正確解釋統計結論,在保證結論正確和確切表達結果的不確定性上也起了關鍵作用。許多發表的科學結論是以p值這個指標評估的「統計學意義」概念為支撐的。雖然p值是一個有用的統計學測度,但它普遍地被錯誤使用和錯誤解釋。這已經導致某些科學雜誌不鼓勵使用p值,某些科學家建議廢棄它,自從引入p值以來某些爭論就基本上沒有變過。
  • P值不重要!P值不重要!!P值不重要!!!
    你們帶著哭腔,殊不知我是真哭了,我給每個人的回答基本都是「p值不重要,效應值才重要。」當然,有些傢伙說「p值>0.05,我就不活了,師兄」也是有辦法對付的(即使p值大於0.05,通過統計檢驗效率計算機模擬版塊也可以做出p很小很小哦,嘿嘿。)
  • 學點兒統計,長點兒腦子(3)
    承認自己不懂並不丟人,活到老學到老就是,不懂還亂逼逼就不對了。統計學有一個非常重要的概念:「p值」,表徵某變量是不是對某結果具有足夠重要的影響。科學研究的基本路數是先觀察,然後提出解釋,再驗證解釋,如果解釋行得通,看看能不能用來預測「未來」。
  • 美國頂級學術期刊宣布禁用p值,原來p值很危險
    因為在近十多年來,不只是政治學界,而是很多學門,特別是在科學領域,有很多文章討論傳統統計檢定方法、尤其是 p 值統計檢定的問題,甚至有位很有名的統計學者,Andrew Gelman 寫了篇文章,叫作《科學的統計學危機》(The Statistical Crisis in Science),說是危機一點都不言過其實。這就是為何我說:今天要討論的其實是很嚴肅的問題。
  • 給數據科學家直白解釋P值的含義
    最近,有人問我如何向外行人簡單地解釋 p 值。我發現這很難做到。即使對了解 p 值的人,解釋 p 值總是一個令人頭疼的問題,更不用說對不懂統計學的人了。我去維基百科找了一些東西,這是它的定義:在統計假設檢驗中,對於給定的統計模型,p 值或概率值是在原假設為真時,統計值(如兩組間的樣本均值差)與實際觀察結果相等或更大的概率。
  • 你真的懂p值嗎? 說人話的統計學
    還會在統計學表面的蕪雜之中為你闡明最本質的思維方法。我們的目標是,讓你擁有一雙善用統計學的巧手,和一雙能辨清濫用統計學的慧眼。你會發現,成為統計達人也可以很輕鬆!►有人說:「統計學就是個p!」此p可不像彼「屁」,可以一放了之。作為假設檢驗的核心工具,它經常決定著一個發現的價值、一篇論文的成敗。
  • 程式設計師必讀-《統計思考:程式設計師必備概率和統計知識》免費pdf分享
    本書介紹    《統計思考:程式設計師必備概率和統計知識》是一種講解統計課程的教科書。它強調使用統計數據來探索大型數據集。它採用計算方法,有幾個優點:學生編寫程序是發展和測試他們理解的一種方式。例如,編寫函數來計算最小二乘擬合、殘差和決定係數。
  • 白話空間統計之四:P值和Z值(中)
    拿到數據之後,我們都要進行零假設,然後驗證這份數據是不是具有隨機模式,如果有很大的概率是隨機模式,那麼這份數據的可分析性,基本上就微乎其微了(比如布朗運動的運動規律,估計沒有哪個人會無聊的去做研究,一方面根本就研究不出什麼結果來嘛,另一方面是隨機結果的分析也不具有可重現性)。 P值和Z得分分別表什麼呢?
  • 800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話
    【新智元導讀】統計顯著性和p值是衡量研究可靠性的重要標準。這個標準是怎麼來的?今年3月Nature上一篇主張廢除p值的文章,為何獲得800位科學家聯名支持?如果沒有p值門檻,研究質量會出現大滑坡嗎?戳右邊連結上 新智元小程序 了解更多!每年,全球有數百萬學生修讀統計學課程。隨著世界上的數據量越來越大,統計學已成為越來越受歡迎的話題。
  • Python+統計學 | 探索常用的數據分析統計分布
    本文用Python統計模擬的方法,介紹四種常用的統計分布,包括離散分布:二項分布和泊松分布,以及連續分布,指數分布和正態分布,最後查看人群的身高和體重數據所符合的分布。蒙特卡洛方法的名字來源也頗為有趣,相傳另一位發明者烏拉姆的叔叔經常在摩洛哥的蒙特卡洛賭場輸錢,賭博是一場概率的遊戲,故而以概率為基礎的統計模擬方法就以這一賭城命名了。使用統計模擬,首先要產生隨機數,在Python中,numpy.random 模塊提供了豐富的隨機數生成函數。
  • Python統計分析
    描述性統計偏度和峰度累計值假設檢驗和區間估計示例1假設檢驗置信區間示例2假設檢驗置信區間描述性統計# 導入相關的包import pandas as pdimport numpy as npimport matplotlib.pyplot as plt均值,標準差,分位數,最大,最小值df.count()