【統計學】讓人糾結的P值

2021-01-20 Medical Research

統計學是每一個開展科學研究的人所必須掌握的知識並加以應用到實際研究工作中。關於統計學的爭議最多的就是P值,就是這個大寫斜體的P值。無數文章曾經都寫過這個「無效假設檢驗」話題。無效假設檢驗是統計學的基本原理和基石,是指根據於某種實際需要,對未知的或不完全知道的統計總體提出一些假設。然後由樣本的實際結果,經過一定的計算,作出在概率意義上應當接受那種假設的測驗。一般的描述是,你假設兩組處理是不同的,然後用檢測數據進行統計學計算(經常說分析)。計算什麼,計算這兩組因為抽樣誤差產生這種差異的概率不超過5%(任何小於5%的概率)。統計學經過大量研究認為,5%是一種小概率事件,因為相同的概率不超過5%,屬於小概率事件,那麼我們就說這兩組數據存在顯著(顯著只是統計學機率,不是相差多少)差異。請注意,統計學分析的結果是兩組差異的可能性P值大小,並不是相差的多少,但是我們現在對P值非常認真。幾乎到了崇拜的地步,如果沒有達到預期的小概率,即使數據差別很大,我們不承認差異。在臨床研究中,我們幾乎都不相信個案,認為這是偶然的可能性很大,除非像某些絕對不可能發生的案例。


今天,《自然》再次提出這個話題,認為P值只是冰山一角。根據數學和統計規律,影響P值大小的最重要因素是樣本量和差異大小。

如果差異足夠大,例如某種抗血壓藥物的治療效果,很小的樣本量就可以計算出足夠小的P值,如果差異比較小,例如某種癌症治療藥物,可以通過擴大樣本量獲得足夠小的P值。言外之意,P值本身是可以操縱的數據,那麼對能操縱的一個P值的崇拜有何必要?對P值這一質疑,不只是停留在爭論上,甚至有的學術雜誌政策專門提出禁止使用P值。2015年2月《基礎和應用社會心理學雜誌》就決定禁止使用P值。

這樣的禁令並不能影響科學出版的質量。不得不承認,有很多統計和研究設計方法很成功,也非常有價值。P值計算是統計學分析得最後一個階段。在實踐中,在研究早期階段對數據進行分析對研究結果也非常重要,這種分析應該貫穿於從實驗設計到影響因素,能提前了解誤差的來源和性質,是來自幹擾因素,還是簡單的測量誤差,從而對實驗設計進行細微調整。

(足夠小的)P值是非常容易獲得的目標,也是應用廣泛和容易被濫用的統計學標準。在實際應用中,不當調整統計學差異給濫用統計學標準提供了方便。例如通過換用不同的統計學方法以獲得最有利(符合預期)的統計學結論。

理論上,P值只適合小樣本的統計學分析,因為只要足夠的樣本量,任何細微的差別都能找到足夠小的P值。用貝葉斯因子或其他統計指標代替P值是權衡真假陽性的選擇,或者是提高統計效率,本身並不能徹底解決問題。

統計學教育非常重要。就好像任何進行DNA序列分析和遙感的人都必須學習使用機器,任何使用統計學工具分析數據的人都必須對統計概念和數據分析軟體進行培訓。甚至研究生指導老師也必須進行統計學培訓,以提高對潛在統計學分析錯誤的識別能力。一些在線課程就是針對這些問題,例如約翰霍普金斯大學的Data ScienceSpecialization等,用戶可以方便地學習使用一些計算機統計分析軟體。

但教育不能解決所有的問題。數據分析的教學基本採用學徒模式,每個學科都發展出自己的統計分析文化,決策是基於特定學科文化傳統而不是經驗證據。例如經濟學家和生物醫學科學家對同樣類型的數據採用完全不同的分析方法。

數據分析的最終目標應該是基於證據。這類似於循證醫學,鼓勵醫生只接受有對照試驗證明療效的證據。無論怎麼爭論,統計學都不能放棄,爭論看來沒有太多必要,只要你繼續科研,那麼你對統計學的糾結就會繼續存在。





長按二維碼即可識別和關注








首個專業提供最新醫學科研和技術資訊的微雜誌。

微信號:researchservice

國內首個專注於為臨床醫生提供最新最權威的醫學科研資訊和專業技術諮詢的微信公共平臺。由資深醫學科研專家領銜,全力打造國內最優秀的醫學科研諮詢平臺。

(來源:科學網)

相關焦點

  • 統計學中的P值與顯著性的意義
    一、P值是什麼?
  • 你真的懂p值嗎? 說人話的統計學
    ►辛辛苦苦做了實驗收了數據,正想大步邁向SCI高分文章,你是否不知數據分析該如何下手? ►投出了文稿,卻等來了審稿人對統計方法似是而非的挑刺,你是否不清楚該如何應對?►別擔心,你不是一個人在戰鬥!►在本系列中,我們將和你一起,探討最實用、最關鍵的統計學知識和方法。我們將指出常見的統計學誤區和陷阱,回答那些你一直想問但不好意思問的問題。
  • 乾貨|統計學的P值危機
    A、P值經常被誤解,統計的顯著性不等於實際的顯著性。今年3月份Nature發表了三個統計學家的一封公開信《科學家們起來反對統計學意義》(Scientists rise up against statistical significance),標題如戰鬥檄文令人振奮。
  • StatQuest生物統計學 - 線性擬合的R2和p值
    R2是擬合所能解釋的數據波動的比例p值是擬合只是隨機變異的可能性大小上一節StatQuest生物統計學 - 擬合基礎已經講過線性擬合
  • 當統計學遇上大數據——P值消亡
    有一天,我走進統計學的神殿 ,將所有謊言都裝進原假設的盒子裡,        「P值為零」,        一個聲音傳來,        「但你已經不能再拒絕,因為,P值已經死了」
  • 統計學基礎遭質疑! p值、信賴區間為何被數百科學家連名反對?
    顯著性這一概念是支撐統計學發展的大廈。統計學課本中寫到:沒有統計顯著性則不能「證明」零假設(關於兩組之間無差或者兩個實驗組和對照組的假設)。同時,統計顯著性也不「證明」其他假設。三位統計學教授主張:反對統計學意義、停用 p 值為判斷標準。
  • P值之死|當統計學遇上大數據
    有一天,我走進統計學的神殿 ,將所有謊言都裝進原假設的盒子裡,「P值為零」,一個聲音傳來,「但你已經不能再拒絕
  • 統計學中p值的含義和顯著差異性分析
    統計學意義(p值)結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變量關聯有5%的可能是由於偶然性造成的。
  • Nature評論:800名科學家聯名反對統計學意義,放棄P值「決定論」
    這篇公開信名為《科學家們起來反對統計學意義》(Scientists rise up against statistical significance)。正如標題所言這三位號召科學家放棄追求「統計學意義」,並且停止用統計學中常見的P值作為判斷標準。
  • 美國宣布禁用p值,原來p值很危險,如何取代p值?
    今天談的當然是不一樣的題目,雖然它是一個很重要、很嚴肅的題目,但我希望大家可以輕鬆一點,所以也要放兩部電影片段給大家看,一部是《玉蘭花》,另一部則是《班傑明的奇幻旅程》,這兩部電影都有助於我們來了解今天要談論的主題:p 值的陷阱。  科學的統計學危機:p 值有什麼問題?  為什麼要談論 p 值的問題?
  • 怎樣理解 p=0.06 的統計學意義?
    如果作者拿marginally significantly p=0.06作為統計學意義的證據說事,那麼0.07行不行?如果0.07行,0.1行不行?從國際學術界的主流觀點看,Marginal association做統計就沒有意義。   網友: 心理系的主任,對統計學不一定特別了解吧。
  • 怎樣理解p=0.06的統計學意義?
    如果作者拿marginally significantly p=0.06作為統計學意義的證據說事,那麼0.07行不行?如果0.07行,0.1行不行?從國際學術界的主流觀點看,Marginal association做統計就沒有意義。   網友: 心理系的主任,對統計學不一定特別了解吧。
  • 隨手學統計:繞不過的 p 值
    原假設:我們認為品茶女士沒有品茶能力觀察結果:品茶女士把 8 杯茶都品了出來p 值:0.014這裡 p 值代表的含義是:如果品茶女士沒有品茶能力,那麼她品出 8 杯茶的概率是0.014。對,這個 p 值(概率)很小很小!
  • 800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話
    【新智元導讀】統計顯著性和p值是衡量研究可靠性的重要標準。這個標準是怎麼來的?今年3月Nature上一篇主張廢除p值的文章,為何獲得800位科學家聯名支持?如果沒有p值門檻,研究質量會出現大滑坡嗎?戳右邊連結上 新智元小程序 了解更多!每年,全球有數百萬學生修讀統計學課程。隨著世界上的數據量越來越大,統計學已成為越來越受歡迎的話題。
  • 二、統計檢驗與p值
    所以在統計學上,假設都是以「無罪假設」出現,稱之為零假設(null hypothesis),假設是關於總體參數的論斷,而零假設總是「無罪「論斷,如沒有差別,沒有效果,沒有變化,沒有關係等,而備擇假設總是」有罪「論斷。我們以零假設為基礎,計算概率(p值),做出統計推斷。如果p值小於閾值,則拒絕零假設,接受備擇假設。
  • 當統計學遇上大數據——P值消亡 | 網際網路數據資訊網-199IT | 中文...
    有一天,我走進統計學的神殿 ,將所有謊言都裝進原假設的盒子裡,        「P值為零」,        一個聲音傳來,        「但你已經不能再拒絕,因為,P值已經死了」        從此,這個世界上充斥著謊言
  • 九成以上研究者或無法正確理解p值
    這可能使得研究者一直糾結於自己研究的p值是否小於0.05,從而造成所謂的p值操縱(p-hacking)、發表偏見(publication bias)等一系列負面現象。但事實上,相比統計顯著性或是p值是否小於0.05,對於研究本身而言還有需要更為重要的指標,包括但不限於置信區間(Confidence Interval,CI)、統計效力(power)、效應量(effect size)等等。
  • 數據造假新手段「P值黑客」
    如今,在科學研究中,出現了比學術欺詐更令人擔憂發指的行為——P值黑客(P-hacking)。「P值黑客」是指操作科學數據,從而使結果看上去具有統計學意義的行為。這個詞最早由賓夕法尼亞大學的西蒙松教授提出,一起來看看他是怎麼說的:Professor Uri Simonsohn of UPenn discussed what he refers to as "p-hacking."
  • 統計學常用概念|T檢驗、F檢驗、卡方檢驗、P值、自由度
    F值和t值就是這些統計檢定值,與它們相對應的概率分布,就是F分布和t分布。統計顯著性(sig)就是出現目前樣本這結果的機率。2,統計學意義(P值或sig值) 結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。
  • 大學統計學白上了?800多科學家聯名反對「統計學意義」,P值該廢了
    本文經授權轉載自公眾號: 新智元(ID:AI_era),作者:新智元統計學白學了?最新一期Nature雜誌發表了三位統計學家的一封公開信,他們號召科學家放棄追求「統計學意義」,並且停止用統計學中常見的P值作為判斷標準。一般認為P≤0.05或者P≤0.01就有顯著性差異,研究就有統計意義。