P值不重要!P值不重要!!P值不重要!!!

2021-02-19 臨床科學家

臨床醫生的優勢是什麼?-臨床問題,數據分析亦不單單指統計,統計只佔臨床研究體系的一小部分,不要過分強調統計技巧和陽性結果,需重點發揮臨床醫生的優勢-解決貼近臨床的科學問題,避免掉入「統計學陷阱」

本文首發於2016-04-28,朝花夕拾

忙碌紛雜的3月和4月即將過去,在最近幾個月當中,聽到最多的一句話是「師兄,畢不了業了,p值>0.05」,「師兄,畢不了業了,結果是陰性的」,「師兄,畢不了業了,結果沒有統計學差異」,而且這些話都是帶哭腔說出來的,做夢半夜都能被嚇醒——我變成了二師兄。你們帶著哭腔,殊不知我是真哭了,我給每個人的回答基本都是「p值不重要,效應值才重要。」當然,有些傢伙說「p值>0.05,我就不活了,師兄」也是有辦法對付的(即使p值大於0.05,通過統計檢驗效率計算機模擬版塊也可以做出p很小很小哦,嘿嘿。) 「Rather than reportingisolated P values, articles should include effect sizes anduncertainty metrics.」[1]。

我非常討厭記基本概念(因為我也有選擇性記憶障礙症候群)。只說一下p值的確切定義是:"如果H0假設是正確的,觀察到這次實驗結果或一些更好結果(更極端結果)的可能性(概率)。[2] 不幸的是,許多研究人員都誤以為p值代表實驗組比對照組結果更好。初學者在做數據分析時總追求 p<0.05,然後又錯誤地理解為有差別,最後變成是否小於0.05就是是否更好的標誌,這是科研上的一大錯誤思維模式。[3-4]

p值離真相還差的太遠。作為經典概率理論的一部分,p值得到了最廣泛的應用,雖然往往這種應用都是錯誤的。Chavalarias 團隊的研究[1]發現隨機抽樣1000份摘要中,96%的摘要都至少有一個這樣的"統計顯著性"的p值,可簡單理解為96%的摘要都報告了陽性發現,事實上有這麼多顯著性結果是完全不現實的,不可能96%的檢驗假設都是顯著性的。這得有多大的發表偏倚啊。p值的普遍濫用經常給可信的研究帶來錯誤—這逐漸在學術界變為一件非常尷尬的事情。

前段時間美國統計學會發布p值使用原則[2],本來想寫篇小短文但覺得反覆說了很多遍的事情再談沒有意義,直到被「畢業論文轟炸」,才後悔沒寫篇短文給大家參照。美國統計學會p值使用6原則在這裡不再贅述,有興趣的可自行查找文獻2或者在後臺留言提問,如果真的需要那就再詳細解讀一下這6個原則。總之,前4條和第6條告訴大家p值不重要或者單單報告p值是不充分的。個人認為第5條:A p-value,or statistical significance, does not measure the size of an effect or theimportance of a result.(p值或者統計學顯著性,不能衡量效應的大小或者結果的重要與否;p值大小不代表效應大小。再微弱的效應,達到一定的樣本量和測量精度,都能得到很小的p值(即通常回修時「p-hacking」的工作,增加樣本量等,讓p值達到可以發表的程度);再大的效應,如果樣本量和測量精度不夠高,也可能只得到很大的p值。只關注p<0.05的時代應該過去了。

p值使用原則也是本文的核心論點「p值不重要,效應值才重要。」或者保守一些說「單單關注p值是不充分的,應同時關注效應值」。JAMA的文章[1]表1和表2 列舉了1000篇摘要中,報告p值和報告效應值的比例情況,最簡單的解讀即為:報告p值+效應值+置信區間+其他統計方法(貝葉斯公式等)是最高大上的方法。說了這么半天效應值,效應值到底都有啥,詳見表2,最常見的是回歸分析中的β、OR、RR、HR,具體概念和如何實現詳見「教材」第11頁[3]。歡迎有興趣的朋友後臺留言同我探討感興趣的統計學話題等。

效應值舉例:

參考文獻

1、  Chavalarias, D., et al.(2016). "Evolution of Reporting P Values in the Biomedical Literature,1990-2015." JAMA 315(11): 1141-1148.

2、  Ronald L. Wasserstein& Nicole A. Lazar (2016): The ASA's statement on p-values: context,process, and purpose, The American Statistician, DOI: 10.1080/00031305.2016.1154108

3、  陳常中等. 流行病學數據分析與統計軟體實現,上海科學技術出版

4、  Stephen B.Hulley et. al.Designing Clinical Research.

推薦閱讀:

1、直播視頻-如何將臨床問題轉化為科學問題?(強基礎公益訓練營-小黑屋第二步)

2、套路-手把手教你「光速」完成一系列臨床研究代表作的數據分析和結果呈現

3、開營報名啦-第六期線上一個月SCI零突破小黑屋公益訓練營

4、畢業啦-第五期線上1個月小黑屋SCI代表作訓練營

5、臨床研究全自動作圖的藝術(視頻)-臨床科學家公益SCI代表作實戰訓練營掠影

相關焦點

  • 美國宣布禁用p值,原來p值很危險,如何取代p值?
    小編今天為大家介紹美國德州大學奧斯汀校區政府系林澤民教授2016/6/6在臺灣政大社科院的演講,題目為《看電影學統計:p值的陷阱》。  院長、陳老師,各位老師、各位同學,今天很榮幸能夠到政大來,和大家分享一個十分重要的課題。
  • 美國頂級學術期刊宣布禁用p值,原來p值很危險
    一直以來,關於p值的討論爭論不斷。小編今天為大家介紹美國德州大學奧斯汀校區政府系林澤民教授2016/6/6在臺灣政大社科院的演講,題目為《看電影學統計:p值的陷阱》。院長、陳老師,各位老師、各位同學,今天很榮幸能夠到政大來,和大家分享一個十分重要的課題。
  • 800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話
    【新智元導讀】統計顯著性和p值是衡量研究可靠性的重要標準。這個標準是怎麼來的?今年3月Nature上一篇主張廢除p值的文章,為何獲得800位科學家聯名支持?如果沒有p值門檻,研究質量會出現大滑坡嗎?戳右邊連結上 新智元小程序 了解更多!每年,全球有數百萬學生修讀統計學課程。隨著世界上的數據量越來越大,統計學已成為越來越受歡迎的話題。
  • 【統計】p值和FDR
    從這裡我們可以看到,p值其實是「假陽性率FPR」,通過表格的第一列可以計算出。p值衡量的是一個原本應該是𝐻0的判斷被錯誤認為是𝐻1(𝑟𝑒𝑗𝑒𝑐𝑡𝐻0)的比例,所以它是針對單次統計推斷的一個置信度評估。從另一個方向理解,在假設𝐻0成立的前提下,即先假設「兩組沒有差異」,比較兩組的差值,如果差值符合正態分布,p值越小,說明「兩組沒有差異」的概率越小,通常情況下,當p值小於0.05時,認為是小概率事件,即「兩組沒有差異」「幾乎不可能發生。我們接受𝐻1,「兩組有明顯差異」,就是我們經常在論文裡看到的陽性結果。
  • 給數據科學家直白解釋P值的含義
    最近,有人問我如何向外行人簡單地解釋 p 值。我發現這很難做到。即使對了解 p 值的人,解釋 p 值總是一個令人頭疼的問題,更不用說對不懂統計學的人了。我去維基百科找了一些東西,這是它的定義:在統計假設檢驗中,對於給定的統計模型,p 值或概率值是在原假設為真時,統計值(如兩組間的樣本均值差)與實際觀察結果相等或更大的概率。
  • 隨手學統計:繞不過的 p 值
    原假設:我們認為品茶女士沒有品茶能力觀察結果:品茶女士把 8 杯茶都品了出來p 值:0.014這裡 p 值代表的含義是:如果品茶女士沒有品茶能力,那麼她品出 8 杯茶的概率是0.014。對,這個 p 值(概率)很小很小!所以根據小概率原理,Fisher 君毫無顧慮地把原假設推翻了。
  • 【p值之爭】 史丹福大學陸教授有話說
    觀察到的p-值是個統計量,也就是統計觀測值。自身有方差。有時看著p值很小,置信區間卻很寬。但所有的替代方案都會存在同樣的問題。所以p值是評價隨機影響的重要指標,是必要條件之一。但不是充分條件。只用p值決定科研成果是對p值的錯誤使用。醫生不會用一個指標去診斷疾病」。「臨床意義在先,統計學意義在後。無臨床意義的研究不需要統計驗證。」
  • 【p值之爭】史丹福大學陸教授有話說
    觀察到的p-值是個統計量,也就是統計觀測值。自身有方差。有時看著p值很小,置信區間卻很寬。但所有的替代方案都會存在同樣的問題。所以p值是評價隨機影響的重要指標,是必要條件之一。但不是充分條件。只用p值決定科研成果是對p值的錯誤使用。醫生不會用一個指標去診斷疾病」。「臨床意義在先,統計學意義在後。無臨床意義的研究不需要統計驗證。」
  • 白話空間統計之四:P值和Z值(中)
    隨機就不用說了,純粹的無模式,你既不能從隨機數據中獲取結論,也發現不了規律和模式。 拿到數據之後,我們都要進行零假設,然後驗證這份數據是不是具有隨機模式,如果有很大的概率是隨機模式,那麼這份數據的可分析性,基本上就微乎其微了(比如布朗運動的運動規律,估計沒有哪個人會無聊的去做研究,一方面根本就研究不出什麼結果來嘛,另一方面是隨機結果的分析也不具有可重現性)。 P值和Z得分分別表什麼呢?
  • 作為一名數據科學從業者,你應該知道的P值
    我無法告訴你數據科學家(甚至是成熟的科學家)在涉及到如何解釋p值時是多麼的手足無措。實際上,可以花點時間回答以下問題:如何解釋p值?P值有多麼的重要?因此, 這些值可以得到相當高的概率和樣本結果被認為是幸運的。最右邊的點(橙色)的p值小於alpha值(紅色)。因此,樣本結果是一個罕見的結果,不太可能是幸運的。因此,他們與分布有很大的不同。 。alpha值取決於正在執行的測試。如果我們不確定應該考慮什麼值,那麼將alpha值設為0.05被認為是一個不錯的約定。
  • 【驚爆】 美國頂級學術期刊宣布禁用p值【連載1】
    【引言】我國教育研究的專家張力學友突然推送一文於我,標題令我倒吸一口涼氣:《美國頂級學術期刊宣布禁用p值,原來p值很危險》!我本是藥品臨床研究的「門外漢」,但十幾年「浪跡」中藥CRO,深植於心一種「p值崇拜」,乃認為「無p值,不臨床。」然,1月22日,美國政治學頂級學術期刊《政治分析》在其官方twitter上宣布,從2018年開始的第26輯起禁用p值。
  • 你真的懂p值嗎? 說人話的統計學
    由此我們認為,我們的假設一上來就錯了。 ►根據p值進行統計推斷的思想跟反證法是一脈相承的。但是,兩者有一個關鍵的區別。由於隨機性的存在,在統計推斷中,我們無法像在反證法中一樣斬釘截鐵地認定原假設是錯誤的,我們只能根據「小概率事件在一次隨機實驗中不會發生」的原理做出能否推翻原假設的決策。
  • 假設檢驗:使用p值來接受或拒絕你的假設
    這一決定/界限在統計學上具有重要意義。置信水平顧名思義,我們有多自信:我們在做決定時有多自信。LOC(置信水平)應大於95%。不接受低於95%的置信度。顯著性水平(α)顯著性水平,用最簡單的術語來說,就是當事實上是真的時,錯誤地拒絕零假設的臨界概率。這也稱為I型錯誤率。
  • 統計︱P值-0.05就發表,不然就去死!
    對於p值的誤用會導致不良的科學風氣與成果(對於這一點大家沒有異議)。對一些科學領域逐漸增長的擔憂,催生了這份一致聲明。p值在一些領域已經成了決定研究論文是否值得出版的試金石。結果是,那些能夠給出超過某個隨意閾值的研究論文,更有可能被出版;同時具有更大或同等科研重要性的研究可能被扔在抽屜裡,不被科學界所見。  分歧大多圍繞著頻率論者VS貝葉斯方法的技術爭論,以及p值的補充與替代品。「分歧是巨大的。
  • qRT-PCR差異分析及P值計算
    P值(P-value),想必大家都不會陌生,它是用來判定假設檢驗結果的一個參數,說直白點就是P值代表了一種可能性,衡量的是隨機出錯的概率。在統計學中,一般要求P值小於0.05;如果P-value=0.05,意味著我們的實驗結果有5%的概率是隨機誤差引起的。
  • 統計學中一直提到的P值究竟是什麼?
    點擊上方藍字「誰說菜鳥不會數據分析」關注➕星標公眾號更多乾貨不錯過!本文轉載自:統計網結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。
  • 當統計學遇上大數據——P值消亡
    我要是能計算出這個概率,就知道「這個樣本來自該總體」這件事有多靠譜了,如果概率太小,就認為是不靠譜的事情,那麼就可以認定這個假設是錯的。這就是假設檢驗裡的「小概率事件原理」,這個概率就是後來風靡學術界的「P值」,一般認為概率小於5%,就是不靠譜的事情,則需要拒絕原假設。
  • 自然《科學方法:統計錯誤》統計有效性的黃金標準P值並不可靠(中英對照22k字附PDF發「自然p值統計錯誤」下載)
    下期文章全面介紹假設檢驗中p值的概念和統計學應用、論文分析和期刊使用情況;包括多個分析數據舉例和計算說明。自然《科學方法:統計錯誤》統計有效性的黃金標準P值並不可靠(21k字)目錄A科學方法:統計錯誤——P值,統計有效性的「黃金標準」,並不像許多科學家所假設的那樣可靠(20890字)離題了(P值的斷章取義)P值到底意味著什麼數值遊戲規則(嘗試改進P值)參考文獻作者信息參考文獻
  • 使用ggpubr包添加p值和顯著性標記
    stat_compare_means()這個函數是在 ggplot2基礎上擴展而來,可以在 ggplot或 ggboxplot生成的圖層基礎上添加顯著性標記和p值。允許值包括 p.signif(顯示顯著性水平), p.format(顯示p值)label.x, label.y: 數值。用於擺放標籤位置的坐標執行檢驗比較兩組獨立樣本均值準備測試數據testdata = read.table(".
  • 計算個「P值」,咱也不太懂,咱也不敢信
    在我們之前的推送中,展示過一個「P值可能具有誤導性」的例子:三位同學對同一基因在兩組樣本中的表達量的差異進行測定分析;其中,兩位同學的結論是差異不顯著,另一位同學的結論與它們相反(三個實驗重複夠嗎?再談「error bar「。)。當增加了樣本數量後,t檢驗計算的到的P值具有顯著性。