【p值之爭】史丹福大學陸教授有話說

2020-12-04 健康界

【引言】陸老師說,刊載在《上海精神醫學》2015年第27卷第6期的中文版譯者在翻譯時有多處「不盡人意」,比如「多樣性的翻譯是錯的。應該是變異,英文是variation ,也就是大家說的方差(variance)。觀察到的p-值是個統計量,也就是統計觀測值。自身有方差。有時看著p值很小,置信區間卻很寬。但所有的替代方案都會存在同樣的問題。所以p值是評價隨機影響的重要指標,是必要條件之一。但不是充分條件。只用p值決定科研成果是對p值的錯誤使用。醫生不會用一個指標去診斷疾病」。「臨床意義在先,統計學意義在後。無臨床意義的研究不需要統計驗證。」在這篇論文中陸老師還特別提出了數據質量的問題:「進入分析的數據是垃圾,所產出的只能是垃圾!」看來,任何一個從事臨床科研的工作者都應當避免成為有意和無意的垃圾製造者。

p 值之爭

概述:p值是生物醫學研究中使用最廣泛的統計學概念。最近,學界關於p值的效用以及p值的濫用與已發表的醫學研究無法重複性較差之間可能存在的關聯性有一些爭論。在本文中,我們以通俗易懂的方法介紹p值,並且解釋它的隨機性和局限性。然而,目前提出其它能替代p值的概念也有同樣的局限。我們得出了如下的結論:對於檢驗臨床試驗的中的零假設 (null hypothesis) 和替代假設 (alternative hypothesis) 來說,使用p值是一種有效的方法。然而,僅僅利用從某單一統計檢驗所得出的p值來判斷研究項目的科學價值則是一種對p值的濫用;為得到可信的臨床研究結果,我們需要將利用p值得到的推斷檢驗的結果與次要結果以及其它數據進行整合。對於在研究中闡釋統計結果而言,了解p值的多樣性和局限性是至關重要的。【關鍵詞:p值;統計推斷;假設檢驗;統計顯著性;科學可重複性】

1. 背景

在一個經典研究中,如臨床試驗,研究者可能對一個創新治療和安慰劑對照(或標準治療)兩組之間在一個預設的終點時的差異感興趣。初步證據表明創新治療可能會使患者受益,臨床試驗的目的在於嚴格驗證這個假設。

在我們證明一個新的、試驗性治療方案起作用之前,為了進行一個符合倫理的試驗,我們必須對兩種治療方案保持均衡,均衡意味著兩種治療方案間無差異。這一假設就是我們統計學上所指的零假設 (null hypothesis)。除了零假設,所有臨床試驗有一個工作假設 (working hypothesis),即試驗性治療不僅起作用,而且還有顯著的臨床好處。這一假設通常被稱為替代假設 (alternative hypothesis)。

在完成一個試驗的基礎上,我們分析研究試驗數據以確定支持哪一個假設,零假設或替代假設。1925 年,Fisher [1] 將零假設顯著性檢驗 (null hypothesis significance testing, NHST) 從背景噪聲引入目的各異的有趣發現中。NHST 檢驗在大多數科學學科中是使用最廣泛的數據分析方法 [2]。我們查看試驗中所觀察的兩種治療方法之間的差異,並且問我們自己:「在均衡假設(即,零假設)成立的情況下,觀察到兩組之間差異大於等於目前差異的概率是多少?」這種概率被稱為「p 值」[3] 或「顯著性概率」。當這個概率足夠小時,我們有信心認為治療方案之間沒有差異的可能性很小,因此,我們得出結論為試驗支持替代假設(即,促成該研究的工作假設)。當概率較大時,我們僅有少量的證據支持替代假設,儘管它可能仍然是正確的。

2. p 值之爭

p 值的動人之處在於它將信號(治療差異)和噪音(所估計信號的隨機變化)合併成為一個的衡量試驗數據所提供的證據強度的單一測量。p 值在科研界廣泛被採用,並且被認為是現代科學最有影響和最具變革性的統計概念。然而,儘管有這些成功之處,但是關於 p 值的使用是否應該對無法重複科研中的統計顯著性負責最近出現了辯論,這是限制臨床研究轉化為臨床實踐的一個嚴重問題。Halsey 等 [4] 在 Nature Methods 最近發表的自文章中討論到:「人們在使用 p 值時往往沒有意識到,在大多數情況下,一個研究的統計功效太低以至於 p 值無益餘數據解釋。研究人員如果放棄用 p 值而使用替代的統計方法來解釋數據會做的更好。」

按 照 這 一 思 路,Journal Basic and Applied Social Psychology 的編輯最近對他們雜誌發表的文章禁用 p 值和假設檢驗 [5]。

與這種觀點相反,我們認為 p 值本身不能因為科學研究結果缺乏可重複性而被指責。p值是作為在某一實驗中信噪比 (signal-to-noise)來衡量證據強度的一維度量。與所有統計量一樣,p 值是從數據中估計的,因而,它也受制於隨機變化,所以它的置信區間可以很寬,特別是當原始數據從一個相對較小的數據點樣本獲得的時候。例如,基於 Lazzeroni 等的工作 [6,7],對一項已報告單側 p 值為 2.5% 的檢驗進行相同的重複,p值的 95% 置信區間可以從 0% 到 79%。然而,該置信區間的寬度可以通過增加重複實驗的樣本大小而縮小。

一個常見的與可重複性無關的p值的誤用是,臨床醫生和其他人沒有受過統計訓練的應該人解釋不當。p值測量的既有結果是因為偶然性的概率,卻往往被錯誤地解釋為衡量關聯性強度的一個變量。例如,臨床試驗中較小的p值會被不正確的推測為該實驗幹預比對照組中幹預(如果有的話)具有更大的優越性。然而,如果樣本非常大,一個很小的、臨床上不顯著的效應值可能與非常低的p值相關。因此,一個小的p值並不一定意味著研究發現具有很大的臨床或生物利益。

研究人員已經提出了p值的幾個備選方案 [8,9],包括置信區間和貝葉斯統計。置信區間提供了二維信息,點估計(信號)和置信區間的寬度(噪聲),從而有可能比p值具有更多的信息,大家應該一直報告之。然而,置信區間是單位依賴的,因此很難在不同研究中比較。此外,基於置信區間接受或拒絕零假設的決定準則還是會得出與基於p值作為決定準則得出的相同的結論 —— 無論何時 95% 置信區間不包括一個參數的零假設的值,相應的p值即小於 0.05。貝葉斯統計學中的「貝葉斯置信區間 (Bayesian credible interval)」類似於頻率統計中的置信區間,是p值的另一個替代方法 [10]。這兩個替代方法,如p值一樣,當決定接受或拒絕一個臨床假設時會產生假陽性和假陰性率,並且可能會在展現發現的臨床和生物學意義上解釋錯誤。

3. 對數據可重複性而言,禁用 p 值並不是解決方法

一項成功的研究包括很多階段設計和分析,包括數據採集、處理和分析。這些步驟的最後一步就是推論統計,例如p值,以及運用統計值的決定準則來接受或拒絕所感興趣假設。在收集和分析數據的過程中,研究者們要做很多決定,例如如何收集數據、排除哪些觀察值以及合併和比較哪些條件 [11]。這些在數據分析之前的決定決定對最終結果的有效性比運用推理統計時產生的決定有更大的影響。   

Simmons 等 [11] 表明儘管名義上能接受的最大假陽性率認可的是 5%(即,p<0.05),但是在一個單一研究中一些數據分析決策可以將假陽性率增加至 60%。為了過低估計防止假陽性率,他們推薦所有數據分析決策的公開化並且報告所有相關的比較,不僅僅是顯著性的結果。Gelman 和 Loken[13] 還推薦了一些更嚴謹的方法來減少發表中的假陽性結果:包括所有研究分為兩個階段,首先是基於理論的探索性研究,第二階段是對研究本身提前闡明數據處理與分析的所有細節的預註冊研究方案進行純粹的證性研究。這種方法可以有分析的自由性和靈活靈活性,同時也提供了足夠的嚴謹性,從而減少發表假陽性結果的數量。它有助於將合理有力的驗證性分析結果和需持有懷疑態度的探索性分析結果區分開來。

僅僅發表具有統計學意義的結果(「陽性」)的激勵導致了發表偏倚,這種現象就是陽性結果的研究可能比陰性結果的研究更有可能被發表。發表偏倚是一個嚴重的問題,它既會影響研究結果的重複性,或許更重要的是,這也會影響發表的研究成果在臨床指南和健康政策中的正確解釋和轉化 [15]。然而,發表偏倚主要是一種與 p 值使用無關的選擇性發表主要問題;陽性研究的選擇性報告也可以在其他推理統計中發生,如用來測試零假設和替代假設的貝葉斯臨界區間 [16]。發表偏倚無法通過禁用 p 值來降低,但可以採用更高的標準和科學評審程序並且鼓勵精心設計和陰性結果的研究發表。

研究的不可重複性的缺陷不能歸咎於p值的使用。正如指 Leek 和 Peng 指出的 [12],「清除劣質統計的科學需要審視每一步,不僅是最後一步」。臨床試驗研究是由明確的零假設和替代假設構建而成的,所以為假設檢驗使用p值是恰當的。禁用p值對科學研究成果的低重複性不是解決方案。

那麼,什麼是研究結果重複性差主要罪魁禍首?如果我們把統計統計決策看作是在一項研究中收集的數據所得出結論的科學效度的診斷測試,那麼p值可以被看作是一個實驗室測試值(類似於輔助臨床診斷決定的一項實驗室測試)。在這個比喻中,1 減去p值就是「診斷測試」的特異性,即接受沒有治療效果時接受零假設概率。統計功效是診斷測試的靈敏度,即能夠正確識別一個真實 / 有效的假設的能力。然而,如果只有一小部分研究進行了正確的(真實 / 有效)臨床假設,診斷 / 統計檢驗的陽性預測值(即,臨床假設得到正確的統計學顯著性的機率)將是低的。例如,使用一項 I 類錯誤率為5%(即95%的特異性)和80%的功效(靈敏度)的研究設計,當只有10%的臨床假設被驗證為真實的時候,陽性預測值(即,統計學顯著性結果是正確的可能性)僅為60%,對於較低統計功效的設計將會更糟。因此,禁用p值對於基於問題假設的研究來說不是一個解決方案。 這個概念Ioannidis博士 [17] 在他2005年著名的文章「為什麼大多數發表的研究結果是錯誤的」中已經解釋了。科學是一種迭代學習的過程,沒有捷徑。只要進行的研究中真實假設的比例是低的或研究的進行統計功效低(低靈敏度),結果都是不太可能重複的。進入分析的數據是垃圾,所產出的只能是垃圾!

為了提高研究結果的可重複性,我們必須首先嚴格執行科學原則,以產生定義準確和科學合理的假設。這需要通過深入的背景研究(通常包括系統綜述)來制定具有紮實基礎的方案,需要進行預實驗以證明概念,採用嚴格的方法來客觀評估結果措施併合理展開臨床試驗以確保高的統計功效(即,高靈敏度)。醫生不能根據單一的實驗室檢測值來診斷一種疾病,他們依靠收集證據來支持診斷測試。同樣,臨床試驗和其它醫學研究結果不能完全依靠主要結果的一個單一p值;我們應該考慮主要結果與支持主要結果的次要結果和其它依據的一致性。最後,報告研究結果的準確性、完整性、和透明方式非常重要的(例如,使用報告指南,見 http://www.equator-network.org),這樣可以使讀者可以使用或重複結果以清楚地理解該研究設計的優勢和局限性,以及該研究產生的數據分析所使用的統計方法的優點和局限性。

4. 結論

總之,p 值是測試臨床試驗研究假設的一個可接受的推斷統計。然而,過分依靠單一的 p 值來判斷一項研究的科學價值是對 p 值的一種濫用;研究結論需要基於一系列相互關聯的結果,而不是一個單一的統計檢驗。了解 p 值的局限性和多樣性是正確詮釋試驗結果的關鍵。在進行研究之前,更好的了解研究背景和有效地開展預試驗是最重要的步驟,可以提高科學研究結果的有效性和可重複性。由於自身的局限性而降低對 p 值和假設檢驗的使用對不可重複的臨床試驗研究不太可能較大的改善。

[注]該論文的備註和引文部分從略,詳細資料可來函索取。

Lu 博士是史丹福大學生物統計學教授,也是美國退伍軍人事務部 (VA) Palo Alto 研究計劃合作協調中心主任 (CSPCC),支持為退伍軍人全國性大型多中心臨床試驗和 DNA 銀行研究提供全面的研究支持。Lu 博士來自上海,他從復旦大學獲得數學學士學位並從上海交通大學獲得應用數學碩士學位,隨後從加州大學伯克利分校獲得生物統計學博士學位。他的研究已在 200 多個同行評審的出版物中發表,並覆蓋了廣泛的臨床領域,包括他目前在 Palo Alto CSPCC 監督指導的幾個心理健康試驗。Lu 博士是美國統計協會的當選院士,是伊芙琳修復紀念獎和 HealthSTAR 骨質疏鬆症醫學研究獎的獲得者。作為上海交通大學的校友,Lu 博士被聘為《上海精神醫學》生物統計學編委。進一步信息可以從 https://med.stanford.edu/ profiles/ying-lu 上獲取。

Belitskaya-Lévy 博士是一名美國退伍軍人事務部 (VA) Palo Alto 研究計劃合作協調中心的數理統計學家。她是退伍軍人合作研究計劃 ——DNA 銀行的生物統計學領頭人。Belitskaya-Lévy博士曾經是 Rob Tibshirani 教授的學生,並從史丹福大學獲得統計學博士學位。她在紐約大學醫學院生物統計學系任職超過 10 年。目前,她的工作重點是遺傳和基因組研究、高維數據分析的研究設計和統計方法學。

相關焦點

  • 800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話
    【新智元導讀】統計顯著性和p值是衡量研究可靠性的重要標準。這個標準是怎麼來的?今年3月Nature上一篇主張廢除p值的文章,為何獲得800位科學家聯名支持?如果沒有p值門檻,研究質量會出現大滑坡嗎?戳右邊連結上 新智元小程序 了解更多!每年,全球有數百萬學生修讀統計學課程。隨著世界上的數據量越來越大,統計學已成為越來越受歡迎的話題。
  • 前財政副部長、史丹福大學教授約翰-泰勒:疫情下的教育之爭
    Taylor)斯坦福--在經過了多年教育改革呼聲後,COVID-19終於成為美國教育體系改善的催化劑。美國教育分化----特別是K-12年級(高中及以前)的分化----肉眼可見。教育質量和教育普及度的差異成為經濟、社會和種族不平等性的重要源頭,導致了從奧斯汀和奧克蘭到伯特蘭和西雅圖的社會動亂。
  • JAMA:p值檢驗,你用對了嗎?
    2016年3月18日 訊 /生物谷BIOON/ --最近一篇關於p值檢驗的總數統計總結了1990至2015以來的多篇生物醫學文獻,發現被錯誤理解的統計數據越來越多,報導p值時沒有同時報導應效應量和置信區間指標。史丹福大學醫學院的研究人員做了一項針對數百萬計的期刊文章的研究統計。
  • P值之死
    一、一個悲傷的故事:破滅的年少成名之夢首先跟大家說一個悲傷的故事,該故事來源於nature最近發布的一篇文章「statistical errors」,我把這個故事叫做「破滅的年少成名之夢」話說,維吉尼亞大學有一位意氣風發俊朗不凡的博士研究生莫德爾。
  • 驚爆| p值不是什麼?【連載3】
    點擊查看 【引言】昨日轉載美國德州大學奧斯汀校區政府系林澤民教授2016年在臺灣政大社科院的演講《看電影學統計:p值的陷阱》,他首先講的p值是什麼?今天刊出的是p值不是什麼?由於這部分的文字比較長,將分三期刊出。
  • 數據造假新手段「P值黑客」
    如今,在科學研究中,出現了比學術欺詐更令人擔憂發指的行為——P值黑客(P-hacking)。「P值黑客」是指操作科學數據,從而使結果看上去具有統計學意義的行為。這個詞最早由賓夕法尼亞大學的西蒙松教授提出,一起來看看他是怎麼說的:Professor Uri Simonsohn of UPenn discussed what he refers to as "p-hacking."
  • 史丹福大學終身教授崔屹專訪
    原標題:史丹福大學終身教授崔屹專訪 本文授權轉載自微信公眾號「 清華管理評論」 文 / 張春晏:《清華管理評論》高級編輯 崔屹認為,對於自己而言,堅實的科研基礎、學科交叉的優勢、專注的能力、持續學習成長的能力,以及斯坦福的自由之風,共同成就了自己。 TBR:除了斯坦福教授、發明家這樣的頭銜,您還是一位創業家。您已經創辦了第二家公司,跟我們講講您創辦兩家公司的經歷。
  • 走進矽谷:你可能被史丹福大學的故事騙了
    而史丹福大學,體現的則是建築之美,猶如壁畫般的建築,處處透露著宗教的色彩。需要注意的是,宗教並不具備迷信的色彩,很多西方的知名建築,都和宗教相關。儘管風景優美,這裡並沒有像中國的大學校園一樣遊人如織。當然,這是美國大學的共同特徵,不像北大清華,都變成一日遊的景點了。所以,你在校園裡,能夠感覺到非常安靜,遠離喧囂。
  • P值之死|當統計學遇上大數據
    一、一個悲傷的故事:破滅的年少成名之夢首先跟大家說一個悲傷的故事,該故事來源於nature最近發布的一篇文章「statistical errors」,我把這個故事叫做「破滅的年少成名之夢」話說,維吉尼亞大學有一位意氣風發俊朗不凡的博士研究生莫德爾。
  • 美國宣布禁用p值,原來p值很危險,如何取代p值?
    以《政治分析》在政治學之地位,其禁用p值的決定,將會引起連鎖效應,導致其他刊物跟進。一直以來,關於p值的討論爭論不斷。小編今天為大家介紹美國德州大學奧斯汀校區政府系林澤民教授2016/6/6在臺灣政大社科院的演講,題目為《看電影學統計:p值的陷阱》。  院長、陳老師,各位老師、各位同學,今天很榮幸能夠到政大來,和大家分享一個十分重要的課題。
  • 驚爆| 只要是樣本研究 p值不能少【連載5】
    點擊查看 【引言】北京大學統計學專家姚晨老師認為:只要是樣本研究,p值不能少(詳見本文【微點評】),山西大學統計學專家仇麗霞老師從「質性研究」和「量性研究」角度分析認為「目前,p值是抽樣研究結論推斷的『唯一』標準(詳見本文【微點評】)。看來我國醫學統計專家的意見比較統一。
  • 被Nature科學家封殺的P值,到底有什麼意義?
    Nature上的統計學家早就發現,P值本身無法提供支持相關模式或假說之證據,P值可能給我們每個人都上演了一場「楚門的世界」,先附上Nature連結,看看他們怎麼說。Nature連結:https://www.nature.com/articles/d41586-019-00857-9 發布這篇文章的三位統計學家,分別是瑞士巴塞爾大學的動物學教授
  • 美國史丹福大學教授崔屹訪問理化所
    美國史丹福大學教授崔屹訪問理化所 2018-03-12 理化技術研究所 【字體:】 語音播報   應理化「未來論壇」、中國科學院仿生材料與界面科學院重點實驗室邀請,美國史丹福大學教授崔屹於
  • 九成以上研究者或無法正確理解p值
    況且,由於p 值會因研究設計和操作的不同自然而言地有一定差異,這就意味著在不同的實驗中p值本就沒有可比性。鑑於以上種種理由,執科學發表之牛耳的自然雜誌(Nature),2018年發表了一篇800多位科學家聯合署名的反對濫用統計顯著性的評論文章。
  • 薛其坤會見史丹福大學教授、諾貝爾獎得主朱棣文
    薛其坤會見史丹福大學教授、諾貝爾獎得主朱棣文清華新聞網10月31日電 10月28日上午,史丹福大學教授、美國能源部前部長、諾貝爾獎得主朱棣文一行訪問清華,副校長薛其坤在工字廳會見了來賓,雙方對加強科研合作等內容交換了意見。
  • 當統計學遇上大數據——P值消亡
    「statistical errors」,我把這個故事叫做「破滅的年少成名之夢」        話說,維吉尼亞大學有一位意氣風發俊朗不凡的博士研究生莫德爾。莫老兄十分有把握能把自己的論文發表在高影響因子的刊物上。
  • 【論p】藥企研發主管們有話說
    點擊查看 【L立津】關於p值的「爭論」我認為很有意義。科學研究應當鼓勵百家爭鳴,當然,不急於發聲也是一種科學態度吧?就p值而言,我在想,統計學意義也好,臨床意義也罷,我們需要面對的一個變化是「大數據」「大樣本量」的時代變化……。
  • 史丹福大學教授崔屹:中國新能源汽車大有可為
    致力於用納米材料提升鋰電池密度的史丹福大學終身教授、納米材料科學家崔屹提出,「如果鋰電池能量密度能達到500瓦時/每千克,電動車一次充電就可以開800-1000公裡。預計十年內,我們將開發出適用於電動車的高密度電池。」近日,南方日報記者在史丹福大學辦公室裡對崔屹進行了獨家專訪,就中美新能源汽車產業趨勢與粵港澳大灣區發展等話題進行了交流。在他看來,中國電動新能源車或將在未來超過美國。
  • 史丹福大學材料科學與工程系終身教授崔屹做客北洋大學堂
    本站訊(通訊員 孫潔 陶衛靜)應化工學院邀請,9月12日下午,美國史丹福大學材料科學與工程系終身教授、世界知名科學期刊《納米快訊》副主編、美國灣區光伏聯盟主任和電池互動環節中,在場師生就鋰離子電池的工業化應用等問題與崔教授進行了面對面地討論,學生代表向崔教授贈送了北洋大講堂紀念品並向其表示衷心的感謝。
  • 史丹福大學 Stanford University
    這也側面證明了史丹福大學優秀的教學實力和強悍的就業競爭力。 同時它也是相當「壕」的大學之一,根據《福布斯》2010年盤點的億萬富豪最多的大學,史丹福大學名列第二,億萬富豪數量達28位,僅次於哈佛大學。