【引言】陸老師說,刊載在《上海精神醫學》2015年第27卷第6期的中文版譯者在翻譯時有多處「不盡人意」,比如「多樣性的翻譯是錯的。應該是變異,英文是variation ,也就是大家說的方差(variance)。觀察到的p-值是個統計量,也就是統計觀測值。自身有方差。有時看著p值很小,置信區間卻很寬。但所有的替代方案都會存在同樣的問題。所以p值是評價隨機影響的重要指標,是必要條件之一。但不是充分條件。只用p值決定科研成果是對p值的錯誤使用。醫生不會用一個指標去診斷疾病」。「臨床意義在先,統計學意義在後。無臨床意義的研究不需要統計驗證。」在這篇論文中陸老師還特別提出了數據質量的問題:「進入分析的數據是垃圾,所產出的只能是垃圾!」看來,任何一個從事臨床科研的工作者都應當避免成為有意和無意的垃圾製造者。
p 值之爭
概述:p值是生物醫學研究中使用最廣泛的統計學概念。最近,學界關於p值的效用以及p值的濫用與已發表的醫學研究無法重複性較差之間可能存在的關聯性有一些爭論。在本文中,我們以通俗易懂的方法介紹p值,並且解釋它的隨機性和局限性。然而,目前提出其它能替代p值的概念也有同樣的局限。我們得出了如下的結論:對於檢驗臨床試驗的中的零假設 (null hypothesis) 和替代假設 (alternative hypothesis) 來說,使用p值是一種有效的方法。然而,僅僅利用從某單一統計檢驗所得出的p值來判斷研究項目的科學價值則是一種對p值的濫用;為得到可信的臨床研究結果,我們需要將利用p值得到的推斷檢驗的結果與次要結果以及其它數據進行整合。對於在研究中闡釋統計結果而言,了解p值的多樣性和局限性是至關重要的。【關鍵詞:p值;統計推斷;假設檢驗;統計顯著性;科學可重複性】
1. 背景
在一個經典研究中,如臨床試驗,研究者可能對一個創新治療和安慰劑對照(或標準治療)兩組之間在一個預設的終點時的差異感興趣。初步證據表明創新治療可能會使患者受益,臨床試驗的目的在於嚴格驗證這個假設。
在我們證明一個新的、試驗性治療方案起作用之前,為了進行一個符合倫理的試驗,我們必須對兩種治療方案保持均衡,均衡意味著兩種治療方案間無差異。這一假設就是我們統計學上所指的零假設 (null hypothesis)。除了零假設,所有臨床試驗有一個工作假設 (working hypothesis),即試驗性治療不僅起作用,而且還有顯著的臨床好處。這一假設通常被稱為替代假設 (alternative hypothesis)。
在完成一個試驗的基礎上,我們分析研究試驗數據以確定支持哪一個假設,零假設或替代假設。1925 年,Fisher [1] 將零假設顯著性檢驗 (null hypothesis significance testing, NHST) 從背景噪聲引入目的各異的有趣發現中。NHST 檢驗在大多數科學學科中是使用最廣泛的數據分析方法 [2]。我們查看試驗中所觀察的兩種治療方法之間的差異,並且問我們自己:「在均衡假設(即,零假設)成立的情況下,觀察到兩組之間差異大於等於目前差異的概率是多少?」這種概率被稱為「p 值」[3] 或「顯著性概率」。當這個概率足夠小時,我們有信心認為治療方案之間沒有差異的可能性很小,因此,我們得出結論為試驗支持替代假設(即,促成該研究的工作假設)。當概率較大時,我們僅有少量的證據支持替代假設,儘管它可能仍然是正確的。
2. p 值之爭
p 值的動人之處在於它將信號(治療差異)和噪音(所估計信號的隨機變化)合併成為一個的衡量試驗數據所提供的證據強度的單一測量。p 值在科研界廣泛被採用,並且被認為是現代科學最有影響和最具變革性的統計概念。然而,儘管有這些成功之處,但是關於 p 值的使用是否應該對無法重複科研中的統計顯著性負責最近出現了辯論,這是限制臨床研究轉化為臨床實踐的一個嚴重問題。Halsey 等 [4] 在 Nature Methods 最近發表的自文章中討論到:「人們在使用 p 值時往往沒有意識到,在大多數情況下,一個研究的統計功效太低以至於 p 值無益餘數據解釋。研究人員如果放棄用 p 值而使用替代的統計方法來解釋數據會做的更好。」
按 照 這 一 思 路,Journal Basic and Applied Social Psychology 的編輯最近對他們雜誌發表的文章禁用 p 值和假設檢驗 [5]。
與這種觀點相反,我們認為 p 值本身不能因為科學研究結果缺乏可重複性而被指責。p值是作為在某一實驗中信噪比 (signal-to-noise)來衡量證據強度的一維度量。與所有統計量一樣,p 值是從數據中估計的,因而,它也受制於隨機變化,所以它的置信區間可以很寬,特別是當原始數據從一個相對較小的數據點樣本獲得的時候。例如,基於 Lazzeroni 等的工作 [6,7],對一項已報告單側 p 值為 2.5% 的檢驗進行相同的重複,p值的 95% 置信區間可以從 0% 到 79%。然而,該置信區間的寬度可以通過增加重複實驗的樣本大小而縮小。
一個常見的與可重複性無關的p值的誤用是,臨床醫生和其他人沒有受過統計訓練的應該人解釋不當。p值測量的既有結果是因為偶然性的概率,卻往往被錯誤地解釋為衡量關聯性強度的一個變量。例如,臨床試驗中較小的p值會被不正確的推測為該實驗幹預比對照組中幹預(如果有的話)具有更大的優越性。然而,如果樣本非常大,一個很小的、臨床上不顯著的效應值可能與非常低的p值相關。因此,一個小的p值並不一定意味著研究發現具有很大的臨床或生物利益。
研究人員已經提出了p值的幾個備選方案 [8,9],包括置信區間和貝葉斯統計。置信區間提供了二維信息,點估計(信號)和置信區間的寬度(噪聲),從而有可能比p值具有更多的信息,大家應該一直報告之。然而,置信區間是單位依賴的,因此很難在不同研究中比較。此外,基於置信區間接受或拒絕零假設的決定準則還是會得出與基於p值作為決定準則得出的相同的結論 —— 無論何時 95% 置信區間不包括一個參數的零假設的值,相應的p值即小於 0.05。貝葉斯統計學中的「貝葉斯置信區間 (Bayesian credible interval)」類似於頻率統計中的置信區間,是p值的另一個替代方法 [10]。這兩個替代方法,如p值一樣,當決定接受或拒絕一個臨床假設時會產生假陽性和假陰性率,並且可能會在展現發現的臨床和生物學意義上解釋錯誤。
3. 對數據可重複性而言,禁用 p 值並不是解決方法
一項成功的研究包括很多階段設計和分析,包括數據採集、處理和分析。這些步驟的最後一步就是推論統計,例如p值,以及運用統計值的決定準則來接受或拒絕所感興趣假設。在收集和分析數據的過程中,研究者們要做很多決定,例如如何收集數據、排除哪些觀察值以及合併和比較哪些條件 [11]。這些在數據分析之前的決定決定對最終結果的有效性比運用推理統計時產生的決定有更大的影響。
Simmons 等 [11] 表明儘管名義上能接受的最大假陽性率認可的是 5%(即,p<0.05),但是在一個單一研究中一些數據分析決策可以將假陽性率增加至 60%。為了過低估計防止假陽性率,他們推薦所有數據分析決策的公開化並且報告所有相關的比較,不僅僅是顯著性的結果。Gelman 和 Loken[13] 還推薦了一些更嚴謹的方法來減少發表中的假陽性結果:包括所有研究分為兩個階段,首先是基於理論的探索性研究,第二階段是對研究本身提前闡明數據處理與分析的所有細節的預註冊研究方案進行純粹的證性研究。這種方法可以有分析的自由性和靈活靈活性,同時也提供了足夠的嚴謹性,從而減少發表假陽性結果的數量。它有助於將合理有力的驗證性分析結果和需持有懷疑態度的探索性分析結果區分開來。
僅僅發表具有統計學意義的結果(「陽性」)的激勵導致了發表偏倚,這種現象就是陽性結果的研究可能比陰性結果的研究更有可能被發表。發表偏倚是一個嚴重的問題,它既會影響研究結果的重複性,或許更重要的是,這也會影響發表的研究成果在臨床指南和健康政策中的正確解釋和轉化 [15]。然而,發表偏倚主要是一種與 p 值使用無關的選擇性發表主要問題;陽性研究的選擇性報告也可以在其他推理統計中發生,如用來測試零假設和替代假設的貝葉斯臨界區間 [16]。發表偏倚無法通過禁用 p 值來降低,但可以採用更高的標準和科學評審程序並且鼓勵精心設計和陰性結果的研究發表。
研究的不可重複性的缺陷不能歸咎於p值的使用。正如指 Leek 和 Peng 指出的 [12],「清除劣質統計的科學需要審視每一步,不僅是最後一步」。臨床試驗研究是由明確的零假設和替代假設構建而成的,所以為假設檢驗使用p值是恰當的。禁用p值對科學研究成果的低重複性不是解決方案。
那麼,什麼是研究結果重複性差主要罪魁禍首?如果我們把統計統計決策看作是在一項研究中收集的數據所得出結論的科學效度的診斷測試,那麼p值可以被看作是一個實驗室測試值(類似於輔助臨床診斷決定的一項實驗室測試)。在這個比喻中,1 減去p值就是「診斷測試」的特異性,即接受沒有治療效果時接受零假設概率。統計功效是診斷測試的靈敏度,即能夠正確識別一個真實 / 有效的假設的能力。然而,如果只有一小部分研究進行了正確的(真實 / 有效)臨床假設,診斷 / 統計檢驗的陽性預測值(即,臨床假設得到正確的統計學顯著性的機率)將是低的。例如,使用一項 I 類錯誤率為5%(即95%的特異性)和80%的功效(靈敏度)的研究設計,當只有10%的臨床假設被驗證為真實的時候,陽性預測值(即,統計學顯著性結果是正確的可能性)僅為60%,對於較低統計功效的設計將會更糟。因此,禁用p值對於基於問題假設的研究來說不是一個解決方案。 這個概念Ioannidis博士 [17] 在他2005年著名的文章「為什麼大多數發表的研究結果是錯誤的」中已經解釋了。科學是一種迭代學習的過程,沒有捷徑。只要進行的研究中真實假設的比例是低的或研究的進行統計功效低(低靈敏度),結果都是不太可能重複的。進入分析的數據是垃圾,所產出的只能是垃圾!
為了提高研究結果的可重複性,我們必須首先嚴格執行科學原則,以產生定義準確和科學合理的假設。這需要通過深入的背景研究(通常包括系統綜述)來制定具有紮實基礎的方案,需要進行預實驗以證明概念,採用嚴格的方法來客觀評估結果措施併合理展開臨床試驗以確保高的統計功效(即,高靈敏度)。醫生不能根據單一的實驗室檢測值來診斷一種疾病,他們依靠收集證據來支持診斷測試。同樣,臨床試驗和其它醫學研究結果不能完全依靠主要結果的一個單一p值;我們應該考慮主要結果與支持主要結果的次要結果和其它依據的一致性。最後,報告研究結果的準確性、完整性、和透明方式非常重要的(例如,使用報告指南,見 http://www.equator-network.org),這樣可以使讀者可以使用或重複結果以清楚地理解該研究設計的優勢和局限性,以及該研究產生的數據分析所使用的統計方法的優點和局限性。
4. 結論
總之,p 值是測試臨床試驗研究假設的一個可接受的推斷統計。然而,過分依靠單一的 p 值來判斷一項研究的科學價值是對 p 值的一種濫用;研究結論需要基於一系列相互關聯的結果,而不是一個單一的統計檢驗。了解 p 值的局限性和多樣性是正確詮釋試驗結果的關鍵。在進行研究之前,更好的了解研究背景和有效地開展預試驗是最重要的步驟,可以提高科學研究結果的有效性和可重複性。由於自身的局限性而降低對 p 值和假設檢驗的使用對不可重複的臨床試驗研究不太可能較大的改善。
[注]該論文的備註和引文部分從略,詳細資料可來函索取。
Lu 博士是史丹福大學生物統計學教授,也是美國退伍軍人事務部 (VA) Palo Alto 研究計劃合作協調中心主任 (CSPCC),支持為退伍軍人全國性大型多中心臨床試驗和 DNA 銀行研究提供全面的研究支持。Lu 博士來自上海,他從復旦大學獲得數學學士學位並從上海交通大學獲得應用數學碩士學位,隨後從加州大學伯克利分校獲得生物統計學博士學位。他的研究已在 200 多個同行評審的出版物中發表,並覆蓋了廣泛的臨床領域,包括他目前在 Palo Alto CSPCC 監督指導的幾個心理健康試驗。Lu 博士是美國統計協會的當選院士,是伊芙琳修復紀念獎和 HealthSTAR 骨質疏鬆症醫學研究獎的獲得者。作為上海交通大學的校友,Lu 博士被聘為《上海精神醫學》生物統計學編委。進一步信息可以從 https://med.stanford.edu/ profiles/ying-lu 上獲取。
Belitskaya-Lévy 博士是一名美國退伍軍人事務部 (VA) Palo Alto 研究計劃合作協調中心的數理統計學家。她是退伍軍人合作研究計劃 ——DNA 銀行的生物統計學領頭人。Belitskaya-Lévy博士曾經是 Rob Tibshirani 教授的學生,並從史丹福大學獲得統計學博士學位。她在紐約大學醫學院生物統計學系任職超過 10 年。目前,她的工作重點是遺傳和基因組研究、高維數據分析的研究設計和統計方法學。