隨著循證醫學成為臨床醫學研究中一項重要的理論和方法,臨床醫學的發展越來越依賴循證醫學研究結果的指導。總體而言,臨床醫學研究結果的意義可以分為兩個部分,即臨床意義和統計學意義。臨床意義是否具有顯著性,主要觀察的是結果效應的大小,而統計學意義是否具有顯著性,則主要觀察的是P值的大小。因此,P值成為了循證醫學中一項重要的臨床醫學結果指標,但是,隨著對循證研究及臨床實踐認識的逐步深入,學術界發現做出科學的論斷不能單純依靠P值。
自1925年Ronald Fisher 提出P值概念以來,P值一直被廣泛應用於臨床試驗的結果分析中,並且通常被認為是判斷臨床試驗結論的標準,當P<0.05時,結果呈陽性,當P>0.05時,結果呈陰性。但近年來,關於「Statistical significance(統計顯著性)」和P值的爭議一直存在。2014年,一篇刊發在Nature雜誌上名為《Scientific method:statistical errors》的文章對P值的可靠性提出了質疑。對此,2016年3月美國統計協會(American Statistical Association, ASA)發布了《ASA關於P值的聲明:背景、過程和目的》。ASA隨後又發布了《ASA關於統計意義和P值的聲明》,該聲明給出了P值的定義及各項準則。最終P值被定義為:「P值是指在特定的統計假設模型下,數據的某個統計指標(如兩組樣本均數之差)等於觀察值或比觀察值更為極端的概率。」
臨床意義及統計學意義是臨床研究關注的重點,而這兩者分別由效應大小以及P值體現。對於真正有臨床意義的研究而言,不僅需要統計學角度有意義,更應該明確的是臨床獲益的程度。若學者只關注P值,則極有可能忽略真正的臨床獲益,鑑於有統計學顯著意義的文章更容易發表,而可能同樣重要的非統計學顯著結果則被鎖在抽屜裡,無法被社會獲知,這就是著名的抽屜效應(File-drawer effect)。
2016年ASA發布的P值定義及各項準則中提到:「A p-value, or statistical significance, does not measure the size of an effect or the importance of a result.」即「P值不等同於效應的大小或研究結果的重要性」。由此我們得知,並不是P值越小表示效應越大,結果越重要,也不是P值越大表示效應越小,結果越不重要。對臨床試驗結果進行科學論斷時,需要結合研究設計、數據質量、數據分析等證據來進行綜合推斷。
那麼,學者們應該如何綜合考慮統計學意義和臨床獲益,從而探討臨床試驗的結論呢?可以考慮從以下兩個方面進行探討:
如果試驗主要結局為陰性,即P>0.05無統計學意義,可以考慮從以下幾個方面進一步探討其臨床意義和研究論斷:
當對比治療組和對照組的結果後未獲得P<0.05的優效結論時,不能孤立地認定治療組療效不佳甚至直接否定其臨床意義。這種結果常見於已上市的有效藥物與標準治療方法的比較,在某些情況下,比如標準治療方法療效已經足夠好,治療組療效僅略優於對照組,所以兩組極有可能在差異性上沒有統計學意義。
當一個研究的主要結局為陰性,需要進一步求證次要結局中是否存在P<0.05的情況。若次要結局中確實存在陽性結果,那麼這部分研究結果依舊值得進行進一步探討是否有其他方面的獲益,而不是僅僅依靠主要結局指標的P值來判斷是否有意義。因為次要結局的陽性發現也可以對臨床實踐和治療指南起到一定程度的影響。
目前研究人員已越來越重視藥物對人類產生嚴重危害的不良反應。藥物的安全性問題一直以來也受到我國藥品管理部門高度的重視。一項研究不僅需要評價主要結局,同時也需對一些次要結局及安全性進行評估。所以儘管一項研究的主要結局結果為陰性也不可直接否定該研究,研究人員仍需要考慮該研究的次要結局和安全性方面的獲益情況。
一些藥物不僅短期使用可以快速緩解症狀,長期應用還能達到改善預後的目標。這類藥物通常需要較長的研究時間才能觀察到其顯著的統計學意義,也只有通過長時間的研究才能得出這類藥物最大、最優的療效。因此,要探討藥物最佳臨床療效、長期應用效應,研究時間的設置尤為重要。此外,樣本量如果設置得不合理,過大或過小都會影響樣本量效力和統計學效力,所以一項研究的研究時間和樣本量在探討臨床意義的時候也是很重要的。
如果試驗主要結局為陽性,即P<0.05時,表明有統計學意義,可以考慮從以下幾個方面進一步探討其臨床意義和研究論斷:
如果試驗想更加確信治療措施之間是否存在差異,那麼P值的設定應該更小。這個建議來自於一篇名為《重新定義統計顯著性(Redefine Statistical Significance)》的論文,這篇論文由72名專家共同參與。該論文的發表,激起了科學界對P<0.005這一設定的探討熱潮。有學者認為將顯著性閾值改為P<0.005雖然能降低「假陽性」,但很有可能會給研究人員帶來更大的壓力,迫使研究人員進行大規模的研究,甚至是出現偏激行為而強行使P<0.005。儘管如此,將P值設定為小於0.005還是比較簡單的,可以應用於已發表的和未來的研究,可迅速去除大量沒有研究價值、沒有臨床意義的臨床試驗。
臨床試驗的結果除了要具備統計學意義還需要具備臨床獲益,這取決於觀察獲益的相對指標(如風險比HR)的大小,並且需要提供95%的置信區間。
通常在臨床試驗中會將替代指標和複合指標作為試驗的主要結局,但這些指標都不能完全等同於硬指標(如死亡、心腦血管事件等)。目前已有部分大規模臨床試驗因為主要結局的指標設定不合理而遭到質疑,所以有必要繼續探討替代指標或複合指標中究竟是其中哪些指標導致了陽性結果,才更有利於對臨床試驗結果的科學解讀。
當進行小樣本臨床試驗時,一定要引起重視,因為小樣本試驗獲得陽性結果,即P<0.05時,有可能是治療效應的誇大而出現的假陽性結果。
當一個臨床試驗顯示陽性結果時,還必須考慮安全性問題。在對試驗結果進行解讀時也應該注重綜合分析統計學數據、療效有效性、安全性三者的權衡。
臨床研究結果是用於指導臨床實踐的,所以我們在解讀臨床研究結果時應該綜合考慮該試驗的研究設計、數據質量、臨床獲益等多種因素,而不能僅僅依靠P值來下結論。
P值是一項重要的臨床醫學結果指標,但是需要注意的是,P值提供的信息有限,將科學的結論推斷簡化為僅評估一個標準(如P<0.05)具有一定片面性,可以結合其他適宜的方法(如計算置信區間),對研究結果進行數據分析。臨床學者在進行臨床結果的解讀時,需要同時重視針對效應量區間估計結果所呈現的統計學意義和臨床意義,這樣才能更全面、更準確地評估研究結果的意義。
高質量循證研究的設計、實施需要耗費大量的人力、物力及財力,其成果的公布更是「重中之重」,選擇何種方式首次公布研究結果?其意義何在?敬請期待下期精彩內容。