過去二十年以來,統治整個臨床研究領域的方法學範式是循證醫學,對於臨床醫生而言,循證醫學代表著三樣東西:大樣本前瞻性臨床試驗,尤其是大樣本隨機對照試驗(RCT);Meta-分析;循證指南。循證指南基於RCT和Meta-分析,尤其是後者,在權威的循證醫學國際組織Cochrane協作網的定義中,是所謂的「最高級別」的臨床證據,被認為是制定指南以及指導臨床醫生進行診療決策最重要的科學依據。
Meta-分析的緣起
Meta-分析,簡單來說,就是將來自於已經發表的臨床試驗數據,通過一定的規範化處理後,合併到一起,然後看看這合併後的結果,與原來的單個研究有什麼不同或者相同之處。
既然可以做臨床試驗,為什麼還需要Meta-分析?作為從循證醫學進入中國之初就開始進行Meta-分析研究的醫生和科學家,我們認為以下幾個理由是主要的:
●大多數臨床試驗的樣本量不夠大。樣本量小了,其對假說的驗證能力就低了,但是大樣本臨床試驗成本很高。把來自於很多個研究者的臨床試驗通過Meta-分析合併在一起,可以在不增加成本的情況,很快地增加樣本量,從而減少達到有效樣本量所需結論的成本。
●即使近年來單個試驗樣本量越來越大,但是越大樣本的大型研究,其受到研究者和資助者主客觀因素的影響也很多,設計可能未必很合理,得到的結論往往是良莠不齊。嚴格遵循國際標準的Meta-分析,會全面地梳理這些因素,從而為一些爭論不休的問題理清思路,這一意義上,Meta-分析具有某種臨床試驗裁判官的位置。
●既然很多臨床試驗研究的對象具有某種相似性,為什麼不把這些看起來相似的試驗的數據合併在一起呢?
對於上世紀後半葉的臨床研究者來說,這些理由是強有力的。因此,Meta-分析發展並大大興旺起來。Meta-分析興起之初,對於若干重要臨床爭論的解決提供了很好的路徑,成為劃時代的臨床科學研究工具。
Meta-分析在方法學上的先天不足
但是,Meta-分析是具有先天缺陷的。這就是所謂的「異質性」(heterogeneity)。那麼,什麼是異質性呢?這個詞對於統計專業之外的讀者有點拗口,不過把它的反義詞拿出來,就有助於理解了,那就是「一致性」(homogeneity),可以直觀地理解為臨床試驗之間所具有的相似性。客觀現實是:即使臨床試驗是針對同一類疾病、同種治療手段而開展的,由於人和人之間具有的差異性,由於試驗設計以及試驗環境的差異性,我們不可能找到絕對相同的兩個研究。但研究間可以存在大小不等的相似性。當在不同時間、地點或由不同研究者所進行的試驗具有相當的相似性時,合併它們就是合理的。為達此目的,就必須確定一種分類界限:即從大量研究中找出一些具相似研究,並確認它們本質上的相似性,將它們和別的、本質上完全不同(差異過大)的研究區分開來。異質性指的就是這種存在於研究之間的、根本上的差異性。本質上不同的研究不應當合併,不解決異質性問題而進行的任何Meta-分析,是不科學的。
經典異質性檢驗:理論與統計學上的缺陷
Meta-分析的先驅者們深知異質性問題的關鍵性,從很早的時候起,他們就努力尋找測度異質性的方法。最終發展定量化評估方法,此即目前流行的以Q和I²為代表的所謂「異質性檢驗」。然而,我們剛剛發表的一個研究從數學上證明:這些經典的,已經襲用十餘年的「異質性檢驗」方法學是有缺陷的。換句話說,過去十幾年來的循證醫學,其貌似強大的地基,實是建立於沙灘之上的。
Meta-分析的不可靠性:數學證明
科克倫教授(Cochran)及其同事們在創立Meta-分析時就發現,不同的臨床試驗在數據採集、樣本的具體情況方面所具有的差異屬性實在是太多了,要證明能夠將來自不同研究的數據合併在一起分析在數學上是可接受的(legitimate),並不是那麼容易。定義異質性並加以定量評價,一直是循證醫學發展過程中在其方法學領域最為重要的問題之一。
Q統計量是用來評價Meta-分析研究間的差異總和的一種統計量。Q值越大,說明所納入的研究之間存在越大的異質性;反之,Q值越小,則說明所納入的研究之間的差異性越小。但Q的計算方法中隱含了對研究數目的依賴。當納入研究的數量逐漸增大時,Q值將發生「過度膨脹」,從而造成假陽性檢驗結果(即不論研究是否真的來自於相似的抽樣總體,只要研究數增加,Q值都會將最終結果判定為「來自於不同總體」)。為解決Q對研究數量不當依賴問題,英國循證醫學專家希金斯(Higgins J)提出通過Q的計算公式中減去樣本數的修正思路,他們將這一修正方法稱之為「I²檢驗」,並認為I²因而比Q更為合理。希金斯將這一方法寫成研究論文,發表於2003年的《不列顛醫學雜誌》(British Medical Journal,BMJ)。此後,I²迅速被業界接受為異質性度量的標準,被寫入了包括Cochrane系統評價手冊在內的幾乎所有循證醫學教科書,是如今幾乎每一篇Meta-分析都會用到的方法。
但是,由四川省人民醫院聯合國內多家知名研究單位的多學科專家共同完成的這項研究,從數學上證明了上述經典方法是不可靠的。我們通過數值仿真證明:當樣本數逐漸增大的時候,I²值將隨著之而增加,其上升趨勢單調不降(見下圖)。這意味著只要研究樣本量足夠大,哪怕是根本不可能存在異質性的、來自同一總體的抽樣,仍然會被I2檢驗判定為存在有異質性。這一研究也證明Q同樣依賴於樣本量的大小。
(I²值隨樣本量增加而線性增加)
異質性檢驗本質上是為保障Meta-分析的可靠性,使其能夠將來自多個臨床試驗的數據進行合併,擴大樣本量從而實現檢驗假設所必須的效應量。然而,我們證明,隨著研究數量的增加,合併了臨床試驗並使得樣本量增加的Meta-分析,其異質性檢驗的結果完全不可靠。具有諷刺意味的是,現代臨床試驗在面對各種矛盾和似是而非的結論的時候往往乞靈於「更大樣本的試驗」。這兩方面不可調和的矛盾說明了Meta-分析在邏輯上不能自洽,方法學基礎存在重大缺陷。
反思建立在Meta-分析基礎之上的循證醫學
循證醫學的創始人之一薩基特教授(David Sacket)在其名著《循證醫學的教學與實踐》(Evidence-Based Medicine:How to Practice and Teach EBM)中曾經指出,慎重、準確和明智地應用當前所能獲得的最好的研究依據,同時結合醫生的個人專業技能和多年臨床經驗,考慮病人的價值和願望,將三者完美地結合制定出病人的治療措施方可稱為循證醫學。然而,在循證醫學向的發展進程中,由於制定證據分級體系時,過分強調Meta-分析和大樣本RCT的作用,使得在實踐中,臨床研究者和廣大的醫務人員逐漸把最佳證據理解為:大樣本RCT以及基於這類研究的Meta分析。隨著時間的推移,越來越多的RCT和Meta-分析已經顯示出各種自相矛盾性,使得臨床醫師無所適從。
如今我們已經認識到,任何RCT都將面對如下的、無法迴避的挑戰:對最終考察目標的可造成實質性影響的因素遠遠多於人們最初的預想。隨機化試圖控制的是存在於患者個體間的差異。本質上,個體差異反映的是從基因組到宏觀表型的差異。隨著對基因組認識的深化,我們認識到,影響特定臨床表型(如血壓、血糖水平、腫瘤類型)的基因數量十分眾多。例如,與創傷後創面癒合功能密切相關的基因就有651個。這還僅僅是從基因組的角度來考慮。進一步考慮在轉錄、表達水平的影響因素,那麼可影響臨床結局的分子因素將以數量級增加。
假設這些影響因素在人群中的分布都是隨機的,即正態分布,存在於個體間的、數以萬千計的影響因素在數學上其實已經構成了有著數以萬記維度的超高維空間。現實中的RCT,能納入成千個樣本的,已經是相當難得的大型研究了。面對上述本質上分布於超高維空間中的個體差異,即使有數以千計的研究對象,也幾乎完全不可能是做到真正隨機。此種情形下,對一個RCT中發現的存在於組間的臨床結局的「顯著性」差異,其真實原因有很大可能是由完全不可控的偏倚所造成的。
所以,應該認識到,RCT這一誕生於半個世紀之前的研究範式,其方法學基礎是虛幻的:隨機化可平衡個體變異,能夠保證的僅僅是每個參加實驗的對象均有「同等機會」被分配到試驗組和對照組當中,但不能保證每個影響實驗結局的因素都有「均等機會」被分配到兩組當中。
引入新方法,建立新一代循證醫學的研究範式
歸根結底,RCT、隊列研究以及病例-對照研究,其哲學本體其實並沒有太大差別:此即觀察和收集數據。神秘化、毫無節制地崇拜大樣本、前瞻性臨床試驗以及基於這些試驗的Meta-分析,實在是一種迷信。面對複雜的疾病生物現象,應該承認:第一代循證醫學及其背後的、基於18-19世紀古典統計學思想的研究範式,到了應該被揚棄的時候。
實事求是的觀點應該是:臨床數據,不論是來前瞻性試驗的,還是來自於臨床日常工作中的,在經過適當的統一化和清理之後,是具有同等應用地位的。理想的新一代循證醫學方法,應當建立在廣泛性的原始數據開源基礎上。
我們也深知,大範圍的數據開源,還需等待一個較長的過程。在逐步轉變的過程中,對於經過研究者整理的數據,依然有很大的進行「二次研究」的需求和必要性。在這過渡時期,各學科應該加強對數據報告規範性的要求,引入並開發一些適合於這些數據的模型。我們最近進行的一項對危重病患者最佳能量攝入區間的研究中,就已經發現,與經典的、基於「專家經驗」的Meta-分析比較,基於無偏倚聚類的機器學習是更為合理的對研究間相似性和異質性進行判斷的方法。新一代醫學統計思路,應該基于謹慎細緻的評估數據類型,選擇最適合於數據的模型。此即:「數據驅動,模型適應之」,而非「模型驅動,數據適應之」。
針對有關統計學數據報告的規範性和研究重現性問題,我國知名統計學家謝益輝教授發布了基於R語言的一個工具包(package)。並倡導利用該工具包來撰寫動態的統計報告。這一研究範式,可以很好的增加研究結果的可信性,從而避免些統計方法的使用錯誤,有利於後來的研究者對已發表研究的數據進行深入利用和挖掘。
因之,必須將臨床數據與基礎研究的數據相互結合,使機制性解釋和臨床宏觀表型之間形成結合,使臨床研究擺脫久已受人詬病的「黑箱模式」:其起點,是細緻的描述從分子機制到臨床過程的各種尺度上的複雜性。不再寄希望於僅僅使用「病死率」、「併發症率」、「住院時間」、「靈敏度」、「特異度」等很少一些指標來衡量臨床幹預或診斷措施的成敗。一旦機理性和機制性過程能夠與臨床表型相結合,我們就能發展出真正精準、個體化的臨床評估體系。
需要強調指出,循證醫學先驅們所開創的臨床研究哲學:以證據為基礎,結合患者需求以及考慮衛生經濟的可持續發展,依然是強有力的。新一代的醫生和科學家,應當勇敢的接過前輩遞給我們的接力棒,直面挑戰,努力學習,毫不猶豫地跨過學科之間的界限與鴻溝,發展出全新一代的循證醫學研究範式。我們深信,臨床醫學徹底的革命,或將以我們難以預計的速度到來。解決世界性醫療資源緊缺難題的鑰匙,也正蘊含於其中。
(本文作者江華、楊浩、彭謹,單位均為四川省人民醫院。另北京協和醫院陳偉,四川省人民醫院Charles Damien Lu對本文亦有貢獻。)