今天我們先來聊一個輕鬆的話題,前段時間五阿哥蘇有朋帶來了由他執導的懸疑題材電影《嫌疑人X的獻身》,電影改編自島國著名的推理小說作家東野圭吾創作的同名小說。
故事講述了一位單身母親靖子與其女兒相依為命,一次意外失手殺死了前來糾纏的前夫慎二。為了掩蓋靖子的殺人行為,一直以來愛慕靖子的鄰居石神,以其天才數學家縝密的邏輯思維,為靖子設計了一個天衣無縫、無懈可擊的不在場證明,一次次逃過了警方的調查。
然而令石神沒有想到的是,他的大學舊友物理天才湯川偶然介入到這次謀殺案件的調查之中,打亂了他原本精心設計的計劃,兩人鬥智鬥勇,讓案件的真相逐漸水落石出。
如果還沒有看過原著的小夥伴們,推薦可以去看看電影,有中、日、韓三個版本,小咖覺得還是島國拍的更貼近原著,更好一些。
我們來梳理一下小說中的人物關係,如圖1所示:
圖1. 人物關係梳理圖
不知道大家有沒有發現這張關係圖很眼熟呢,在前期推送的內容《觀察性研究控制混雜因素第一彈:分層分析》一文中,我們在介紹混雜因素的時候,同樣展示過這樣一張圖,如圖2所示,是不是和圖1很相似呢?
圖2. 混雜因素示意圖
好了,說了這麼多題外話,現在我們要回歸到本期內容的正題了。經常會有小夥伴問到,從統計分析的角度,應該採用什麼樣的分析方法,來探討暴露/處理因素與結局事件之間的關聯,而且還能保證這種關聯不受其他因素的影響呢?其實在多數研究中都用到了多因素回歸的方法來解決這一問題。
在多因素回歸分析中,不管是多重線性回歸、logistic回歸、還是Cox回歸,通常的做法是,將我們在研究中關注的暴露/處理因素,以及可能的混雜因素一同放入到回歸模型中進行擬合,如果模型顯示暴露/處理因素對結局事件的效應值有統計學顯著性,則可認為在「調整了」(Adjusted)其他混雜因素的影響後,該暴露/處理因素對於結局事件是一個「獨立」(Independent)的影響因素。
很多時候我們根據這樣的分析結果匆忙作出結論,卻很少去認真思考一下其中幾個關鍵的地方,混雜因素的影響在模型中是怎麼被「調整」的,為什麼可以認為此時暴露/處理因素的作用是「獨立」的呢?
回到《嫌疑人X的獻身》這部小說當中,構建回歸模型探討對結局事件有獨立作用的影響因素,就好比偵探破案找出真兇的過程。我們作為研究人員,就像小說中的偵探湯川,暴露/處理因素就像是真兇靖子,而其他混雜因素的幹擾就像是幫兇石神。我們作為偵探,目的就是為了通過收集線索和資料,找出可疑的幾個犯罪嫌疑人A、B、C……,然後再把這些嫌疑人帶入到模型中進行進一步審問,排除其他嫌疑人的可能性,最終找出真兇X。
舉一個簡單的例子:
某研究人員擬探討因素X對結局Y的影響,構建回歸模型的方程為Y=11.33+2.52X。
此時研究人員發現因素Z與因素X、以及結局Y都有一定的關聯性,判斷可能為一個混雜因素,因此將X和Z一同帶入模型中,得到的回歸方程為Y=9.27+1.39X+0.72Z。
研究人員發現將Z帶入模型中後,X的回歸係數明顯減小,由2.52減少到1.39,想想這是為什麼呢?很多人會說,現在方程多了一個因素Z,係數當然會不一樣啦!但其實並不是多了一個自變量這麼簡單,X的回歸係數發生明顯變化,原因就在於因為X與Z之間存在關聯性。
在模型未引入Z的情況下,Z對於結局Y的作用就會被加到X上,此時X的回歸係數並非反映的是X對Y的真實效應;當把Z帶入到模型中後,實際上是把Z的作用從X中分離了出來,體現在回歸方程中就發現X的回歸係數發生了明顯變化,有可能變大也有可能變小,此時的回歸係數則更接近於X對Y的真實效應。
因此,我們可以認為,混雜因素Z的作用在回歸模型中被「調整」了,此時因素X對於結局Y的作用是「獨立的」。
如果還是不明覺厲,我們再來舉一個同樣來自於島國的研究實例加以說明。該研究旨在探討在低密度脂蛋白膽固醇(LDL-C)達標的患者中,殘餘脂蛋白膽固醇(RLP-C)對心血管疾病(CVD)發生的影響。
該研究連續納入了1256名穩定冠心病患者,服用降脂藥物後LDL-C水平<100mg/dL,每月隨訪一次,共隨訪3年,或隨訪到CVD事件發生。研究的主要結果如表1所示。
表1. 單因素和多因素Cox回歸結果
可以看出,作者首先進行了單因素Cox回歸分析,即把每個可疑的混雜因素單獨與結局事件進行一次Cox回歸,然後再根據單因素回歸分析的結果篩選出P<0.20的變量作為候選變量,帶入到多因素Cox回歸中進行分析。
結果顯示在單因素分析中,Non-HDL-C等因素為危險因素,ApoA-I為保護因素,但是在多因素分析中,這些因素對結局事件的影響效應均消失了,無統計學顯著性;CRP、eGFR等因素,單因素和多因素分析的HR值保持相對穩定,並沒有發生太大的變化;而RLP-C等因素,多因素分析後其HR值顯著上升,從1.60上升到1.74,且仍具有統計學顯著性。
根據以上不同因素回歸係數的變化可以看出,在單因素分析中,有些因素的效應作用被誇大,有些因素的效應作用被低估或隱藏。
如Non-HDL-C,在單因素分析中顯示為危險因素,但有可能它實際上對於結局事件並沒有影響或者影響很小,它的效應作用被誇大,這種誇大的危險作用可能由於其他混雜因素的作用強加在它身上的結果。
而效應被低估的因素,如RLP-C,在單因素分析中,它的作用可能被其他混雜因素的作用所掩蓋,因此在多因素分析中通過調整,把其他因素的混雜作用剝離出來後,才顯示出其真實的效應,此時的效應值可被認為是獨立作用。
還有一些因素的效應值前後並未發生太大的變化,如CRP、eGFR等,說明它們與模型中已經調整的已知混雜因素之間的關聯性並不強,因而不受混雜因素的影響。
總結一下,在單因素分析中,由於混雜因素的存在,暴露/處理因素對於結局事件的效應作用,體現的不僅僅是暴露/處理因素純粹的作用,其中也常常包括了混雜因素的作用。而通過構建多因素回歸模型,即所謂「調整」其他混雜因素的影響,實際上是把該混雜因素的作用從暴露/處理因素的作用中剝離出來,在消除混雜因素的作用後,剩下的即為暴露/處理因素的「獨立」作用,也就是獨立於其他混雜因素外的作用,這才是我們真正要找的「嫌疑人X」。
所以,當我們對多因素回歸模型進行參數解釋時,一定要注意「獨立」的意義,例如在多重線性回歸模型中,回歸係數應解釋為:在其他變量不變的條件下,該變量X每增加一個單位所引起的Y的平均改變量;在logistic回歸模型中,回歸係數應解釋為:在其他變量不變的條件下,變量X每增加一個單位所引起的結局風險的改變量。
理解多因素回歸模型中的「調整」和「獨立作用」,找出「嫌疑人X」的效應值,這通常是建立在我們已經確定了幾個可疑的嫌疑人的基礎上進行的,有時候確定嫌疑人的範圍往往也是一件頭疼的事情。
同樣,統計分析並非一蹴而就,研究中收集的變量有很多,那麼在構建多因素回歸模型時,應該如何有效的篩選變量並將其納入到多因素分析中呢?如何正確看待單因素和多因素分析結果,如果兩者自相矛盾,又該如何解釋呢?我們將在以後的內容中進行探討,敬請期待。
參考文獻:
[1] Atherosclerosis. 2011 Sep;218(1):163-7
關注醫咖會,漲姿勢!
我們建了一個微信群,有臨床研究設計或統計學方面的難題?快加小咖個人微信(xys2016ykf),拉你進群和其他小夥伴們一起交流學習。
點擊左下角「閱讀原文」,看看醫咖會既往推送了哪些統計教程。