嫌疑人X的獻身:如何理解回歸模型中的"調整"和"獨立作用"

2021-01-17 醫咖會

今天我們先來聊一個輕鬆的話題,前段時間五阿哥蘇有朋帶來了由他執導的懸疑題材電影《嫌疑人X的獻身》,電影改編自島國著名的推理小說作家東野圭吾創作的同名小說。



故事講述了一位單身母親靖子與其女兒相依為命,一次意外失手殺死了前來糾纏的前夫慎二。為了掩蓋靖子的殺人行為,一直以來愛慕靖子的鄰居石神,以其天才數學家縝密的邏輯思維,為靖子設計了一個天衣無縫、無懈可擊的不在場證明,一次次逃過了警方的調查。


然而令石神沒有想到的是,他的大學舊友物理天才湯川偶然介入到這次謀殺案件的調查之中,打亂了他原本精心設計的計劃,兩人鬥智鬥勇,讓案件的真相逐漸水落石出。


如果還沒有看過原著的小夥伴們,推薦可以去看看電影,有中、日、韓三個版本,小咖覺得還是島國拍的更貼近原著,更好一些。


我們來梳理一下小說中的人物關係,如圖1所示:

圖1. 人物關係梳理圖



不知道大家有沒有發現這張關係圖很眼熟呢,在前期推送的內容《觀察性研究控制混雜因素第一彈:分層分析》一文中,我們在介紹混雜因素的時候,同樣展示過這樣一張圖,如圖2所示,是不是和圖1很相似呢?


圖2. 混雜因素示意圖


好了,說了這麼多題外話,現在我們要回歸到本期內容的正題了。經常會有小夥伴問到,從統計分析的角度,應該採用什麼樣的分析方法,來探討暴露/處理因素與結局事件之間的關聯,而且還能保證這種關聯不受其他因素的影響呢?其實在多數研究中都用到了多因素回歸的方法來解決這一問題。



在多因素回歸分析中,不管是多重線性回歸、logistic回歸、還是Cox回歸,通常的做法是,將我們在研究中關注的暴露/處理因素,以及可能的混雜因素一同放入到回歸模型中進行擬合,如果模型顯示暴露/處理因素對結局事件的效應值有統計學顯著性,則可認為在「調整了」(Adjusted)其他混雜因素的影響後,該暴露/處理因素對於結局事件是一個「獨立」(Independent)的影響因素。


很多時候我們根據這樣的分析結果匆忙作出結論,卻很少去認真思考一下其中幾個關鍵的地方,混雜因素的影響在模型中是怎麼被「調整」的,為什麼可以認為此時暴露/處理因素的作用是「獨立」的呢?


回到《嫌疑人X的獻身》這部小說當中,構建回歸模型探討對結局事件有獨立作用的影響因素,就好比偵探破案找出真兇的過程。我們作為研究人員,就像小說中的偵探湯川,暴露/處理因素就像是真兇靖子,而其他混雜因素的幹擾就像是幫兇石神。我們作為偵探,目的就是為了通過收集線索和資料,找出可疑的幾個犯罪嫌疑人A、B、C……,然後再把這些嫌疑人帶入到模型中進行進一步審問,排除其他嫌疑人的可能性,最終找出真兇X。


舉一個簡單的例子:


某研究人員擬探討因素X對結局Y的影響,構建回歸模型的方程為Y=11.33+2.52X。


此時研究人員發現因素Z與因素X、以及結局Y都有一定的關聯性,判斷可能為一個混雜因素,因此將X和Z一同帶入模型中,得到的回歸方程為Y=9.27+1.39X+0.72Z。


研究人員發現將Z帶入模型中後,X的回歸係數明顯減小,由2.52減少到1.39,想想這是為什麼呢?很多人會說,現在方程多了一個因素Z,係數當然會不一樣啦!但其實並不是多了一個自變量這麼簡單,X的回歸係數發生明顯變化,原因就在於因為X與Z之間存在關聯性。


在模型未引入Z的情況下,Z對於結局Y的作用就會被加到X上,此時X的回歸係數並非反映的是X對Y的真實效應;當把Z帶入到模型中後,實際上是把Z的作用從X中分離了出來,體現在回歸方程中就發現X的回歸係數發生了明顯變化,有可能變大也有可能變小,此時的回歸係數則更接近於X對Y的真實效應。


因此,我們可以認為,混雜因素Z的作用在回歸模型中被「調整」了,此時因素X對於結局Y的作用是「獨立的」。


如果還是不明覺厲,我們再來舉一個同樣來自於島國的研究實例加以說明。該研究旨在探討在低密度脂蛋白膽固醇(LDL-C)達標的患者中,殘餘脂蛋白膽固醇(RLP-C)對心血管疾病(CVD)發生的影響。


該研究連續納入了1256名穩定冠心病患者,服用降脂藥物後LDL-C水平<100mg/dL,每月隨訪一次,共隨訪3年,或隨訪到CVD事件發生。研究的主要結果如表1所示。


表1. 單因素和多因素Cox回歸結果


可以看出,作者首先進行了單因素Cox回歸分析,即把每個可疑的混雜因素單獨與結局事件進行一次Cox回歸,然後再根據單因素回歸分析的結果篩選出P<0.20的變量作為候選變量,帶入到多因素Cox回歸中進行分析。


結果顯示在單因素分析中,Non-HDL-C等因素為危險因素,ApoA-I為保護因素,但是在多因素分析中,這些因素對結局事件的影響效應均消失了,無統計學顯著性;CRP、eGFR等因素,單因素和多因素分析的HR值保持相對穩定,並沒有發生太大的變化;而RLP-C等因素,多因素分析後其HR值顯著上升,從1.60上升到1.74,且仍具有統計學顯著性。


根據以上不同因素回歸係數的變化可以看出,在單因素分析中,有些因素的效應作用被誇大,有些因素的效應作用被低估或隱藏。


如Non-HDL-C,在單因素分析中顯示為危險因素,但有可能它實際上對於結局事件並沒有影響或者影響很小,它的效應作用被誇大,這種誇大的危險作用可能由於其他混雜因素的作用強加在它身上的結果。


而效應被低估的因素,如RLP-C,在單因素分析中,它的作用可能被其他混雜因素的作用所掩蓋,因此在多因素分析中通過調整,把其他因素的混雜作用剝離出來後,才顯示出其真實的效應,此時的效應值可被認為是獨立作用。


還有一些因素的效應值前後並未發生太大的變化,如CRP、eGFR等,說明它們與模型中已經調整的已知混雜因素之間的關聯性並不強,因而不受混雜因素的影響。

 

總結一下,在單因素分析中,由於混雜因素的存在,暴露/處理因素對於結局事件的效應作用,體現的不僅僅是暴露/處理因素純粹的作用,其中也常常包括了混雜因素的作用。而通過構建多因素回歸模型,即所謂「調整」其他混雜因素的影響,實際上是把該混雜因素的作用從暴露/處理因素的作用中剝離出來,在消除混雜因素的作用後,剩下的即為暴露/處理因素的「獨立」作用,也就是獨立於其他混雜因素外的作用,這才是我們真正要找的「嫌疑人X」。


所以,當我們對多因素回歸模型進行參數解釋時,一定要注意「獨立」的意義,例如在多重線性回歸模型中,回歸係數應解釋為:在其他變量不變的條件下,該變量X每增加一個單位所引起的Y的平均改變量;在logistic回歸模型中,回歸係數應解釋為:在其他變量不變的條件下,變量X每增加一個單位所引起的結局風險的改變量。


理解多因素回歸模型中的「調整」和「獨立作用」,找出「嫌疑人X」的效應值,這通常是建立在我們已經確定了幾個可疑的嫌疑人的基礎上進行的,有時候確定嫌疑人的範圍往往也是一件頭疼的事情。


同樣,統計分析並非一蹴而就,研究中收集的變量有很多,那麼在構建多因素回歸模型時,應該如何有效的篩選變量並將其納入到多因素分析中呢?如何正確看待單因素和多因素分析結果,如果兩者自相矛盾,又該如何解釋呢?我們將在以後的內容中進行探討,敬請期待。


參考文獻:

[1] Atherosclerosis. 2011 Sep;218(1):163-7


關注醫咖會,漲姿勢!


我們建了一個微信群,有臨床研究設計或統計學方面的難題?快加小咖個人微信(xys2016ykf),拉你進群和其他小夥伴們一起交流學習。


點擊左下角「閱讀原文」,看看醫咖會既往推送了哪些統計教程

相關焦點

  • 新聞/"瘋狂麥斯"風格大魔鬼—DUCATI DIAVEL和DIESEL聯名車款.
    由於原廠車的性能已十分強悍,Diavel DIESEL只在車身外觀上做變動,但造型十分狂野,很容易令人聯想到電影"瘋狂麥斯"的主題風格,如同一輛能恣意馳騁在末日荒漠裡的性能車種兩側涵道上印有DIESEL專屬的莫希幹人標誌,而排氣管全段則鍍上英國專業隔熱廠ZIRCOTEC的專利黑色陶瓷鍍層,消音器口周邊的金字塔三角形造型概念來自DUCATI,Diavel和DIESEL三個"D",意為三強鼎立。
  • " 我可能不會愛你了 "
    然後告別,關上門,他倚在門上說:"我卻只能活在沒有你的城市"你不知道我的手機裡還留著你的照片,你不知道我盛飯的時候還習慣兩人份,你不知道我現在不敢出去逛街,你不知道我不敢一個人去看電影。許多事情來不及後悔,有些人說走就走,說散就散。我再也看不到你下班接我的樣子,我再也不能和你鬥嘴了,我好不習慣。
  • 中芭《蝙蝠》"2014國家藝術院團演出季"專場如期與觀眾見面
    9月13日晚,中央芭蕾舞團年度大戲《蝙蝠》的"2014國家藝術院團演出季"專場如期與觀眾見面,文化部董偉副部長以及來自舞蹈界的專家、評委在馮英團長等中芭領導的陪同下與現場近1200名觀眾共同欣賞了中芭的精彩演出。
  • 明朝常年戰事,兵源是如何得到補充的?
    明朝常年戰事,兵源是如何得到補充的?明朝建國之後,吸取前朝尤其是唐、宋的軍制建設經驗,逐漸形成了以高度集權為顯著特徵的明代軍制體制。"由上可知,歷朝歷代的軍事建設得失勢必成為明太祖改革軍事體制的藍本,明代的兵制必然會在吸取歷朝軍事建設經驗的基礎上作出調整,適當的改變前朝的軍事體制,順應明朝的實際情況。明代軍制建設最基本的一個原則是"居中馭輕"、內製外",這一點和唐宋軍制頗為相似。
  • 曲線方程y=e^(x+3y)圖像畫法
    本文主要內容,介紹隱函數y=e^(x+3y)圖像示意圖的畫法和步驟。※.曲線方程的定義域曲線方程表達式為y=e^(x+3y),即y>0,且lny=x+3y,則:x=lny-3y.※.曲線方程的單調性對方程兩邊同時對x求導,得:y=e^(x+3y)y'=e^(x+3y)(1+3y')y'=e^(x+3y)/[1-3e^(x+3y)]即:y'
  • 走近人工智慧食品工廠:看麥當勞的自動化如何讓員工更專注於客戶
    Eagle正在越來越多地關注人工智慧、機器學習和雲計算,希望用這些技術改善"內部客戶體驗"。Eagle解釋說:"我們希望縮短解決問題的時間,並在系統之間跳躍。" 總的來說,Eagle正在考慮用機器人代理和自然語言請求減少廚房的停機時間,並加快基礎設施的修復。麥當勞也在押注Astound等小廠商,這家公司簡化了通過人工智慧和直觀界面提交幫助請求並解決問題的方式。
  • 夜明珠新傳說與波爾模型
    海龍王問她: "我最心愛的女兒, 你要找個什麼樣的女婿呢?"女兒回答他: "爹, 我不愛有錢的財主, 也不愛有勢的官家, 我要找一個誠實、勇敢的人."於是,諸臣百官在人間遍訪誠實勇敢的人。河灣的高山下阿二,誠實、勇敢, 遠近都聞名;他沒有娶過親.他和他的一個哥哥在一起, 兄弟倆靠打獵為生。那天他做了個夢. 一位老者對他說: "阿二, 有一個姑娘, 在河灣灘上等你, 快去向她求婚吧! "他醒後將此事告訴了哥哥。
  • 封神中此二人比火雲洞三聖出現更早,他們在仙界的位置該怎樣擺?
    在封神演義中,火雲洞三聖是比較特殊的存在,他們分別是伏羲氏、神農氏、軒轅氏。顯然,他們就是太古時期"三皇五帝"中的"三皇",即天皇伏羲、地皇神農、人皇軒轅。按理這三皇都已死去多年,但在封神世界,他們卻已成為聖人之身,在仙界地位尊崇。
  • 封神中有三位「昊」字頭的天帝,究竟誰的地位最高?
    在漢字中,"昊"這個字一般形容為天的廣大,也指天。如果按象形文字去理解,"昊"字上邊是日,下邊是天,又應是天上的太陽之意。當然在古人心目中,天和太陽似乎是一體的,畢竟天上最醒目的就是太陽。因此不管這麼說,"昊"這個字是非常神聖的。那麼,這三位"昊"字頭天帝究竟誰的地位最高?
  • 高中:給出x,y的不等式求x+y的值?關鍵在於如何構建函數
    圖一題中只給出了一個關於x,y的不等式,想導出x+y的值是非常困難的,那這道題該如何解決呢?關鍵在於函數的構建。不等式3x-y≤ln(x+2y-3)+ln(2x-3y+5)可變形為m+n-2≤ln(mn),即e^(m+n-2)≤mn。根據基本不等式有:e^(m+n-2)≤mn≤(m+n)^2/4。上述就是由給出的已知所得,要想求出x+y的值,就要求出m和n的值。
  • 西遊記中此三人都是孫悟空的「大哥」,究竟哪個實力最強?
    在西遊記中,孫悟空號稱"天不怕地不怕",但經過大鬧天宮和西天取經之後,他這種自傲的性情有了很大改變。實際上,一向不肯服輸的孫悟空也有低頭的時候,比如他前前後後共拜了三位"大哥",其實力都很強,至少強到孫悟空情願做他們的"小弟",那麼這三位"大哥"都是誰呢?
  • "維爾貝克的付出了得到了回報"
    他在阿森納主場3-1戰勝AC米蘭的比賽中梅開二度,並且也入選了英格蘭國家隊。貝萊林見證了維爾貝克的回歸,他表示自己為這位隊友感到驕傲。關於為球隊戰勝米蘭而開心......當然。對我們來說,晉級很重要,同樣重要的是贏下主場的比賽。球隊現在勢頭很好,我們要保持下去。在主場球迷們的支持下,我們贏下了這場對我們而言很重要的比賽。
  • 單單靠著畫面和情懷是不可能的
    豆瓣短評裡有一句話說得特別到位:"畫風新海誠,內容郭敬明"「昨日青空」的畫風真的很美,本片故事作為發生在素有"三江之匯、六水之腰"之稱的蘭溪,電影中雨的作用很大,一方面在於雨水增加了整體畫風的美感,另一方面雨水也有映襯人物內心傷感情緒的作用。
  • 西遊記中太上老君親手打造的四件兵器,究竟哪一件殺傷力最大?
    在回答這個問題之前,首先要搞明白西遊記中兵器和法寶之間的區別。關於兵器,一般是拿在手中可攻可守的武器;而法寶則不需要拿在手中,只要拿出來開啟密碼,就可以實現攻擊、防守或者禁錮。換句話來說,使用兵器需要自身有力氣和武藝,而法寶只是工具,誰拿到手裡只要有密碼都能使用。