傾向值(Propensity Score,傾向性得分)分析近些年來火的一塌糊塗,PubMed自由詞搜索Propensity Score,相關文章近些年大有井噴之勢(圖標數據截止2020.05.21)。
但嚴格來說,傾向性得分算不得一種「分析」方法,而是一種用於數據處理的方式,常用於觀察性研究混雜因素的控制。比如你想研究施加某種幹預對結局指標是否有改善,數據來自回顧性的既有資料的收集,由於是觀察性研究,大概率存在混雜因素在組間不均衡的問題(如基線不平),這個時候你就可以考慮傾向性得分分析了。
PS就是以幹預因素(組別)為因變量,以所有觀測到的非研究性因素為自變量進行logistic或probit回歸,在給定的協變量條件下,個體接受幹預因素處理的概率。根據PS,我們就可以對試驗組和對照組進行篩選,使得不同組的非研究性因素實現均衡,從而達到控制的目的。傾向性得分本身並不能控制混雜,而是通過PS匹配、加權、分層或進入回歸模型直接調整混雜等方式,不同程度地提高對比組間的均衡性,從而削弱或平衡協變量對效應估計的影響,達到「類隨機化」的效果,又稱為事後隨機化。簡單理解,就是從大量的樣本數據中將具有共同特徵的幹預組和對照組樣本挑選出來,然後對這些符合要求的樣本進行分析。
經檢驗發現吸菸和非吸菸組的數據均呈非正態(數據非正態分布,宜用中位值[25%分位數,75%分位數]表示),如果直接採用兩獨立樣本非參數檢驗,結果如下:
但同時我們也發現,很多的混雜因素在吸菸和非吸菸組中也具有統計學意義,這樣以來我們就不能明確出生體重在吸菸和非吸菸組的不同是由於吸菸這個因素造成的還是由於其他的混雜因素造成的。
註:①我不知道老外的這個教育水平是怎麼個意思,本例按連續變量處理;②經檢驗年齡和教育水平均呈非正態分布;③正態性和方差齊性檢驗、均值、標準差、中位值、百分位數都可以通過explore過程獲得(Analyze>> Descriptive Statistics >> Explore…);非參數檢驗:Analyze >> Nonparametric Tests>> Independent Samples…;分類資料統計及卡方分析:Analyze >> Descriptive Statistics >> Crosstables…
Data→Propensity Score Matching…
Group Indicator(組指示變量):選入需要考察的幹預因素,本例為mbsmoke;
Variable for Number of Eligible Cases(複合條件的變量個數):新建變量,表示在對照組中有多少個觀測對象滿足匹配條件。本例命名為EC;
Give priority to exact matches(優先精確匹配):優先考慮精確匹配;
Maximize execution performance(最優化執行操作):綜合考慮精確匹配和基於設定的卡鉗值範圍內模糊匹配;
Randomize case order when drawing matches(提取匹配個案時隨機化個案順序):如有多個觀測對象滿足匹配條件,採取隨機原則進行選擇。因為是隨機,所以重複操作時結果可能會不一致,為保證匹配過程的可重複性,可在Random Number Seed設定一個隨機數種子。
(1)二分類logistic回歸模型:首先給出的是以吸菸(1=吸菸者;0=不吸菸者)為因變量、以需要校正的變量為自變量構建二分類logistic回歸結果,採用的是enter方法,二分類logistic回歸可參加《》。後續每個研究對象的PS值就是根據該回歸模型得出的。
匹配統計量:精確匹配0對,模糊匹配846對,共計匹配成功846對,同時有18個個案未能找到有效匹配人群。
匹配容差:精確匹配(PS完全一致)匹配了376371次,基本上無匹配成功個案;在精確匹配後的PS的模糊匹配(PS±0.03,本例卡鉗值為0.03),匹配376371次,大約0.225%匹配成功。
Data>>Select Cases…
選擇matchid不為0的個案
經檢驗發現母親教育水平(Z=-3.163,P=0.002)、是否飲酒(chi2=12.097,P=0.001)在組間仍有統計學意義,我們需要重新進行傾向性匹配,Match Tolerance(匹配容差)設為0.02時共成功匹配843對,是否飲酒在組間仍有統計學意義(chi2=3.957,P=0.047),Match Tolerance最終設為0.01時共成功匹配834對,經分析各混雜因素在組間實現均衡,結果如下表。結果表明扣除其他因素的影響,孕期吸菸對新生兒的體重的確有影響(Z=-10.408,P<0.001)。
2020.05.21