作者:楊超 魯藝斐 李延龍 張耀文
2019年3月,European Urology 雜誌(IF 17.581)發表了泌尿外科臨床研究領域的統計報告指南《Guidelines for Reporting of Statistics for Clinical Research in Urology》,目的在於提升人們的統計學知識,改善論文質量。
在之前的文章中,我們介紹了p值、置信區間、研究估計值等報告時要注意的問題,今天這篇文章我們再來看一看多因素模型和診斷試驗中統計報告的注意事項,以及結論和解釋部分要注意的問題。
1.1 多變量回歸、傾向性評分和工具變量並不是一根魔棒
有研究者認為多變量調整可以「消除混雜」、「使兩組相似」或「模擬隨機試驗」。但這個說法有兩個問題:首先,記錄在數據集中的變量值通常是近似值,因此可能會掩蓋組間差異。
例如,當使用臨床分期作為協變量,比較不同治療方案對局限性前列腺癌的預後時,如果一組臨床分期為T2c 期患者多於另一組,那麼該組的預後可能會更差。但是T2c 期也具有不同表型。多變量調整T2c 時,並不能保證T2c 的不同表型也完全相同。
其次,模型只針對少數測量的協變量進行調整,並不能排除未測量(甚至不可測量)的協變量存在重要作用的可能性。通常情況下,傾向性評分匹配比傳統的多變量回歸能更好地調整混雜因素。工具變量法的效果則主要取決於工具變量的質量。在許多情況下,工具變量與幹預沒有很強的關聯,這導致了95% CI的大幅增加;而在某些情況下,則會低估治療效果。
1.2 避免完全依賴「逐步選擇」
研究者通常根據單因素分析的結果來選擇多因素模型中要納入哪些變量;或者,先將所有變量都納入到一個模型中,然後刪除那些統計學意義不顯著的變量。然而,這種完全依賴現有數據的變量選擇方法在回歸模型的建立過程中並不可取,可能會增加過度擬合的風險,並使許多統計量(如95% CI)受到高度質疑。逐步選擇法應該限定於特定情況,比如在模型建立的初期,對哪些變量可能是預測變量知之甚少的時候。
1.3 在檢驗幹預措施的效果時,避免報告協變量的OR值或HR值
一個研究應該只回答一個科學問題。比如,研究者在探討兩種不同根治性前列腺切除術對疾病復發的影響,應當著重報告兩種術式的OR值或HR值。儘管模型可能會調整諸如臨床分期、分級以及前列腺特異抗原(PSA)等因素(協變量),但報告這些因素(協變量)的OR值或HR值對主要研究問題反而沒有幫助,反倒會干擾讀者對研究主要結果的關注。
1.4 將連續變量分段,使結果的解釋更有意義
有的連續變量取值範圍很大,作為影響因素預測結局時,結果無法解釋。例如某研究顯示,年齡每增加1歲時,癌症風險OR值為1.02(95% CI 1.01-1.02)。 其中點估計值與95%CI上限均為1.02,結果難以解釋,也沒有臨床意義。為了解決這一問題,我們可以將年齡以10歲為單位分段,這樣模型得到的OR值,即年齡每增加10歲時,增加的癌症風險OR的值是多少。
1.5 避免根據效應大小對預測因素進行排序
有的研究者在模型中會對預測因子進行排序,例如,聲稱「新的標誌物是復發的最強預測因子」。 多數情況下,這種排序是基於對OR值和HR值大小的比較,這是一種錯誤的思想。不同變量間的OR或HR值,會受到變量的編碼方式,變量單位的選擇的影響。此外,比較模型中分類變量和連續變量的係數,也是很困難的。
最後,報告分類預測因子的暴露比例也很重要,這一點從疾病防治的角度尤為重要。例如,去除OR值為2.0、佔比為50%的危險因素,相較於去除OR值為3.5但佔比為0.1%的危險因素,可以避免更多的疾病結局。因為第一個因素儘管OR值小,但是在總人群中佔比高,所以如果去除第一個因素,那麼在總人群中,改變疾病結局發生人數的絕對值要更多。
1.6 謹慎考慮模型的區分度和校準度
將基於某個特定人群建立的模型應用於其他人群時,應當謹慎考慮模型的區分度。例如,一個預測勃起功能障礙的模型(包括年齡因素)在普通成年男性群體中比老年男性群體中區分度更高,因為普通成年男性群體年齡變異更大。因此,將該模型外推應用於老年男性人群中時,是否能夠很好的區分勃起功能障礙,應當謹慎考慮。
校準度也是統計模型的一個重要組成部分。校準度的意義是模型給出的風險是否接近其真實風險。如果某個特定人群的數據中建立的一個模型,則該模型用於其他人群時,應當報告校準度,或者以校準圖的方式展示校準度。
1.7 報告模型的臨床價值
除了靈敏度、特異度或ROC等統計量,作者應考慮報告模型的臨床價值。例如,在接受活檢的患者中測量某標記物,可以報告如果採用該標記物的某個水平作為cutoff值,來確定患者是否需要活檢,照此執行將會進行多少活檢,又有多少的癌症被發現和遺漏。
2.1 下結論時,不要只是重複結果
例如,「BMI與疾病預後之間存在統計學上的顯著關聯」這並不是一個結論,作者需要陳述結果對研究和臨床實踐的影響。結論部分需要指引未來的研究去探索BMI與疾病預後之間是否真的存在因果關係,或者建議對BMI較高的患者進行更為積極的治療。
2.2 避免使用「可能」等字眼
事實上,治療方案「可能」會有效,這應該是研究前提出的基本假設。在結論中使用may或might等詞語,就相當於陳述「我們在本研究結束時所知道的並不比開始時所知道的多」。
2.3 有統計學意義的p值並不意味著有臨床意義
一個小的p值僅意味著無效假設被拒絕了,並不意味著一定會對臨床實踐造成影響。例如,兩種治療方案之間差異具有統計學意義,不一定意味著哪種方法一定更加優越。作者需要仔細分析研究的臨床意義來證明臨床建議的合理性。
2.4 避免「小樣本」、「回顧性分析」等偽局限性;考慮潛在偏差的來源及其對結果的影響機制
作者通常將研究的局限性淺顯地描為「我們的研究樣本量小,或者基於回顧性分析」等。但如果研究結果明確,例如,某治療方案或預測因子的OR值很大,樣本量大小可能無關緊要。類似地,在具有長期隨訪的標記物研究中,回顧性的研究設計可能完全合適。
2.5 考慮缺失數據發生的可能性及其影響
一項研究中,很難做到數據集完整沒有缺失。例如一項納入200例參與者的研究,可能有42例參與者缺失研究相關變量。又或者,許多研究僅包含一個相對較小的患者子集。例如,在500例接受手術治療的患者中,僅納入50例術前接受影像學檢查的患者子集。在這兩種情況下,有必要考慮和分析有缺失數據或者未入組患者,與入組患者之間的差異。
2.6. 對治療方案的效果解釋不應受亞組結局影響:預後較差的亞組可能仍然適合接受某種治療
有些研究者會比較同一種治療方式在不同亞組中的結局,並錯誤的得出結論:對該種治療方案預後較差的亞組應該接受別的治療。這種錯誤解釋將個體的差異性與治療效果的差異性混為一談。例如,腫瘤組織塊大的癌症患者術後復發率相較於腫瘤組織塊小的患者更高,但是我們不能由此得出結論,腫瘤塊大的患者不應該接受手術治療。
2.7 注意因果推斷:相關並不代表因果
作者在下結論時往往會忽視這一點。比如,引言和方法部分可能會標明本研究目的是確定治療頻率和治療反應之間是否相關,但下結論可能會說更頻繁的治療將提高反應率這種具有因果推斷性的結論。
目前p值已經被廣泛濫用和誤用。普遍的問題是p值在解讀研究結果時被賦予更多的權重,更有學者主張完全禁止使用p值。我們在此特別強調,p值只是一個有助於解釋研究的統計量,它不能最終決定我們對研究結果的解讀。從臨床研究中得到結論,需要仔細評估研究方法的優缺點、已發表文獻中的其他相關數據結果、生物學合理性和效應大小等。
參考文獻:Assel M, Sjoberg D, Elders A, et al. Guidelines for Reporting of Statistics for Clinical Research in Urology. Eur Urol, 2019, 75(3): 358-367