論文中統計報告的注意事項:多因素模型和診斷試驗|協變量|統計學|...

2021-01-18 健康界

作者:楊超 魯藝斐 李延龍 張耀文


2019年3月,European Urology 雜誌(IF 17.581)發表了泌尿外科臨床研究領域的統計報告指南《Guidelines for Reporting of Statistics for Clinical Research in Urology》,目的在於提升人們的統計學知識,改善論文質量。

 


在之前的文章中,我們介紹了p值、置信區間、研究估計值等報告時要注意的問題,今天這篇文章我們再來看一看多因素模型和診斷試驗中統計報告的注意事項,以及結論和解釋部分要注意的問題

1.1 多變量回歸、傾向性評分和工具變量並不是一根魔棒


有研究者認為多變量調整可以「消除混雜」、「使兩組相似」或「模擬隨機試驗」。但這個說法有兩個問題:首先,記錄在數據集中的變量值通常是近似值,因此可能會掩蓋組間差異。


例如,當使用臨床分期作為協變量,比較不同治療方案對局限性前列腺癌的預後時,如果一組臨床分期為T2c 期患者多於另一組,那麼該組的預後可能會更差。但是T2c 期也具有不同表型。多變量調整T2c 時,並不能保證T2c 的不同表型也完全相同。


其次,模型只針對少數測量的協變量進行調整,並不能排除未測量(甚至不可測量)的協變量存在重要作用的可能性。通常情況下,傾向性評分匹配比傳統的多變量回歸能更好地調整混雜因素。工具變量法的效果則主要取決於工具變量的質量。在許多情況下,工具變量與幹預沒有很強的關聯,這導致了95% CI的大幅增加;而在某些情況下,則會低估治療效果。

 

1.2 避免完全依賴「逐步選擇」


研究者通常根據單因素分析的結果來選擇多因素模型中要納入哪些變量;或者,先將所有變量都納入到一個模型中,然後刪除那些統計學意義不顯著的變量。然而,這種完全依賴現有數據的變量選擇方法在回歸模型的建立過程中並不可取,可能會增加過度擬合的風險,並使許多統計量(如95% CI)受到高度質疑。逐步選擇法應該限定於特定情況,比如在模型建立的初期,對哪些變量可能是預測變量知之甚少的時候。

 

1.3 在檢驗幹預措施的效果時,避免報告協變量的OR值或HR值


一個研究應該只回答一個科學問題。比如,研究者在探討兩種不同根治性前列腺切除術對疾病復發的影響,應當著重報告兩種術式的OR值或HR值。儘管模型可能會調整諸如臨床分期、分級以及前列腺特異抗原(PSA)等因素(協變量),但報告這些因素(協變量)的OR值或HR值對主要研究問題反而沒有幫助,反倒會干擾讀者對研究主要結果的關注。

 

1.4 將連續變量分段,使結果的解釋更有意義


有的連續變量取值範圍很大,作為影響因素預測結局時,結果無法解釋。例如某研究顯示,年齡每增加1歲時,癌症風險OR值為1.02(95% CI 1.01-1.02)。 其中點估計值與95%CI上限均為1.02,結果難以解釋,也沒有臨床意義。為了解決這一問題,我們可以將年齡以10歲為單位分段,這樣模型得到的OR值,即年齡每增加10歲時,增加的癌症風險OR的值是多少。

 

1.5 避免根據效應大小對預測因素進行排序


有的研究者在模型中會對預測因子進行排序,例如,聲稱「新的標誌物是復發的最強預測因子」。 多數情況下,這種排序是基於對OR值和HR值大小的比較,這是一種錯誤的思想。不同變量間的OR或HR值,會受到變量的編碼方式,變量單位的選擇的影響。此外,比較模型中分類變量和連續變量的係數,也是很困難的。


最後,報告分類預測因子的暴露比例也很重要,這一點從疾病防治的角度尤為重要。例如,去除OR值為2.0、佔比為50%的危險因素,相較於去除OR值為3.5但佔比為0.1%的危險因素,可以避免更多的疾病結局。因為第一個因素儘管OR值小,但是在總人群中佔比高,所以如果去除第一個因素,那麼在總人群中,改變疾病結局發生人數的絕對值要更多。

 

1.6 謹慎考慮模型的區分度和校準度


將基於某個特定人群建立的模型應用於其他人群時,應當謹慎考慮模型的區分度。例如,一個預測勃起功能障礙的模型(包括年齡因素)在普通成年男性群體中比老年男性群體中區分度更高,因為普通成年男性群體年齡變異更大。因此,將該模型外推應用於老年男性人群中時,是否能夠很好的區分勃起功能障礙,應當謹慎考慮。


校準度也是統計模型的一個重要組成部分。校準度的意義是模型給出的風險是否接近其真實風險。如果某個特定人群的數據中建立的一個模型,則該模型用於其他人群時,應當報告校準度,或者以校準圖的方式展示校準度。

 

1.7 報告模型的臨床價值


除了靈敏度、特異度或ROC等統計量,作者應考慮報告模型的臨床價值。例如,在接受活檢的患者中測量某標記物,可以報告如果採用該標記物的某個水平作為cutoff值,來確定患者是否需要活檢,照此執行將會進行多少活檢,又有多少的癌症被發現和遺漏。

2.1 下結論時,不要只是重複結果


例如,「BMI與疾病預後之間存在統計學上的顯著關聯」這並不是一個結論,作者需要陳述結果對研究和臨床實踐的影響。結論部分需要指引未來的研究去探索BMI與疾病預後之間是否真的存在因果關係,或者建議對BMI較高的患者進行更為積極的治療。

 

2.2 避免使用「可能」等字眼


事實上,治療方案「可能」會有效,這應該是研究前提出的基本假設。在結論中使用may或might等詞語,就相當於陳述「我們在本研究結束時所知道的並不比開始時所知道的多」。

 

2.3 有統計學意義的p值並不意味著有臨床意義


一個小的p值僅意味著無效假設被拒絕了,並不意味著一定會對臨床實踐造成影響。例如,兩種治療方案之間差異具有統計學意義,不一定意味著哪種方法一定更加優越。作者需要仔細分析研究的臨床意義來證明臨床建議的合理性。

 

2.4 避免「小樣本」、「回顧性分析」等偽局限性;考慮潛在偏差的來源及其對結果的影響機制


作者通常將研究的局限性淺顯地描為「我們的研究樣本量小,或者基於回顧性分析」等。但如果研究結果明確,例如,某治療方案或預測因子的OR值很大,樣本量大小可能無關緊要。類似地,在具有長期隨訪的標記物研究中,回顧性的研究設計可能完全合適。

 

2.5 考慮缺失數據發生的可能性及其影響


一項研究中,很難做到數據集完整沒有缺失。例如一項納入200例參與者的研究,可能有42例參與者缺失研究相關變量。又或者,許多研究僅包含一個相對較小的患者子集。例如,在500例接受手術治療的患者中,僅納入50例術前接受影像學檢查的患者子集。在這兩種情況下,有必要考慮和分析有缺失數據或者未入組患者,與入組患者之間的差異。

 

2.6. 對治療方案的效果解釋不應受亞組結局影響:預後較差的亞組可能仍然適合接受某種治療


有些研究者會比較同一種治療方式在不同亞組中的結局,並錯誤的得出結論:對該種治療方案預後較差的亞組應該接受別的治療。這種錯誤解釋將個體的差異性與治療效果的差異性混為一談。例如,腫瘤組織塊大的癌症患者術後復發率相較於腫瘤組織塊小的患者更高,但是我們不能由此得出結論,腫瘤塊大的患者不應該接受手術治療。

 

2.7 注意因果推斷:相關並不代表因果


作者在下結論時往往會忽視這一點。比如,引言和方法部分可能會標明本研究目的是確定治療頻率和治療反應之間是否相關,但下結論可能會說更頻繁的治療將提高反應率這種具有因果推斷性的結論。

目前p值已經被廣泛濫用和誤用。普遍的問題是p值在解讀研究結果時被賦予更多的權重,更有學者主張完全禁止使用p值。我們在此特別強調,p值只是一個有助於解釋研究的統計量,它不能最終決定我們對研究結果的解讀。從臨床研究中得到結論,需要仔細評估研究方法的優缺點、已發表文獻中的其他相關數據結果、生物學合理性和效應大小等。

 

參考文獻:Assel M, Sjoberg D, Elders A, et al. Guidelines for Reporting of Statistics for Clinical Research in Urology. Eur Urol, 2019, 75(3): 358-367

相關焦點

  • 論文中統計報告的注意事項:多因素模型和診斷試驗
    多因素模型和診斷試驗中統計報告的注意事項,以及結論和解釋部分要注意的問題。1.1 多變量回歸、傾向性評分和工具變量並不是一根魔棒有研究者認為多變量調整可以「消除混雜」、「使兩組相似」或「模擬隨機試驗」。
  • 多變量預測模型研究的報告指南:TRIPOD聲明
    TRIPOD工作組提出了一系列建議,旨在幫助臨床醫師在開發、驗證或更新預測模型時需要注意哪些方面。本篇文章介紹了TRIPOD聲明中的22個項目,這些項目是報告預測模型研究時必不可少的。多變量預測模型研究的報告有幾篇綜述評估了預測模型研究的報告的質量,發現大多數預測模型的研究報告質量較差,從患者數據描述到統計建模方法,都沒有充分描述模型開發的各個方面信息。
  • 總結|臨床研究常見統計方法與統計問題
    生物統計學則貫穿於臨床研究的整個階段:試驗設計(樣本量確定和隨機分組)、數據管理、統計分析計劃制定、試驗數據處理和統計分析報告。統計分析報告不僅用於科學論文的撰寫,而且還是取得新藥或器械等註冊申請的法規材料。只有進行科學合理的統計分析,才能根據臨床研究得出正確可靠的結論。
  • R語言統計篇: 單因素協方差分析
    >協方差分析(One-way ANCOVA)可以研究一個分類變量對一個連續變量的影響,同時校正其他變量的作用,這些變量也稱為協變量(Covariate)。也是單因素方差分析(One-way ANOVA,R語言統計篇:單因素方差分析)的一個延伸。比方說,我們現在想要研究不同BMI(偏輕,正常與超重)與空腹血糖的關係,同時校正血壓水平。在此研究中,BMI分組是一個分類變量(自變量),血糖是一個連續變量(因變量),血壓則是一個協變量(covariate)。c.
  • spss多變量回歸分析 - CSDN
    它是「不發聲」的過程變量,通過設置啞變量,可將多分類變量進行二值化的處理,從而結局多分類特別是無需多分類變量無法納入回歸分析模型的尷尬局面。該資料庫中有一個變量為種族,變量值為白人/黑人/其他人,為無序多分類資料(賦值分別是1、2、3)。如果該變量納入回歸模型,怎麼解讀回歸係數b值呢?那麼就是自變量從1到2對y的影響和從2到3影響的平均值。
  • 【商醫科教論壇】醫學論文描述統計方法和研究結果方法
    指針對研究結局的統計分析,是研究論文的核心證據。因此,醫學論文應詳細描述主要分析的實施過程和適用性。在試驗性研究中,應明確統計分析數據集、試驗效應指標、相對或絕對風險及其置信區間的計算方法、以及假設檢驗的方法。
  • 結構方程模型(SEM)到底有多厲害?
    在社會科學以及經濟、市場、管理等研究領域,有時需處理多個原因、多個結果的關係,或者會碰到不可直接觀測的變量(即潛變量),這些都是傳統的統計方法不能很好解決的問題。結構方程模型是一種建立、估計和檢驗因果關係模型的方法。模型中既包含有可觀測的顯在變量,也可能包含無法直接觀測的潛在變量。
  • 多圖示例:如何呈現論文結果中的各種圖表
    基線(Baseline)數據的展示多以表格的方式,以各種變量的名稱為表格每行的標題,而不同的組名為表格每列的標題,需要涵蓋的變量包括人口學資料、可能影響結局事件的變量以及相關的醫療記錄,每列提供一個組別的數據,在RCT中沒有必要提供合計數據或進行組間差異比較。
  • 關注|臨床試驗中適應性隨機化的應用
    最小化的思想是:根據已納入的受試者協變量信息及下一位受試者信息,計算下一位受試者進入各個比較組而造成協變量失衡的程度,使受試者分配到失衡程度最小組的概率很大,甚至為 1[34]。臨床試驗報告統一標準中提到最小化是代替隨機分配的可接受方案[36]。最小化的優勢在於可以同時平衡大量協變量,提高研究效率[6, 31],其在臨床試驗中已得到廣泛認可和使用[34]。
  • 回歸分析兩個因變量 - CSDN
    分類變量(Categorial…):可將多分類自變量設置為啞變量。保存(Save…):可將中間的計算結果存儲起來供以後分析,共有預測值、殘差和影響強度因子三類選項(Options…):可以選中相應選項對模型進行描述、預測和診斷,設置逐步法的進入和剔除標準等。
  • 這是一種cheap 又好用的統計方法,你卻視若無物?
    大家都明白,方差分析是可以開展組間差異性分析,在分組均衡性的實驗性研究中,方差分析可以證明處理因素與定量結局的關係;那麼線性回歸呢?在上一講我已經介紹,線性回歸可以控制混雜偏倚。既然如此,如果協變量是混雜變量,我們用線性回歸分析便可以控制偏倚了。因此方差分析與回歸分析相結合的協方差分析,便可以控制偏倚,探討處理因素效應了。
  • 【學習記·第31期】單因素、雙因素方差分析VS協方差分析
    由於被試是隨機選取並隨機分配到各個處理水平,因此假定各組被試之間在統計學上無顯著差異,組間差異完全由自變量引起  兩因素方差分析 實際研究情景中研究者感興趣的因變量往往受到不止一個自變量的影響。如果研究者使用單因素實驗設計逐個考察不同因素(即自變量)對因變量的影響,將會造成實驗程序繁瑣效率低下。更嚴重的後果是由於忽略了不同因素之間交互作用所產生的影響使得實驗結果的可信度大大降低。為了彌補單因素實驗設計的不足研究者必須在適當的情況下採用多因素實驗設計。多因素設計的其中一種——兩因素實驗設計的方差分析。
  • 警惕:研究中最常犯的10大統計學錯誤
    在我們的日常科學研究或者論文撰寫過程中,統計學錯誤普遍存在,近年來也日益受到學者以及大眾媒體的廣泛關注。關於如何改進統計學應用與實踐的爭論,目前主要集中在統計推斷方法的選擇,尤其是P值和顯著性檢驗上。
  • 中山大學《醫學統計學》中英文雙語公開課
    模塊一 《衛生統計學》理論課(中文授課)第1講緒論第2講定量變量的統計描述第3講定性變量的統計描述第4講常用概率分布第5講參數估計基礎第6講假設檢驗基礎第7講方差分析基礎第8講卡方檢驗第9講基於秩次的非參數檢驗第10講兩變量關聯性分析
  • 【乾貨】統計學×數據分析|信度|卡方|施測|統計量|正態分布_網易...
    離中趨勢分析  離中趨勢分析主要靠全距、四分差、平均差、方差(協方差: 用來度量兩個隨機變量關係的統計量)、標準差等統計指標來研究數據的離中趨勢。 例如,我們想知道兩個教學班的語文成績中,哪個班級內的成績分布更分散,就可以用兩個班級的四分差或百分點來比較。  相關分析  相關分析探討數據之間是否具有統計學上的關聯性。
  • GraphPad製圖+精品統計分析課程,你離醫統精英有多遠?
    —淺談統計學思維培養02.臨床試驗設計中的統計學錯誤03.常見的統計學概念混淆與誤用04.統計學方法選擇與使用錯誤案例辨析05.數據的類型與統計資料的描述06.兩組連續資料的比較07.多組連續資料的比較 -- 單因素方差分析08.多組連續資料的比較 -- 兩因素方差分析09.多組連續資料的比較 -- 秩和檢驗10.普通卡方檢驗11.配對卡方檢驗與一致性檢驗12.
  • 醫學科研論文中常見的統計學問題
    為能有效促進統計學方法的正確使用,保證科研的科學性、可靠性,提高醫學科研論文質量,賽恩斯編譯對醫學科研論文中常見的統計學問題進行梳理和總結如下:一、實驗組與對照組沒有可比性。實驗組與對照組必須遵循均衡化的原則,即實驗組與對照組除處理因素不同外,其他可控制的非處理因素要儘可能保持一致,從而儘量排除非處理因素對結果的影響。各組間均衡程度越高,可比性越強。
  • 統計學最常用的「數據分析方法」清單(一)|信度|卡方|施測|統計量|...
    一、描述統計  描述統計是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。描述統計分為集中趨勢分析和離中趨勢分析和相關分析三大部分。  1. 集中趨勢分析  集中趨勢分析主要靠平均數、中數、眾數等統計指標來表示數據的集中趨勢。
  • 藥物臨床試驗多重性問題等相關指導原則實施
    日前,國家藥品監督管理局藥品審評中心(以下簡稱藥審中心)發布《藥物臨床試驗多重性問題指導原則(試行)》《藥物臨床試驗協變量校正指導原則》《藥物臨床試驗亞組分析指導原則(試行)》和《藥物臨床試驗富集策略與設計指導原則(試行)》多個和藥物臨床試驗有關的指導原則,為藥物臨床試驗中相關問題的解決提供指導意見
  • 如何選擇統計方法,有這個合集就夠了!
    相關性分析主要用於:(1)判斷兩個或多個變量之間的統計學關聯;(2)如果存在關聯,進一步分析關聯強度和方向。確定要進行相關性分析後,對兩個變量或多個變量進行相關性分析所採取的統計方法是不同的。① 2個變量的相關性分析,該如何選擇正確的統計方法?