2019年3月,European Urology 雜誌(IF=17.298)發表了一篇統計報告指南《Guidelines for Reporting of Statistics for Clinical Research in Urology》,目的在於提升人們的統計學知識,改善論文質量。讓我們一起瀏覽該指南的主要建議,看看我們用的統計分析方法是否符合規範。
1.1 不要寫接受無效假設
在統計檢驗中,無效假設只能被拒絕或不被拒絕。如果p≥0.05,研究者應避免得出諸如「藥物無效」、「組間無差異」或「反應率未受影響」等結論。相反,應使用「我們沒有看到藥物作用的證據」、「我們無法證明兩組之間的差異」、或「反應率的差異沒有統計學意義」。
1.2 p值略高於0.05,不是一種「趨勢」
對於p=0.07這種情況,避免說「有達到統計學差異的趨勢」,或「接近統計顯著性」,因為p值不是在移動的。可以說,儘管我們看到一些證據表明接受新手術患者的反應率有所改善,但兩組間的差異並未達到傳統的統計學顯著性水平。
1.3 p值和95% CI不能量化假設的概率
p=0.03,並不意味著結果是由偶然機遇導致的可能性是3%;同樣,95% CI也不應被解釋為真實參數值在95% CI範圍內的可能性為95%。p值的正確解釋為當原假設為真時所得到的樣本觀察結果或更極端結果出現的概率;而95% CI,意味著如果用同樣的步驟去選樣本,那麼100次這樣的獨立過程,有95%的概率計算出來的區間會包含真實參數值。
1.4 不要使用置信區間來檢驗假設
當OR值的95% CI不包含1時,研究者可能會稱組間差異具有統計學意義,這其實是有問題的:因為置信區間與估計值有關,與推斷無關;而且,計算置信區間的數學方法可能不同於計算p值的方法。即使p<0.05,95% CI也可能不包括兩組之間的差異在內,反之也是如此。例如,一項納入100例患者的研究,兩組事件的發生率為70%和50%,採用Fisher精確檢驗計算的p值為0.066,而OR值的95% CI卻為1.03-5.26。
1.5 報告多個p值時,需要注意合理解讀結果
當你對5個獨立的無效假設報告p值時,那麼至少有一個錯誤拒絕無效假設的概率不是5%,而是大於20%。在某些特定的情況下,如基因組學研究,對p值進行調整是合適的;更常見的方法是在多重檢驗時對p值進行簡單解釋。
1.6 善於使用交互項
對於一個假設而分別進行檢驗的錯誤,常常發生在幹預被證明對一個亞組有效而其他組別無效時。更合適的方法是在統計模型中使用交互項。例如,為了確定一種藥物是否在女性比在男性身上更能減輕疼痛,可以建立模型如下:
最終疼痛評分=β0+β1(基線疼痛評分)+β2(藥物)+β3(性別)+β4(藥物)×(性別)
2.1 使用適當的精確級別
研究者應該仔細考慮報告的每一個數字,而不是簡單地從統計軟體中複製和粘貼出來。當然,根據報告數值類型的不同,小數點精確的位數也是有差異的。
2.2 避免描述中的冗餘統計
對於描述性統計分析結果,研究者應該適當取捨。例如,沒有必要說男性佔40%,女性佔60%,二者取一即可。
2.3 報告主要研究問題的估計值
一項臨床研究通常聚焦於少數幾個科學問題上,研究者通常應對每個問題提供估計值。例如,在兩組比較時,應該提供兩組差異大小的估計值,避免僅單獨給出每組的數據,或者簡單地說差異有或無統計學意義。在對預後因素的研究中,應給出預後因素的影響強度大小,如OR值或HR值,並且報告p值。
2.4 報告主要估計值的置信區間
作者應報告與主要研究問題有關的估計值的95% CI。例如,在比較兩種手術方法的研究中,作者可能會報告10%和15%的不良事件率;然而,這個研究關鍵是想看兩組之間的差異,因此,差異大小5%還應給出95% CI(比如1%-9%)。對於平均年齡、性別比等統計量則沒必要給出置信區間。
2.5 不要把分類變量視為連續變量
像Gleason分級的變量得分為1-5分,但是3分和4分之間的差異並不是2分和4分之間差異的一半。因此,Gleason分級這個變量應該以百分比的形式來報告(如第1級佔40%),而不是當成連續變量。同樣地,在多因素回歸模型中,Gleason分級也應該當成多分類變量放入模型。
2.6 如果沒有令人信服的理由,避免將連續變量進行分類
對於年齡這類變量,比較常見的做法是根據年齡大小將患者分組(如老年人定義為年齡≥60歲),然後將年齡作為分類變量進行分析。在流行病學研究中,將變量按照四分位數進行分組,報告各組與對照組相比的HR值也比較常見。
然而,這也可能帶來問題,因為我們假設了每個類別中變量的所有值都是相同的。一般來說,最好將原本的變量保持連續變量的形式,同時也可以適當進行非線性的轉換。
2.7 連續型預測因子與結局之間的關係可以用圖片來說明,尤其是建立非線性模型
在研究年齡和併發症發生率的研究中,研究者可以分別在X軸和Y軸上繪製年齡和併發症的發生風險,並顯示帶有95% CI的回歸線。非線性模型通常也很有用,因為它並沒有假設一個線性關係,可以允許研究者確定是否風險在某個年齡以後開始不成比例地增加。
2.8 不要忽視meta分析中的異質性
通俗來講,meta分析中異質性檢驗的目的是檢查各個獨立研究的結果是否具有可合併性。如果存在異質性,不僅需要報告p值,而且要關注隨機效應的估計值。研究者應調查異質性的來源,並確定導致研究結果差異的因素。
2.9 對於生存分析,報告終點事件數,而不是比例
舉例來說,「60名患者中,10人(17%)死亡」。由於患者在不同的時間進入研究,並且隨訪的時間段不同,因此報告17%的比例沒有意義。對於生存分析來說,標準的統計方法是計算生存概率,例如報告5年內死亡風險為60%,或者中位生存時間為52個月。
2.10 對於生存分析,報告未發生終點事件患者的中位隨訪時間,或者給定時間內未發生終點事件的患者數
以1970年到2010年治療的1000名兒童癌症患者隊列數據為例,如果治癒率僅為40%,所有患者的中位隨訪時間可能僅有幾年;然而,存活患者的中位隨訪可能為40年,後面這個數據可能對於了解隊列的隨訪時長更有幫助。假設在2009年,又有2000名患者加入了研究。倖存者的中位隨訪時間為一年左右,這又是一個誤導。同時,我們也可以這樣報告:「至少35年來,312名患者沒有發生任何終點事件」。
2.11 對於生存分析,確保所有預測因子在零時已知,或者考慮界標(Landmark)分析或時間依賴協變量等方法
許多情況下,感興趣的變量會隨時間發生變化。比如,當我們想看看PSA速度是否可以預測前列腺癌患者在積極監測下的疾病進展時間。問題是PSA在診斷後的不同時間點進行檢測的,研究者很可能會用距離診斷的時間放入Kaplan-Meier或Cox回歸模型中,而不是使用根據隨訪時間計算出來的PSA速度。
通常有兩種方法來解決這個問題:界標分析可用於當感興趣的變量在短而明確的時間段內已知時(如輔助治療或化療反應)。簡言之,研究者在一個固定的「界標」開始計時(如手術後6個月)。或者,研究者也可以採用時間依賴變量的方法:每當有關於變量的新信息出現時,將「重置時間」。這是目前最常用於PSA速度和進展研究的方法。
我們將在下一篇文章中介紹:多因素模型和診斷試驗中統計報告的注意事項,以及結論和解釋部分要注意的問題。敬請期待!
文獻來源:Assel M, Sjoberg D, Elders A, et al. Guidelines for Reporting of Statistics for Clinical Research in Urology. Eur Urol, 2019, 75(3): 358-367.
推薦醫咖會專欄課程《如何理解臨床實踐指南的證據質量與推薦強度》!
講解臨床實踐指南指定過程中,如何檢索證據、如何進行系統評價、如何採用GRADE系統對證據質量和推薦意見強度進行分級以及共識法應用的流程和關鍵點。
使用電腦,打開醫咖會,觀看專欄視頻:
https://www.mediecogroup.com/zhuanlan/courses/38/
關注醫咖會,及時獲取最新統計教程
點擊左下角「閱讀原文」,查看全部免費統計教程。或者使用電腦打開網址:http://www.mediecogroup.com/,分類查看全部統計教程。
快加小咖個人微信(xys2019ykh),拉你進統計討論群和眾多熱愛研究的小夥伴們一起交流學習。