醫學論文中統計報告要注意的諸多細節:p值、置信區間...

2021-02-08 醫咖會

2019年3月,European Urology 雜誌(IF=17.298)發表了一篇統計報告指南《Guidelines for Reporting of Statistics for Clinical Research in Urology》,目的在於提升人們的統計學知識,改善論文質量。讓我們一起瀏覽該指南的主要建議,看看我們用的統計分析方法是否符合規範。


1.1 不要寫接受無效假設


在統計檢驗中,無效假設只能被拒絕或不被拒絕。如果p≥0.05,研究者應避免得出諸如「藥物無效」、「組間無差異」或「反應率未受影響」等結論。相反,應使用「我們沒有看到藥物作用的證據」、「我們無法證明兩組之間的差異」、或「反應率的差異沒有統計學意義」。

 

1.2 p值略高於0.05,不是一種「趨勢」


對於p=0.07這種情況,避免說「有達到統計學差異的趨勢」,或「接近統計顯著性」,因為p值不是在移動的。可以說,儘管我們看到一些證據表明接受新手術患者的反應率有所改善,但兩組間的差異並未達到傳統的統計學顯著性水平。

 

1.3 p值和95% CI不能量化假設的概率


p=0.03,並不意味著結果是由偶然機遇導致的可能性是3%;同樣,95% CI也不應被解釋為真實參數值在95% CI範圍內的可能性為95%。p值的正確解釋為當原假設為真時所得到的樣本觀察結果或更極端結果出現的概率;而95% CI,意味著如果用同樣的步驟去選樣本,那麼100次這樣的獨立過程,有95%的概率計算出來的區間會包含真實參數值。

 

1.4 不要使用置信區間來檢驗假設


當OR值的95% CI不包含1時,研究者可能會稱組間差異具有統計學意義,這其實是有問題的:因為置信區間與估計值有關,與推斷無關;而且,計算置信區間的數學方法可能不同於計算p值的方法。即使p<0.05,95% CI也可能不包括兩組之間的差異在內,反之也是如此。例如,一項納入100例患者的研究,兩組事件的發生率為70%和50%,採用Fisher精確檢驗計算的p值為0.066,而OR值的95% CI卻為1.03-5.26。

 

1.5 報告多個p值時,需要注意合理解讀結果


當你對5個獨立的無效假設報告p值時,那麼至少有一個錯誤拒絕無效假設的概率不是5%,而是大於20%。在某些特定的情況下,如基因組學研究,對p值進行調整是合適的;更常見的方法是在多重檢驗時對p值進行簡單解釋。

 

1.6 善於使用交互項


對於一個假設而分別進行檢驗的錯誤,常常發生在幹預被證明對一個亞組有效而其他組別無效時。更合適的方法是在統計模型中使用交互項。例如,為了確定一種藥物是否在女性比在男性身上更能減輕疼痛,可以建立模型如下:


最終疼痛評分=β0+β1(基線疼痛評分)+β2(藥物)+β3(性別)+β4(藥物)×(性別)

2.1 使用適當的精確級別


研究者應該仔細考慮報告的每一個數字,而不是簡單地從統計軟體中複製和粘貼出來。當然,根據報告數值類型的不同,小數點精確的位數也是有差異的。

 

2.2 避免描述中的冗餘統計


對於描述性統計分析結果,研究者應該適當取捨。例如,沒有必要說男性佔40%,女性佔60%,二者取一即可。

 

2.3 報告主要研究問題的估計值


一項臨床研究通常聚焦於少數幾個科學問題上,研究者通常應對每個問題提供估計值。例如,在兩組比較時,應該提供兩組差異大小的估計值,避免僅單獨給出每組的數據,或者簡單地說差異有或無統計學意義。在對預後因素的研究中,應給出預後因素的影響強度大小,如OR值或HR值,並且報告p值。

 

2.4 報告主要估計值的置信區間


作者應報告與主要研究問題有關的估計值的95% CI。例如,在比較兩種手術方法的研究中,作者可能會報告10%和15%的不良事件率;然而,這個研究關鍵是想看兩組之間的差異,因此,差異大小5%還應給出95% CI(比如1%-9%)。對於平均年齡、性別比等統計量則沒必要給出置信區間。

 

2.5 不要把分類變量視為連續變量


像Gleason分級的變量得分為1-5分,但是3分和4分之間的差異並不是2分和4分之間差異的一半。因此,Gleason分級這個變量應該以百分比的形式來報告(如第1級佔40%),而不是當成連續變量。同樣地,在多因素回歸模型中,Gleason分級也應該當成多分類變量放入模型。

 

2.6 如果沒有令人信服的理由,避免將連續變量進行分類


對於年齡這類變量,比較常見的做法是根據年齡大小將患者分組(如老年人定義為年齡≥60歲),然後將年齡作為分類變量進行分析。在流行病學研究中,將變量按照四分位數進行分組,報告各組與對照組相比的HR值也比較常見。


然而,這也可能帶來問題,因為我們假設了每個類別中變量的所有值都是相同的。一般來說,最好將原本的變量保持連續變量的形式,同時也可以適當進行非線性的轉換。

 

2.7 連續型預測因子與結局之間的關係可以用圖片來說明,尤其是建立非線性模型


在研究年齡和併發症發生率的研究中,研究者可以分別在X軸和Y軸上繪製年齡和併發症的發生風險,並顯示帶有95% CI的回歸線。非線性模型通常也很有用,因為它並沒有假設一個線性關係,可以允許研究者確定是否風險在某個年齡以後開始不成比例地增加。

 

2.8 不要忽視meta分析中的異質性


通俗來講,meta分析中異質性檢驗的目的是檢查各個獨立研究的結果是否具有可合併性。如果存在異質性,不僅需要報告p值,而且要關注隨機效應的估計值。研究者應調查異質性的來源,並確定導致研究結果差異的因素

 

2.9 對於生存分析,報告終點事件數,而不是比例


舉例來說,「60名患者中,10人(17%)死亡」。由於患者在不同的時間進入研究,並且隨訪的時間段不同,因此報告17%的比例沒有意義。對於生存分析來說,標準的統計方法是計算生存概率,例如報告5年內死亡風險為60%,或者中位生存時間為52個月。

 

2.10 對於生存分析,報告未發生終點事件患者的中位隨訪時間,或者給定時間內未發生終點事件的患者數


以1970年到2010年治療的1000名兒童癌症患者隊列數據為例,如果治癒率僅為40%,所有患者的中位隨訪時間可能僅有幾年;然而,存活患者的中位隨訪可能為40年,後面這個數據可能對於了解隊列的隨訪時長更有幫助。假設在2009年,又有2000名患者加入了研究。倖存者的中位隨訪時間為一年左右,這又是一個誤導。同時,我們也可以這樣報告:「至少35年來,312名患者沒有發生任何終點事件」。

 

2.11 對於生存分析,確保所有預測因子在零時已知,或者考慮界標(Landmark)分析或時間依賴協變量等方法


許多情況下,感興趣的變量會隨時間發生變化。比如,當我們想看看PSA速度是否可以預測前列腺癌患者在積極監測下的疾病進展時間。問題是PSA在診斷後的不同時間點進行檢測的,研究者很可能會用距離診斷的時間放入Kaplan-Meier或Cox回歸模型中,而不是使用根據隨訪時間計算出來的PSA速度。


通常有兩種方法來解決這個問題:界標分析可用於當感興趣的變量在短而明確的時間段內已知時(如輔助治療或化療反應)。簡言之,研究者在一個固定的「界標」開始計時(如手術後6個月)。或者,研究者也可以採用時間依賴變量的方法:每當有關於變量的新信息出現時,將「重置時間」。這是目前最常用於PSA速度和進展研究的方法。

 

我們將在下一篇文章中介紹:多因素模型和診斷試驗中統計報告的注意事項,以及結論和解釋部分要注意的問題。敬請期待!

 

文獻來源:Assel M, Sjoberg D, Elders A, et al. Guidelines for Reporting of Statistics for Clinical Research in Urology. Eur Urol, 2019, 75(3): 358-367.


推薦醫咖會專欄課程《如何理解臨床實踐指南的證據質量與推薦強度》!


講解臨床實踐指南指定過程中,如何檢索證據、如何進行系統評價、如何採用GRADE系統對證據質量和推薦意見強度進行分級以及共識法應用的流程和關鍵點。


使用電腦,打開醫咖會,觀看專欄視頻:

https://www.mediecogroup.com/zhuanlan/courses/38/


關注醫咖會,及時獲取最新統計教程


點擊左下角「閱讀原文」,查看全部免費統計教程。或者使用電腦打開網址:http://www.mediecogroup.com/,分類查看全部統計教程


快加小咖個人微信(xys2019ykh),拉你進統計討論群和眾多熱愛研究的小夥伴們一起交流學習。

相關焦點

  • 【p值之爭】 史丹福大學陸教授有話說
    觀察到的p-值是個統計量,也就是統計觀測值。自身有方差。有時看著p值很小,置信區間卻很寬。但所有的替代方案都會存在同樣的問題。所以p值是評價隨機影響的重要指標,是必要條件之一。但不是充分條件。只用p值決定科研成果是對p值的錯誤使用。醫生不會用一個指標去診斷疾病」。「臨床意義在先,統計學意義在後。無臨床意義的研究不需要統計驗證。」
  • 【p值之爭】史丹福大學陸教授有話說
    【引言】陸老師說,刊載在《上海精神醫學》2015年第27卷第6期的中文版譯者在翻譯時有多處「不盡人意」,比如「多樣性的翻譯是錯的。應該是變異,英文是variation ,也就是大家說的方差(variance)。觀察到的p-值是個統計量,也就是統計觀測值。自身有方差。有時看著p值很小,置信區間卻很寬。但所有的替代方案都會存在同樣的問題。
  • JAMA:p值檢驗,你用對了嗎? - 生物研究專區 - 生物谷
    2016年3月18日 訊 /生物谷BIOON/ --最近一篇關於p值檢驗的總數統計總結了1990至2015以來的多篇生物醫學文獻,發現被錯誤理解的統計數據越來越多,報導p值時沒有同時報導應效應量和置信區間指標。
  • 「置信區間」是什麼?(修訂版)
    說「我們有95%的信心認為眼前這個樣本統計值(可以是平均值、回歸係數或淨回歸係數)的置信區間包含總體參數」,意思是:如果我們採用同一個抽樣程序,從一個總體中抽到樣本量相同的無數個樣本,每個樣本中得到一個樣本統計值,每個樣本統計值有一個置信區間,假設這無數個置信區間是百分之百,那麼其中95%包括總體參數,我們有95%的信心認為眼前這個置信區間包括總體參數,也就是說,我們有
  • 通俗易懂告訴你:何為95%置信區間?
    而找到一個合適的估值範圍,這是置信區間要解決的問題。說到置信區間我們就要說到點估計和區間估計。那麼什麼是點估計?什麼是區間估計呢?實際上:點估計量是用於估計總體參數的樣本統計量。但我們不可能期望點估計量能給出總體參數的精確值,所以經常在點估計上加減估計誤差來計算區間估計。即區間估計的一般形式為:點估計±邊際誤差。
  • 乾貨|統計學的P值危機
    在文章發出來後不到24h就得到250多人籤名,一星期後,共收到800多份籤名,籤名者包括來自50多個國家的統計學家、臨床和醫學研究人員、生物學家和心理學家,除南極洲沒人以外,所有大洲都有人籤名。他們提出:「我們永遠不應該僅僅因為P值大於0.05之類的閾值而得出「沒有差異」或「沒有關聯」 ,或者等價,因為置信區間包括零。
  • P值不重要!P值不重要!!P值不重要!!!
    你們帶著哭腔,殊不知我是真哭了,我給每個人的回答基本都是「p值不重要,效應值才重要。」當然,有些傢伙說「p值>0.05,我就不活了,師兄」也是有辦法對付的(即使p值大於0.05,通過統計檢驗效率計算機模擬版塊也可以做出p很小很小哦,嘿嘿。)
  • 800名科學家聯名反對統計學意義,放棄P值「決定論」!
    然而,也可能會因分析計劃中始終存在的決定而產生偏見。即使是出於好意,這也會發生。同樣,我們並不主張放棄P值,置信區間或其他統計措施,只是我們不應該武斷對待它們。包括統計上的二分法,以及基於其他統計測量(例如貝葉斯因子)的分類。
  • 800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話
    通常,很多商業和醫學上的決策都是基於這個「5%原則」制定的。「統計顯著」和p值的起源:從「建議」到「金標準」「顯著」一詞最早見於19世紀80年代,英國經濟學家和統計學家弗朗西斯·埃奇沃思(Francis Edgeworth)在統計檢驗中首次使用該詞。據統計學家格倫·謝弗(Glenn Shafer)稱,當時使用這個詞的方式與今天不同。
  • 第四十講 R-線性回歸:預測模型及可信區間
    R的基本知識展開到生物統計原理及其在R中的實現。 預測區間給出了單個值(注意,置信區間為平均值)附近的不確定性。注意,預測區間依賴於假設:殘留誤差正態分布為常數。因此,只有在您認為手邊的數據近似滿足假設的情況下,才可以使用預測區間。預測區間反映單個值附近的不確定性,而置信區間反映平均預測值附近的不確定性。因此,預測區間通常將比相同值的置信區間寬得多。這個問題的答案取決於分析的背景和目的。
  • 通俗易懂學Python,置信度與置信區間
    那就隨機挑選一部分學生,然後測量這一部分學生的身高,得到一個值(一般用平均值),用這一部分的平均值來估計整體學生的身高情況,我們把這種估計方式稱為點估計。現在你要看一下某流水線上 iphone 手機的不合格率,怎麼看呢?最笨的方法還是把所有的手機全部開機試用,統計不合格手機的佔比,這樣可以嗎?很明顯是不可以的。
  • MATLAB繪製帶置信區間的擬合曲線
    MATLAB中與曲線擬合有關的函數主要有polyfit、polyval和polyconf。polyfit:基於最小二乘法,用於曲線擬合的函數。用法:(1)p=polyfit(x,y,n)。其中,x和y為擬合數據向量,n為擬合多項式次數,預設時默認為1次。
  • P還是那個P,But美國統計協會到底說了啥?
    聲明給出了P值的非正式定義及6條準則。 What is a p-value?白話解讀:決策不是一錘子直買賣,不是通過P值一刀切來判定對錯。科學的決策過程應該是涉及從實驗的設計,測量的質量,外部的信息和證據,到假設的合理性等諸多環節和因素。  4.Proper inference  requires full reporting and transparency準則4:合理的推斷過程需要完整的報告和透明度。
  • @所有人: 頂級醫學雜誌JAMA的統計指南,中文版解讀新鮮出爐,快來看!
    在結果報告中,如果可能,一般需要量化結果,並提供適當的測量誤差或不確定性指標(例如置信區間),避免僅依靠統計假設檢驗(例如使用P值)而無法傳達重要的定量信息。對於觀察性研究,應提供觀察人數。對於隨機試驗,應提供隨機數。對於多變量模型,應報告模型中包含的所有變量,並根據情況適當報告模型診斷信息和模型的整體擬合度。並且應報告失訪情況,以反映觀察或者隨訪的過程。
  • Nature:800名科學家聯名反對統計學意義,放棄P值「決定論」
    正如標題所言這三位號召科學家放棄追求「統計學意義」,並且停止用統計學中常見的P值作為判斷標準。p值是指在一個概率模型中,統計摘要(如兩組樣本均值差)與實際觀測數據相同,或甚至更大這一事件發生的概率。換言之,是檢驗假設零假設成立或表現更嚴重的可能性。p值若與選定顯著性水平(0.05或0.01)相比更小,則零假設會被否定而不可接受。
  • 跟著Nature Methods學畫圖:R語言ggplot2散點圖並添加擬合曲線和置信區間
    今天的推文繼續學習A single-cell atlas of the peripheral immune response in patients with severe COVID-19論文中的代碼。
  • 統計︱P值-0.05就發表,不然就去死!
    Fisher的具體做法是:2.選擇一個檢驗統計量(例如z 統計量或Z 統計量) ,該統計量的分布在假定的參數取值為真時應該是完全已知的。3.從研究總體中抽取一個隨機樣本4計算檢驗統計量的值5計算概率P值或者說觀測的顯著水平,即在假設為真時的前提下,檢驗統計量大於或等於實際觀測值的概率。.如果P<0.01,說明是較強的判定結果,拒絕假定的參數取值。
  • Python數據分析:置信度與置信區間如何區分?
    今天這篇聊聊統計學裡面的置信度和置信區間,好像沒怎寫過統計學的東西,這篇試著寫一寫。
  • 美國統計學會權威發布:P值應該這麼用,學界有錯須改正
    (Proper inference requires full reporting and transparency. )研究者不應選擇地報導P值和相關的統計分析。某項研究可能使用了好幾種分析方法,而研究者只報告其中的一部分(特別是那些符合標準的),這就使得P 值難以解釋。
  • 抽樣分布:如何進行參數的點估計和區間估計?
    點估計的評價無偏性:如果參數估計值的數學期望等於被估計的參數值,則稱此估計量為無偏估計。與此相反則稱為有偏估計。需要注意的是,雖然S2是σ2的無偏估計,但S不是σ的無偏估計,其值要略小一些,尤其是小樣本時,差距會非常明顯。