研究表明,運動有助於預防心臟病。一般來說,運動越多,心臟病的患病風險越小。其原因之一在於,運動可以降低血膽固醇濃度。近期研究顯示,一項久坐的生活指標—看電視時間,可能是罹患心臟病的預測因素。即看電視時間越長,心臟病的患病風險越大。
研究者擬在45-65歲健康男性人群中分析膽固醇濃度與看電視時間的關係。他們猜測可能存在正向相關,即看電視時間越長,膽固醇濃度越高。同時,他們也希望預測膽固醇濃度,並計算看電視時間對膽固醇濃度的解釋能力。
研究者收集了受試者每天看電視時間(time_tv)和膽固醇濃度(cholesterol)等變量信息,部分數據如下:
研究者想判斷兩個變量之間的關係,同時用其中一個變量(看電視時間)預測另一個變量(膽固醇濃度),並計算其中一個變量(看電視時間)對另一個變量(膽固醇濃度)變異的解釋程度。針對這種情況,我們可以使用簡單線性回歸分析,但需要先滿足7項假設:
假設1:因變量是連續變量
假設2:自變量可以被定義為連續變量
假設3:因變量和自變量之間存在線性關係
假設4:具有相互獨立的觀測值
假設5:不存在顯著的異常值
假設6:等方差性
假設7:回歸殘差近似正態分布
那麼,進行簡單線性回歸分析時,如何考慮和處理這7項假設呢?
(點擊圖片可查看清晰大圖)
因變量是連續變量,自變量可以被定義為連續變量。
舉例來說,我們平時測量的反應時間(小時)、智力水平(IQ分數)、考試成績(0到100分)以及體重(千克)都是連續變量。在線性回歸中,因變量(dependent variable)一般是指研究的成果、目標或者標準值;自變量(independent variable)一般被看作預測、解釋或者回歸變量。
假設1和假設2與研究設計有關,需要根據實際情況判斷。
簡單線性回歸要求自變量和因變量之間存在線性關係,如要求看電視時間(time_tv)和膽固醇濃度(cholesterol)存在線性關係。
判斷變量之間是否存在線性關係的方法有很多,我們主要向大家介紹散點圖法,即通過因變量和自變量的散點圖進行直觀地判斷。如果散點趨向於構成一條直線,那麼因變量和自變量之間存在線性關係;如果構成曲線,就不存在線性關係,舉例如下:
這樣的散點圖用SPSS怎麼畫呢?
(1) 在主菜單點擊Graphs→Chart Builder
出現下圖:
(2) 在Chart Builder對話框下,從Choose from選擇Scatter/Dot
(3) 在中下部的8種圖形中,選擇左上角的那一種(如果點擊這個圖標會出現「Simple Scatter」字樣),並拖拽到主對話框中
(4) 主對話框中會出現標記「Y-Axis?」和「X-Axis?」的方框
(5) 將看電視時間(time_tv)和膽固醇濃度(cholesterol)變量分別拖拽到「X-Axis?」和「Y-Axis?」方框內
(6) 在Element Properties框內點擊Y-Axis1 (Point1)
(7) 在Scale Range框內取消對Minimum的勾選
(8) 點擊Apply→OK,完成散點圖
那麼,我們應該如何通過散點圖判斷是否存在線性關係呢?
我們可以通過簡單的視覺判斷散點分布是否構成直線,舉例如下:
值得注意的是,你可能對右圖為什麼沒有線性關係存在疑問。我們認為簡單線性回歸中因變量和自變量的線性關係是指因變量會隨自變量的變化而發生改變。而雖然右圖的散點分布可以構成直線,但是這條直線與X軸平行,證明其因變量不隨自變量變化。因此我們認為右圖不存在線性關係。
從上文的結果散點圖可以看出,本研究中看電視時間和膽固醇濃度存在線性關係。同時也提示,他們之間的線性關係是正向的,即膽固醇濃度(Y)隨看電視時間(X)的增加而增加。但無論是正向的,還是負向的,只要因變量和自變量之間存在線性關係,我們就完成了對假設3的檢驗。
為了檢驗假設4-7,我們需要在SPSS中運行簡單線性回歸,並對結果進行一一分析。
(1) 點擊Analyze→ Regression→ Linear
出現下圖:
(2) 將看電視時間(time_tv)和膽固醇濃度(cholesterol)分別放入Independent和Dependent欄
(3) 點擊Statistics,彈出下圖
(4) 在Regression Coefficient框內點選Confidence intervals,並在Residuals框內點選Durbin-Watson和Casewise diagnosis
(5) 點擊Continue,回到主界面
(6) 點擊Plots,彈出下圖
(7) 分別在「Y:」和「X:」框內添加「*ZRESID」和「*ZPRED」
(8) 在Standardized Residual Plots中點選Histogram和Normal probability plot
(9) 點擊Continue→OK
根據結果,我們將逐一對假設4-7進行檢驗。
經過上述操作,SPSS輸出Durbin-Watson檢驗結果為:
本研究Durbin-Watson檢驗值為1.957。一般來說,Durbin-Watson檢驗值分布在0-4之間,越接近2,觀測值相互獨立的可能性越大。即,本研究中簡單線性回歸的觀測值具有相互獨立性,滿足假設4。
但不得不說,Durbin-Watson檢驗不是萬能的。它僅適用於對鄰近觀測值相關性的檢驗(1st-order autocorrelation)。舉例來說,我們一般按照調查順序錄入數據,將第一位受試者錄入到第一行,再將第二位受試者錄入到第二行。在這種情況下,Durbin-Watson檢驗可以檢測出第一位受試者和第二位受試者之間的相關性。
但是如果我們亂序錄入數據,將第一位受試者和可能與他存在自相關的第二位受試者離得很遠,Durbin-Watson檢驗的結果就不準確了。因此,我們需要慎重對待Durbin-Watson檢驗的結果。
其實,觀測值是否相互獨立與研究設計有關。如果研究者確信觀測值不會相互影響,我們甚至可以不進行Durbin-Watson檢驗,直接認定研究滿足假設4。
在簡單線性回歸中,異常值是指觀測值與預測值相差較大的數據。這些數據不僅影響回歸統計,還對殘差的變異度和預測值的準確性有負面作用,並阻礙模型的最佳擬合。因此,我們必須充分重視回歸的異常值。從看電視時間(time_tv)和膽固醇濃度(cholesterol)的散點圖可以看出,本研究存在潛在異常值,如下圖標記點:
但是,我們必須注意,由於橫縱坐標比例的影響,散點圖的直觀結果並不可靠。我們需要經過Casewise Diagnostics檢驗進行客觀分析。
經過上述操作,SPSS輸出Casewise Diagnostics檢驗結果為:
結果顯示,本研究的第91例數據是潛在異常值,標準殘差為4.059。一般來說,Casewise Diagnostics檢驗標準是上下3倍標準差,並標記超出此範圍的數據為潛在異常值。同時,該結果也顯示膽固醇濃度的實際值為7.98,而根據潛在異常值預測的膽固醇濃度為5.7977,差值為2.18233。根據這些指標,本研究直接剔除第91例數據,重新進行檢驗和數據分析。
其實,Casewise Diagnostics檢驗檢測的異常值主要是離群值,如果大家對檢測別的異常值感興趣,可以看我們今後關於槓桿值和影響點的詳細介紹。
等方差性是簡單線性回歸的基本假設,可以通過殘差與回歸擬合值或標準化殘差與標準化預測值之間的散點圖進行檢驗。經過上述操作,SPSS輸出結果如下:
如果存在等方差性,不同擬合值對應的殘差應大致相同。即圖中各點均勻分布,不會出現特殊的分布形狀。
如果殘差點分布不均勻,形成漏鬥或者扇形,那麼回歸就不具有等方差性,如下圖:
(註:increasing funnel, 上升漏鬥;decreasing funnel, 下降漏鬥;fan shaped, 扇形)
本研究結果顯示,標準化殘差與標準化預測值散點圖中各點均勻分布,雖然在中部相對集中,但不是十分嚴重。據此,我們認為該回歸符合等方差性的基本假設,即滿足假設6。
當然,如果研究結果提示不滿足等方差性假設,我們也可以通過一些統計手段進行矯正。比如,採用加權最小二乘法進行回歸,改用更加穩健的回歸或者有穩健標準差結果的回歸以及轉換數據等。(之後的文章我們會詳細介紹~)
(1) 柱狀圖
經上述操作,SPSS輸出結果如下:
從圖中可以看出,該回歸的標準化殘差近似正態分布。但是由於橫縱坐標比例的影響,柱狀圖的結果可能不準確,我們需要繪製正態P-P圖進一步驗證。
(2) 正態P-P圖
正態P-P圖是專門檢驗數據正態性的工具,準確性較好。經上述操作,SPSS輸出結果如下:
正態P-P圖各點分布離對角線越近,提示數據越接近於正態分布;如果各點剛好落在對角線上,那麼數據就是正態分布。簡單線性回歸僅要求回歸殘差接近於正態分布,因此根據上圖,我們認為該研究滿足假設7。
同時,值得注意的是,相較於柱狀圖,正態P-P圖可以更加明顯、準確地判斷數據的正態性,具體對比如下。這提示,在判斷正態性時,應謹慎對待柱狀圖的結果,結合正態P-P圖進行全面分析。
(註:positive skewness, 正偏;negative skewness, 負偏;positive kurtosis,正峰度;negative kurtosiss, 負峰度;Histogram, 柱狀圖;normal Q-Q Plot, 正態P-P圖)
簡單線性回歸可以得到3個主要結果:
(1) 自變量解釋因變量變異的比例
(2) 根據新增的自變量預測因變量
(3)自變量改變一個單位,因變量的變化情況
為了更好地解釋和報告簡單線性回歸的結果,我們需要統計以下3個方面:
(1) 線性回歸模型的擬合程度
(2) 回歸係數
(3) 根據自變量預測因變量
判斷線性回模型擬合程度的指標有很多,我們主要向大家介紹變異的解釋程度、模型的統計學意義以及預測值的準確性(5.3節)3個指標。
5.1.1 變異的解釋程度
SPSS簡單線性回歸輸出的結果中有Model Summary表格,如下。其中帶有字母「R」的指標(已標黃)與模型對變異的解釋程度有關。
第一個標黃的指標R是回歸的多重相關係數。當簡單線性回歸中只有一個自變量時,R值與因變量和自變量的Pearson相關係數相同,代表兩者之間的相關程度。如該研究中R=0.359,提示膽固醇濃度與看電視時間中等相關。但實際上,簡單線性回歸併不關注R值。
第二個標黃的指標R2(R Square)代表回歸模型中自變量對因變量變異的解釋程度,是分析回歸結果的開始。本研究中,R2=0.129,提示自變量(看電視時間)可以解釋12.9%的因變量(膽固醇濃度)變異。但是,R2是基於樣本數據計算出來的,會誇大自變量對因變量變異的解釋程度。
第三個標黃的指標adjusted R2(Adjusted R Square)。 與R2不同的是,它剔除了自變量個數的影響,準確性更好。本研究中,adjusted R2=0.120,小於R2=0.129,校正了R2對總體自變量對因變量變異解釋程度的誇大作用。同時,adjusted R2也是影響程度的評價指標。本研究中,adjusted R2=0.120,提示中等影響。
5.1.2 模型的統計學意義
SPSS的輸出結果中有ANOVA表格,如下:
該表中各指標的含義如下:
結果顯示,本研究回歸模型具有統計學意義,F(1, 97)=14.39,P<0.001,提示因變量和自變量之間存在線性相關。如果P>0.05,則說明該回歸沒有統計學意義,因變量和自變量之間不存在線性相關。
本研究的回歸方程可以表示為:
cholesterol= b0+(b1×time_tv)
其中,b0是截距,b1是斜率。如果可以得到這兩個指標,我們就可以根據自變量(看電視時間,time_tv)預測因變量(膽固醇濃度,cholesterol)了。SPSS對回歸截距和斜率的輸出結果如下:
在SPSS中,截距被稱為「Constant」,即-0.944,如下:
實際上,我們並不是關注回歸的截距指標。它是指當自變量為0時,因變量的值。在本研究中,回歸截距提示當看電視時間為0,即從來不看電視時,受調查者膽固醇濃度的平均值為-0.944mmol/L。這種分析方法是不對的,不僅因為它不符合客觀實際,還因為它存在對數據過度挖掘的風險。同時,我們也可以通過P值判斷截距的統計學意義,如下:
通過P值(P=0.575),我們也可以看出該研究的截距沒有統計學意義,即截距值(-0.944)與0的差異沒有統計學意義。必須強調的是,無論截距的統計檢驗結果如何,我們在進行簡單線性回歸時都不是十分關注這項指標。我們主要的關注指標是斜率,如下標黃的部分:
斜率代表的是自變量每改變一個單位因變量的變化值。在本研究中,看電視時間的斜率是0.037,表示每當看電視時間增加1分鐘,膽固醇濃度增加 0.037mmol/L。
舉例來說,如果某受調查者看電視時間從170分鐘/天增加到180分鐘/天(增加10分鐘/天),她/他的膽固醇濃度將增加0.037×10=0.370mmol/L。同樣地,我們也可以計算出每當看電視時間增加5、15、20分鐘/天時,對應膽固醇濃度的增加值。但是,我們並不能無限制地改變看電視時間。
為了避免對數據的過度挖掘,我們一般要求在自變量觀測到的最大值和最小值之間進行計算。
根據SPSS結果,我們也可以得到斜率的可能範圍,如下標黃的部分:
從表中可以看出,斜率的95%置信區間在0.018-0.056mmol/L(Lower Bound,Upper Bound)。同時,在Sig欄可以得到斜率的統計學檢驗結果,如下:
斜率的P值為0.000(在報告中應記為P<0.001),提示斜率值與0的差異有統計學意義,也說明膽固醇濃度與看電視時間存在線性關係。
如果斜率的P值大於0.05,證明斜率沒有統計學意義,即斜率值與0的差異沒有統計學意義,說明因變量和自變量之間不存在線性關係。在這種情況下,我們不能通過自變量預測因變量。
將係數代入回歸方程,得:
cholesterol= -0.944+(0.037×time_tv)
根據這個方程,我們可以計算合理範圍內任意看電視時間對應的膽固醇濃度。但針對這個例子,僅依靠看電視時間計算膽固醇濃度存在專業上的質疑。因此,我們僅認為看電視時間是久坐生活習慣的一項指標,通過該模型可以對膽固醇濃度做出一些解釋。
簡單線性回歸的一個主要作用就是根據自變量預測因變量。正如5.2提到的,我們僅根據看電視時間預測膽固醇濃度存在專業質疑,但是為了系統地向大家介紹簡單線性回歸的功能,我們仍用這個例子進行講解。
這一節,我們從根據回歸方程預測因變量開始,逐步向大家介紹計算預測值和95%置信區間的SPSS操作方法及對預測結果的解釋。
5.3.1 根據回歸方程計算預測值
根據SPSS結果,我們得到本研究的線性回歸方程如下:
cholesterol= -0.944+(0.037×time_tv)
我們僅需要將看電視時間代入方程就可以得到膽固醇濃度的預測值。舉例來說,如果某位受試者每天看電視的時間為180分鐘(3小時),帶入方程如下:
預測的膽固醇濃度= -0.944+(0.037×180)=5.72 mmol/L
即,當看電視時間為180分鐘/天時,預測膽固醇濃度為5.72 mmol/L。
這個預測值有兩種含義。第一,如果我們調查了目標人群中所有電視時間為180分鐘/天的人,他們膽固醇濃度的平均值應為5.72 mmol/L。第二,如果某位受調查者看電視的時間為180分鐘/天,那麼5.72 mmol/L是其膽固醇濃度的最佳估計值。
第二種含義比較難理解,在此我們向大家具體說明一下。大家都知道,即使兩個人看電視的時間相同,他們實際的膽固醇濃度也可能不同。我們用平均值描述他們的情況比用某一個人的實際值好。因此,我們認為用看電視時間為180分鐘/天的受調查者膽固醇濃度的平均值代表這個群體更好,即5.72 mmol/L是其膽固醇濃度的最佳估計值。
5.3.2 預測值和95%置信區間的SPSS操作方法
相較於5.3.1的計算方法,SPSS操作可以同時進行多個數據的計算,並估計預測值的95%置信區間。我們以看電視時間為160、170和180分鐘/天為例,向大家介紹預測值和95%置信區間的SPSS操作方法。
(1) 點擊Analyze→ General Linear Model→ Univariate,出現下圖:
(2) 將因變量cholesterol放入Dependent Variable框內,自變量time_tv放入Covariate(s)框內
(3) 點擊Paste,出現IBM SPSS Statistics Syntax Editor窗口如下:
(4) 在/DESIGN=time_tv.上方插入/LMATRIX=ALL 1 160,如下:
語法解釋:在只有一個自變量的簡單線性回歸中,LMATRIX命令允許加入自變量的數值。/LMATRIX=ALL 1 160語句中各部分的含義如下:
ALL指同時運用斜率和自變量進行預測;
1 指納入截距;
160 指用來預測因變量的自變量值。
如果我們想同時進行多組預測,只需要在該語句後面加「;ALL 1 VALUE」。其中,VALUE是指用於預測因變量的自變量值。例如,我們要預測看電視時間為160、170和180分鐘/天時的膽固醇濃度,如下:
(5) 點擊Run→ All,輸出結果
5.3.3 預測結果的解釋
預測結果在Contrast Results(K Matricx)中展示,如下:
我們是以看電視時間為160、170和180分鐘/天為例進行預測的,語法是
LMATRIX=ALL 1 160; ALL 1 170; ALL 1 180
結果也是按照語法順序進行排列的,即L1(紅框)是每天看電視時間為160分鐘的預測值,L2 是(藍框)是每天看電視時間為170分鐘的預測值,L3 是(綠框)是每天看電視時間為180分鐘的預測值。
我們以每天看電視時間為160分鐘為例解釋預測結果,如下圖紅框部分:
從Contrast Estimate可以看出,每天看電視160分鐘的膽固醇濃度預測值為4.98 mmol/L。我們根據回歸方程可以得到相同的結果 -0.944+0.037×160 =4.98 mmol/L。但是,SPSS操作還提供了其他結果。如,預測值的標準誤(Std. Error)是0.13 mmol/L,提示預測值的變異程度。再如,預測值的95%置信區間(Confidence Internal for Difference)為4.73-5.23 mmol/L。
但必須注意的是,我們這裡提到的置信區間是預測平均值的置信區間,而不是單個預測值的置信區間。比如,我們可能希望根據某個受試者的看電視時間預測他的膽固醇濃度。在這個過程中,我們也可以使用回歸方程進行計算,但是我們得到的區間估計不是置信區間,而是預測區間。由於個體觀測值的不穩定性,預測區間往往比置信區間大。同時,個體預測的預測區間不能通過SPSS自動計算得到。在本章節,我們只需要記得個體預測的預測區間與樣本預測的置信區間不同即可。
6.1 簡潔匯報
簡單線性回歸結果提示,看電視時間與膽固醇濃度之間存在線性關係F(1,97) = 14.395(P <0.001);看電視時間可以解釋膽固醇濃度變異的12.9%。回歸方程如下:
膽固醇濃度= -0.944+(0.037×看電視時間)
6.2 統計結果報告
採用簡單線性回歸模型分析看電視時間對膽固醇濃度的影響。通過繪製散點圖,直觀判斷兩者之間存在線性關係,並通過繪製標準化殘差散點圖和帶正態曲線的柱狀圖或P-P圖,驗證數據具有等方差性和殘差正態性。同時為了保證數據的代表性,我們剔除了一項異常值(膽固醇濃度為7.98 mmol/L)。回歸方程如下:
膽固醇濃度= -0.944+(0.037×看電視時間)
看電視時間對膽固醇濃度的影響有統計學意義,F(1,97)=14.395(P <0.001);看電視時間可以解釋膽固醇濃度變異的12.9%,影響程度中等(調整R2= 12.0%)。每增加1分鐘/天看電視時間,膽固醇濃度增加0.037 (95% CI:0.018-0.056)mmol/L。此外,看電視時間為160分鐘/天、170分鐘/天和180分鐘/天的膽固醇濃度預測值分別為4.98 (95% CI:4.73-5.23)mmol/L、5.35 (95% CI:5.24-5.45)mmol/L和5.72 (95% CI:5.53-5.90)mmol/L。
6.3 散點圖
根據4.2的講解,我們已經可以繪製出基本的散點圖,如下:
但是在匯報結果時,我們仍需要增加最佳擬合線、置信區間和預測區間等指標。具體操作方法如下:
(1) 雙擊散點圖,激活Chart Editor
(2) 點擊Element→ Fit Line at Total
出現下圖:
同時,Properties對話框也會自動彈出
提示:如果只想做出最佳擬合線,到這一步就可以關閉Properties和Chart Editor窗口,Output Viewer窗口會自動出現下圖,完成操作。
如果需要繪製置信區間和預測區間,請繼續第(3)步的操作。
(3) 在Properties對話框中,點擊Confidence Intervals中的Mean
(4) 點擊Apply,出現下圖
(5) 在Properties對話框中,點擊Confidence Intervals中的Individual
(6) 點擊Apply,出現下圖
(7) 關閉Properties和Chart Editor窗口,Output Viewer窗口會彈出帶有置信區間和預測區間的散點圖
(8) 但是,一般學術報告都要求去除背景和邊框顏色,這應該怎麼做呢?雙擊散點圖,激活properties窗口,在Fill & Border窗口內修改背景顏色
(9) 點擊Fill,選擇顏色框
(10) 點擊Apply,背景顏色從灰色變為無色
(11) 點擊Border,選擇顏色框
(12) 點擊Apply,邊框顏色從黑色變為無色,圖中上方和後側的邊框線消失
(13) 關閉Properties窗口
(14) 那如果想改變坐標軸數字的保留位數,應如何做呢?雙擊縱坐標軸上的任意數字(如6.00),激活縱坐標軸的Properties窗口
(15) 點擊Properties窗口內的Number Format
(16) 將Decimal Places框內的「2」改成「1」
(17) 點擊Apply,縱坐標數據由保留兩位小數變為保留一位小數。但實際上,在本研究中膽固醇濃度保留兩位小數比較合理,所以我們仍保留兩位小數
(18) 點擊Close,關閉Properties窗口
(19) 再進一步調整線型後,我們就可以得到學術出版要求的散點圖,如下
數據異常值主要有以下三類:
(1) 數據錄入錯誤
當出現異常值時,首先應考慮是否存在錄入錯誤。這是最簡單的異常值類型,我們只需要查到原數據,重新錄入即可。
(2) 數據測量錯誤
如果不存在錄入錯誤,我們就需要檢查異常值是不是由測量錯誤導致的。比如,用量程為0-100°C的測試儀器測量溫度,結果發現有些數據超過100°C,那麼我們就推測這些數據是由於測量錯誤導致的。
在大多數情況下,測量錯誤都無法彌補,我們一般建議直接剔除這些數據。但如果我們知道這些異常值的方向,如上述的例子中,存在大於100°C的數據,我們可以錄入為上限值100°C。雖然這樣會造成偏倚,但對數據的影響仍小於直接剔除異常值。
(3) 自然的數據異常值
如果異常值既不是錄入錯誤,也不是測量錯誤,是數據中自然存在的,那麼我們就不能僅僅因為這些異常值影響了線性回歸的基本假設就直接剔除。針對這類異常值,既往研究沒有統一的處理意見,建議研究者按照自己的喜好處理。
處理異常值後需要重新進行檢驗和分析。同時,值得注意的是,如果數據中存在多於一個異常值,我們可以先處理其中比較嚴重的,並重新檢驗,可能其他潛在異常值就不再是異常值了。
發現異常值後,我們如何做呢?
如果不希望或者不能剔除異常值,我們可以採取以下措施:
(1) 對因變量進行數據轉換
數據轉換可以改變數據的分布比例,從而影響異常值的檢驗結果。但由於數據轉換,回歸係數會比較難解釋,增加了數據分析的難度。同時,我們也必須確定轉換後的數據滿足等方差性和殘差正態性,重新檢驗回歸假設。
(2) 分別運行納入和不納入異常值的回歸模型,若結果沒有差異,保留異常值
剔除或者處理異常值的目的是為了減小異常值對回歸結果的影響。如果能證明數據中的異常值對回歸結果(如回歸係數和置信區間)沒有明顯影響,我們就可以保留異常值。即分別運行納入和不納入異常值的回歸對比結果,分析異常值對回歸結果的影響程度,從而判斷異常值的去留。
(3) 選擇更穩健的回歸模型
我們也可以通過調整標準誤,運行更穩健的回歸模型,但是SPSS現在還沒有這項操作。
我們可以直接剔除異常值,但這往往是我們迫不得已的做法。因為我們進行數據分析是為了根據樣本結果推論總體,但直接剔除異常值就相當於不再考慮這部分人的信息,忽略了他們在總體人群中的作用。
如果一定要剔除異常值,我們就應該在報告中描述被剔除者的信息(數據以及對研究結果的影響)。這樣讀者就可以清楚地了解到我們剔除異常值的原因以及這些異常值可能存在的影響,消除大家對研究結果的質疑。
舉例來說,本研究中異常值的膽固醇濃度為7.98 mmol/L,遠高於普通人群的膽固醇濃度,提示存在心臟病風險。儘管我們希望了解人群膽固醇濃度的基本情況,但是我們並不想納入存在臨床指徵或心臟病高危風險的患者。膽固醇濃度這麼高的人不是我們的目標人群,所以本研究直接剔除該異常值。
(恭喜你,看到這裡,表示你又get到一門新技能啦,撒花。如果你想使用文中數據進行練習,請隨時給小咖(微信:xys2016ykf)發消息,小咖將原始數據發給你。)
關注醫咖會,輕鬆掌握統計學!
有臨床研究設計或統計學方面的難題?快加小咖個人微信(xys2016ykf),加入醫咖會統計討論群,和小夥伴們一起交流學習吧。我們誠邀各位小夥伴加入我們,一起創作有價值的內容,將知識共享給更多人!
點擊左下角「閱讀原文」,看看醫咖會既往推送了哪些研究設計或統計學文章。