去年盛夏, 26位科研大神作者以「局解」的方式回顧自身SCI論文發表經歷,或介紹如何巧用公共資料庫,或側重某一種統計方法的應用。《瘋狂統計學》一書由此橫空出世,好評如潮。然而,高階的統計學方法和資料庫的利用需要因地制宜,廣大科研初學者的迷思更多在於「科研思路從何而來」「如何推進一項SCI論文研究」。
為予廣大讀者指點迷津,製作能夠「快樂做學術」的科研指導圖書,AME出版社決定廣納各路SCI第一作者(歡迎廣大讀者參與作者陣營,投稿方式下拉至文末查閱),分享從開題到結題的SCI發表經驗,彙編為《瘋狂統計學(第二版)》。下文為新書《瘋狂統計學(第二版)》中關於一篇基於橫斷面研究數據統計分析論文的完全解析和統計方法解讀的精彩篇章,請各位讀者盡情享閱。
一篇基於橫斷面研究數據統計分析論文的完全解析和統計方法解讀
尹經霞1,吳綺楠2
1 武警重慶總隊醫院內分泌血液科
2 重慶大學附屬腫瘤醫院內分泌腎病內科
對數據進行統計分析是進行任何一門學科科學研究的基礎步驟,統計學涵蓋著收集、分析、解釋和表達數據等諸多方面,能夠幫助科研人員從浩瀚、雜亂的數據當中發現和提煉出事物運動、發展的客觀規律,也是每一位從事科學研究的人員不可或缺的技能。橫斷面研究(cross-sectional study)是醫學科學研究當中非常常見的一種研究方法,在描述流行病學中應用最為廣泛。這種研究方式通過對特定時點和特定範圍內人群中的疾病或健康狀況和有關因素的分布狀況進行資料收集和描述,為進一步的研究提供病因線索。筆者2019年發表在Mediators of Inflammation雜誌上的一篇關於「青年多囊卵巢症候群女性循環血ANGPTL8水平與代謝症候群和胰島素抵抗的關係(Circulating ANGPTL8 is Associated with the Presence of Metabolic Syndrome and Insulin Resistance in Polycystic ovary syndrome Young Women)」的文章則是基於橫斷面研究數據進行的相關統計分析,以下筆者就該文的統計方法作詳盡的描述。
多囊卵巢症候群(Polycystic ovary syndrome,PCOS)是導致生育期女性不孕常見的一種內分泌及代謝異常性疾病,其發生往往與代謝症候群相關,代謝紊亂會影響、甚至加重生殖障礙。代謝症候群(Metabolic syndrome,MetS)是一組關於蛋白質、脂肪、碳水化合物等物質的代謝紊亂症候群,是導致糖尿病、心腦血管疾病、胰島素抵抗(Insulin Resistance,IR)以及PCOS等多種疾病的危險因素。代謝症候群發病的具體病理生理機制還尚不清楚,也是目前代謝相關研究的一個熱點。PCOS女性胰島素抵抗性增加,代謝紊亂的情況也明顯增加。如果找到一個能反映胰島素抵抗並且重複性好、準確性高的循環標誌物來評估PCOS的預後,評估臨床治療反應,就能更好地診治PCOS。筆者的研究團隊通過對大量文獻資料的學習發現血管生成素樣蛋白8(Angiopoietin Like Protein 8,ANGPTL8)可能與代謝症候群、胰島素抵抗相關,因此我們推測ANGPTL8與 PCOS女性的代謝紊亂也可能相關,並且目前在較大樣本的PCOS人群中還沒有關於ANGPTL8與胰島素抵抗的相關研究。這正是一個具有實用性、新穎性的課題方向,筆者的研究團隊在臨床工作中也經常接觸到PCOS患者,設計一個橫斷面的調查研究來論證ANGPTL8與 PCOS女性的胰島素抵抗、代謝紊亂的相關性具有可操作性。
科學研究的基本框架大致分為選題、執行、總結三個部分,我們已經通過提出問題、查閱文獻形成了初步的研究思路,明確了研究方向、研究人群以及可行的研究方法,下一步工作的方向便是執行和總結了。有了總的設計框架,具體執行還需要分步驟和細化才能推進和完成。
就我們這篇文章而言,除了剛剛談到的選題,執行部分還包括實驗設計、倫理審批、臨床實驗註冊、從事實驗、收集數據、整理和處理數據、設計分析等一系列工作,最後撰寫論文、發表論文才算完成了研究。我們這篇文章涉及的橫斷面研究主要收集特定人群(PCOS女性與健康對照女性)的人體測量指標(身高、體重、腰臀圍、血壓等)、ANGPTL8濃度、代謝紊亂以及與生殖相關的實驗室檢測指標(包括空腹血糖、空腹胰島素、血脂、性激素)等一系列數據。
為了更好了解ANGPTL8濃度與PCOS女性胰島素抵抗的關係,我們還進行了口服糖耐量實驗(Oral glucose tolerance test,OGTT)和高胰島素正葡萄糖鉗夾實驗(Euglycemic-hyperinsulinemic clamp,EHC)。希望通過探索和尋找ANGPTL8濃度與相關指標的關係,找到新的突破點,找出有效的信息來指導臨床診治。在本文的統計分析中主要分為以下幾個部分進行統計分析:①描述研究人群的主要臨床特徵;②探討血清ANGPTL8濃度與研究人群中其他指標之間的關係;③利用EHC方法對研究人群中循環ANGPTL8濃度與胰島素抵抗的關係進行評估;④推測循環ANGPTL8濃度在評估MetS和IR中的預測價值。
1. 統計軟體及統計方法的選擇
數據最終呈現形式採用均數±標準差()或中位數(上、下四分位數)表示。數據分布形態採用Shapiro-Wilk檢驗;非正態分布數據採取自然對數轉換或平方根轉換;兩組間比較採用兩獨立樣本t檢驗,多組間比較採用單因素ANOVA分析;正態分布數據採用皮爾森(pearson)相關分析和多元線性回歸分析判定指標間的關係,非正態分布數據採用Spearman相關分析;統計分析由SPSS 19.0軟體處理。當雙側顯著性水平P<0.05時認為有統計學差異。
2. 變量處理
首先將收集的數據錄入SPSS19.0軟體,變量一般分為連續變量和分類變量(圖1)。
然後檢查各研究數據的分布形態,在SPSS當中有圖示法和計算法。最常用的就是計算法當中的Kolmogorov-Smirnov檢驗和Shapiro-Wilk檢驗。第一種檢驗適用於大樣本的研究,在SPSS當中,檢驗樣本量大於2000的數據是否符合正態分布採用Kolmogorov-Smirnov。而分析樣本量小於2000的數據需要用到Shapiro-Wilk檢驗。本文我們採用Shapiro-Wilk檢驗。
實現過程(圖2):
根據Shapiro-Wilk檢驗的結果,sig值>0.05,表示這個數據符合正態分布。對於不符合正態分布的數據可以採用取自然對數轉換或平方根轉換為正態分布數據。
3. 一般資料的統計分析
收集2016-2017年就診的241名青少年女性, 其中98名健康對照者和143名PCOS受試者,將PCOS患者按照是否合併MetS再分成PCOS合併MetS組及PCOS合併非MetS組,對這些患者的一般資料進行統計分析。對於具有方差同性的正態分布數據,可使用單因素方差分析進行三組間比較,而非正態分布數據則需採用非參數檢驗。本文中正態分布數據採用單因素方差分析,而非正態分布數據則採用非參數檢驗(圖4)。
首先,我們展示使用SPSS 19.0進行非參數檢驗分析變量。導入三組樣本,對樣本數據進行正態性及方差齊性檢驗,非正態數據進行正態性轉換。基礎數據處理好之後,選擇分析→非參數檢驗→獨立樣本(圖5)。在SPSS的對話框中有三個小標籤,目標(Objective)中選擇自動比較不同組間的分布(Automatically compare distributions across groups),見圖6。在欄位(Fields)中選擇「使用定製欄位分配」(Use custom field assignments),將需分析的變量放入「檢驗欄位」(Test Fields)框中,將需檢測的分組變量「分組」放入組(Groups)中(圖7)。在設置(Settings)中選擇「自定義檢驗」(Customize tests),選擇Kruskal-Wallis 1-way ANOVA(k samples)即Kruskal-Wallis單因素ANOVA(k樣本),多重比較中可以選擇「所有成對比較」(All pairwise),最後點擊「運行」(Run)按鈕(圖8)。非參數檢驗的結果如圖9所示,獨立樣本Kruskal-Wallis檢驗的顯著性水平大於或等於0.05則組間比較無差異性,顯著性水平小於0.05則組間比較有統計學差異。
然後,我們再展示使用SPSS 19.0進行單因素方差分析變量。「選擇分析→比較均值→單因素ANOVA」即單因素方差分析(圖10)。將需分析的變量放入「因變量列表」(Test Fields)框中(圖11),點擊「兩兩比較」選擇項,在「假定方差齊性」選項中選擇「LSD」法即最小顯著差法(Least Significance Difference Method),在「未假定方差齊性」選項中選擇「Tamhane’s T2」,再點擊「繼續」按鈕(圖12)。接下來點擊「選項」按鈕,在「統計量」選項中選擇「描述性」、「方差同質性檢驗」,在「缺失值」選項中選擇「按分析順序排除個案」,點擊「繼續」按鈕(圖13)。單因素方差分析的結果如圖14所示,在「描述」結果框中我們可以看到不同組別中各變量的均值、標準差,在「方差齊性檢驗」結果框中,我們可以看到方差齊性檢驗的結果,在「ANOVA」結果框中,我們可以看到方差檢驗的F值以及顯著性水平值,顯著性水平大於或等於0.05則組間比較無差異性,顯著性水平小於0.05則組間比較有統計學差異。在「多重比較」結果框中,我們可以看到組間兩兩比較的結果(圖15),顯著性水平大於或等於0.05則組內兩組比較無差異性,顯著性水平小於0.05則組內兩組比較有統計學差異。
4. 血清ANGPTL8濃度與其他指標之間的相關分析
本文中的相關分析主要描述PCOS人群中血清ANGPTL8濃度與其他指標是否存在相關關係。兩個變量之間的相關性可以採用Pearson或Spearman相關分析方法進行分析。Pearson相關分析主要用來分析正態分布、非等間距測度的連續變量,而Spearman可用來分析不服從雙變量正態分布或總體分布型未知以及原始數據是等級資料的數據。本文中因部分數據無法轉換成正態分布數據,故選擇使用Spearman相關分析方法對血清ANGPTL8濃度與其他指標之間的關係進行分析(圖16)。
下面我們展示使用SPSS 19.0進行Spearman相關分析的實現過程。首先,使用PCOS人群數據作為分析數據集,導入SPSS軟體,數據整理完成後選擇「分析→相關→雙變量」(圖17)。在SPSS彈出對話框中,將需要進行相關性分析的變量拖入到「變量」列表框中,勾選相關係數為「Spearman」,顯著性檢驗「雙側檢驗」和「標記顯著性相關」,最後點擊「確定」按鈕(圖18)。Spearman相關分析的結果如圖19所示,相關係數則是兩變量之間的相關係數,該值為正數表示成正相關,反之則為負相關。顯著性水平≥0.05則表示兩變量之間的相關性無統計學差異性,顯著性水平<0.05則表示有統計學差異。
5. 血清ANGPTL8濃度的二元Logistic回歸分析
為進一步了解ANGPTL8濃度的變化對Mets和胰島素抵抗(IR)發生率的影響,我們進一步做了二元Logistic回歸分析(圖20)。在本研究中,我們利用EHC穩態濃度時的M值來評估研究人群的胰島素抵抗情況,根據文獻報導採用M值<6.28作為IR判定的評價標準,將研究人群二分類為IR和非IR組。由於原始ANGPTL8濃度數據離散度較大,在進行二元Logistic回歸分析之前,我們將原始ANGPTL8數據進行標準化處理(圖21)。
下面我們展示使用SPSS 19.0進行二元Logistic回歸分析的實現過程。首先,使用全人群數據作為分析數據集,導入SPSS軟體,數據整理完成後選擇「分析→回歸→二元Logistic」(圖22)。點擊後出現一個「logistic 回歸」 對話框,將Mets分組變量拖入到「因變量」列表框中,將標準化轉換後的ANGPTL8、年齡等變量拖入到「協變量」列表框中,然後點擊「選項」按鈕,在彈出對話框中,統計量和圖勾選「exp(B)的CI:95%」,輸出勾選「在每個步驟中」,選中「在模型中包括常數」,點擊「繼續」,最後點擊「確定」按鈕(圖23)。Logistic回歸分析的結果如圖1-24所示,exp(B)即為OR值,exp(B)CI:95%即是95%CI可信區間,顯著性水平大於或等於0.05則表示無統計學差異,顯著性水平小於0.05則表示有統計學差異。如果需要檢測其他協變量對回歸方程的影響,依次將需檢測變量拖入協變量」列表框中,再重複上訴步驟即可。如果需要判定ANGPTL8濃度變化對IR發生的影響,則將IR分組變量拖入到「因變量」列表框中,再重複上訴步驟。
圖20. 血清ANGPTL8濃度的二元Logistic回歸分析
6. 推測循環ANGPTL8濃度在評估MetS和IR中的預測價值
ROC曲線是根據一系列不同的二分類方式(分界值或決定閾),以真陽性率(靈敏度)為縱坐標,假陽性率(1-特異度)為橫坐標繪製的曲線。通過ROC曲線能查出任意界限值時對疾病的識別能力,曲線越靠近左上角,診斷試驗的準確性就越高。最靠近左上角的點是錯誤最少的最佳閾值,其假陽性和假陰性的總數最少。因此,我們可以通過ANGPTL8濃度做出相應ROC曲線,並計算其最佳閾值來識別MetS和IR。
下面我們展示使用SPSS 19.0進行的ROC曲線圖的繪製實現過程(以評估IR的預測價值為例)。首先,將全人群數據作為分析數據集,選擇「分析→ROC曲線」(圖25)。點擊後出現一個「ROC曲線」對話框,將ANGPTL8變量拖入到「檢驗變量」列表框中。利用EHC穩態濃度時的M值來評估研究人群的胰島素抵抗情況,通過M值將研究人群二分類分為非分組IR組(賦值為1)和IR組(賦值為2),將IR分組變量拖入到「狀態變量」列表框中,狀態變量的值填「2」,在輸出中勾選「ROC曲線、帶對角參考線、標準誤和置信區間(E)、ROC曲線的坐標點(C)」(圖26)。然後點擊「選項」按鈕,在彈出對話框中,分類勾選「包含明確分類的分界值(I)」,檢驗方向勾選「較大的檢驗結果表示更明確的檢驗(L)」,區域的標準誤的參數中分布假定選擇非參數,置信水平填95%,缺失值勾選「排除用戶缺失值和系統缺失值」,點擊「繼續」 (圖27),最後點擊「確定」按鈕。ROC曲線繪製結果如圖28所示。如果診斷試驗的結果完全隨機,則ROC曲線下面積就等於0.5;若ROC曲線下面積大於0.5,則證明該診斷試驗具有一定的診斷價值;ROC曲線下面積越接近1,則證明該診斷試驗的診斷價值越好。當ROC曲線下面積為1時,則該診斷試驗靈敏度是1,而假陽性率是0。本研究的ROC曲線下面積為0.82(圖29-30),因此我們可以認為通過ANGPTL8濃度預測IR具有較好的診斷價值。最後,我們可以通過曲線坐標計算cutoff值,尋找最佳切割點。即計算約登指數(約登指數=靈敏度與特異度之和減去1)最大點所對應的ANGPTL8濃度值。讀者也可使用其他統計軟體或者畫圖軟體進行ROC曲線的繪製及cutoff值的計算,具體方法這裡不再詳述。
在這項研究中,我們發現患有MetS的PCOS女性的血清ANGPTL8水平顯著高於未患MetS的PCOS女性和健康對照女性。空腹血清ANGPTL8水平與肥胖標誌物(BMI,FAT%和WHR),糖代謝指數(FBF,2h-BG和HbA1c)和IR標誌物(FIns和HOMA-IR)呈正相關,與ADI和M值呈負相關。我們通過ROC曲線分析還表明,循環的ANGPTL8可以較靈敏和特異地預測MetS及IR。最後,感謝楊剛毅教授、李伶教授、蒲丹嵐教授、廖湧教授,感謝他們在本文創作過程中給出的專業指導、修改,感謝他們對本研究的大力支持,感謝AME出版社給予的機會。重慶醫科大學內分泌碩士研究生,武警重慶市總隊醫院內分泌科主治醫師,發表CSCD核心期刊論文8篇、 SCI論文2篇,主持重慶市科衛聯合醫學科研項目1項,重慶市醫師協會內分泌代謝醫師分會糖尿病學組委員。長期從事糖尿病、甲狀腺疾病、腎上腺疾病及骨質疏鬆等內分泌疾病的臨床、教學、科研工作,研究方向為內分泌及代謝性疾病。曾在第三軍醫大學附屬西南醫院內分泌科工作十一年,副主任醫師,副教授,第三軍醫大學優秀博士生,青年人才津貼獲得者,從事內分泌專業臨床和基礎研究多年,治學嚴謹,臨床經驗豐富,主要研究方向是糖尿病及其併發症的發病機理及防治。兼任中國研究型醫院學會糖尿病專委會委員,中華醫學會內分泌學分會免疫內分泌學組委員,中國微循環學會轉化醫學專委會青年委員,重慶市醫學會骨質疏鬆與骨礦鹽疾病專委會委員,重慶市醫學會糖尿病專委會急危重症內分泌代謝病學組副組長,重慶市醫學會糖尿病專委會糖尿病足學組委員,重慶市醫學會糖尿病專委會青年委員兼秘書長,重慶市中西醫結合學會糖尿病專委會委員,重慶市中西醫結合學會絡病專委會委員,重慶市醫學會兒科學專委會內分泌遺傳代謝學組委員,脂肪肝聯盟重慶市專家委員會委員,Biomedical Research & Experimental Sciences和Journal of Peer Scientist編委,Annals of Translational Medicine學科編輯,中國科技出版社有限公司科技/科普專家,《重慶醫科大學學報》客座編輯兼審稿人,臨床與病理中青年編委,Traditional Medicine Research青年編委,《中華臨床醫師雜誌》(電子版)特約編輯,Expert Opinion On Therapeutic Targets,Diabetes Research and Clinical Practice,Life Science,Journal of Diabetes Research,Journal of Thoracic Disease,《中華高血壓雜誌》《中南大學學報》(醫學版)審稿人,主持中華醫學會、重慶市等9項課題,以第一(通訊)作者在國外SCI期刊發表論文14篇,單篇最高影響因子:5.14,在國內核心期刊上發表論文20餘篇,獲得國家發明專利一項,獲得軍隊醫療成果二等獎一項。獲第三軍醫大學先進文職人員一次,西南醫院優秀文職人員一次,西南醫院嘉獎多次。
a責任編輯:江葦妍 AME Publishing Company
排版編輯:呂琴雯 AME Publishing Company
b.03.2020.04.20.01