一篇基於橫斷面研究數據統計分析論文的完全解析和統計方法解讀 | 瘋狂統計學2.0

2021-02-13 AME科研時間

去年盛夏, 26位科研大神作者以「局解」的方式回顧自身SCI論文發表經歷,或介紹如何巧用公共資料庫,或側重某一種統計方法的應用。《瘋狂統計學》一書由此橫空出世,好評如潮。然而,高階的統計學方法和資料庫的利用需要因地制宜,廣大科研初學者的迷思更多在於「科研思路從何而來」「如何推進一項SCI論文研究」。

為予廣大讀者指點迷津,製作能夠「快樂做學術」的科研指導圖書,AME出版社決定廣納各路SCI第一作者(歡迎廣大讀者參與作者陣營,投稿方式下拉至文末查閱),分享從開題到結題的SCI發表經驗,彙編為《瘋狂統計學(第二版)》。下文為新書《瘋狂統計學(第二版)》中關於一篇基於橫斷面研究數據統計分析論文的完全解析和統計方法解讀的精彩篇章,請各位讀者盡情享閱。


一篇基於橫斷面研究數據統計分析論文的完全解析和統計方法解讀

尹經霞1,吳綺楠2

1 武警重慶總隊醫院內分泌血液科

2 重慶大學附屬腫瘤醫院內分泌腎病內科

對數據進行統計分析是進行任何一門學科科學研究的基礎步驟,統計學涵蓋著收集、分析、解釋和表達數據等諸多方面,能夠幫助科研人員從浩瀚、雜亂的數據當中發現和提煉出事物運動、發展的客觀規律,也是每一位從事科學研究的人員不可或缺的技能。橫斷面研究(cross-sectional study)是醫學科學研究當中非常常見的一種研究方法,在描述流行病學中應用最為廣泛。這種研究方式通過對特定時點和特定範圍內人群中的疾病或健康狀況和有關因素的分布狀況進行資料收集和描述,為進一步的研究提供病因線索。筆者2019年發表在Mediators of Inflammation雜誌上的一篇關於「青年多囊卵巢症候群女性循環血ANGPTL8水平與代謝症候群和胰島素抵抗的關係(Circulating ANGPTL8 is Associated with the Presence of Metabolic Syndrome and Insulin Resistance in Polycystic ovary syndrome Young Women)」的文章則是基於橫斷面研究數據進行的相關統計分析,以下筆者就該文的統計方法作詳盡的描述。

多囊卵巢症候群(Polycystic ovary syndrome,PCOS)是導致生育期女性不孕常見的一種內分泌及代謝異常性疾病,其發生往往與代謝症候群相關,代謝紊亂會影響、甚至加重生殖障礙。代謝症候群(Metabolic syndrome,MetS)是一組關於蛋白質、脂肪、碳水化合物等物質的代謝紊亂症候群,是導致糖尿病、心腦血管疾病、胰島素抵抗(Insulin Resistance,IR)以及PCOS等多種疾病的危險因素。代謝症候群發病的具體病理生理機制還尚不清楚,也是目前代謝相關研究的一個熱點。PCOS女性胰島素抵抗性增加,代謝紊亂的情況也明顯增加。如果找到一個能反映胰島素抵抗並且重複性好、準確性高的循環標誌物來評估PCOS的預後,評估臨床治療反應,就能更好地診治PCOS。筆者的研究團隊通過對大量文獻資料的學習發現血管生成素樣蛋白8(Angiopoietin Like Protein 8,ANGPTL8)可能與代謝症候群、胰島素抵抗相關,因此我們推測ANGPTL8與 PCOS女性的代謝紊亂也可能相關,並且目前在較大樣本的PCOS人群中還沒有關於ANGPTL8與胰島素抵抗的相關研究。這正是一個具有實用性、新穎性的課題方向,筆者的研究團隊在臨床工作中也經常接觸到PCOS患者,設計一個橫斷面的調查研究來論證ANGPTL8與 PCOS女性的胰島素抵抗、代謝紊亂的相關性具有可操作性。

科學研究的基本框架大致分為選題、執行、總結三個部分,我們已經通過提出問題、查閱文獻形成了初步的研究思路,明確了研究方向、研究人群以及可行的研究方法,下一步工作的方向便是執行和總結了。有了總的設計框架,具體執行還需要分步驟和細化才能推進和完成。

就我們這篇文章而言,除了剛剛談到的選題,執行部分還包括實驗設計、倫理審批、臨床實驗註冊、從事實驗、收集數據、整理和處理數據、設計分析等一系列工作,最後撰寫論文、發表論文才算完成了研究。我們這篇文章涉及的橫斷面研究主要收集特定人群(PCOS女性與健康對照女性)的人體測量指標(身高、體重、腰臀圍、血壓等)、ANGPTL8濃度、代謝紊亂以及與生殖相關的實驗室檢測指標(包括空腹血糖、空腹胰島素、血脂、性激素)等一系列數據。

為了更好了解ANGPTL8濃度與PCOS女性胰島素抵抗的關係,我們還進行了口服糖耐量實驗(Oral glucose tolerance test,OGTT)和高胰島素正葡萄糖鉗夾實驗(Euglycemic-hyperinsulinemic clamp,EHC)。希望通過探索和尋找ANGPTL8濃度與相關指標的關係,找到新的突破點,找出有效的信息來指導臨床診治。在本文的統計分析中主要分為以下幾個部分進行統計分析:①描述研究人群的主要臨床特徵;②探討血清ANGPTL8濃度與研究人群中其他指標之間的關係;③利用EHC方法對研究人群中循環ANGPTL8濃度與胰島素抵抗的關係進行評估;④推測循環ANGPTL8濃度在評估MetS和IR中的預測價值。

1. 統計軟體及統計方法的選擇

數據最終呈現形式採用均數±標準差()或中位數(上、下四分位數)表示。數據分布形態採用Shapiro-Wilk檢驗;非正態分布數據採取自然對數轉換或平方根轉換;兩組間比較採用兩獨立樣本t檢驗,多組間比較採用單因素ANOVA分析;正態分布數據採用皮爾森(pearson)相關分析和多元線性回歸分析判定指標間的關係,非正態分布數據採用Spearman相關分析;統計分析由SPSS 19.0軟體處理。當雙側顯著性水平P<0.05時認為有統計學差異。

2. 變量處理

首先將收集的數據錄入SPSS19.0軟體,變量一般分為連續變量和分類變量(圖1)。

然後檢查各研究數據的分布形態,在SPSS當中有圖示法和計算法。最常用的就是計算法當中的Kolmogorov-Smirnov檢驗和Shapiro-Wilk檢驗。第一種檢驗適用於大樣本的研究,在SPSS當中,檢驗樣本量大於2000的數據是否符合正態分布採用Kolmogorov-Smirnov。而分析樣本量小於2000的數據需要用到Shapiro-Wilk檢驗。本文我們採用Shapiro-Wilk檢驗。

實現過程(圖2):

根據Shapiro-Wilk檢驗的結果,sig值>0.05,表示這個數據符合正態分布。對於不符合正態分布的數據可以採用取自然對數轉換或平方根轉換為正態分布數據。

3. 一般資料的統計分析

收集2016-2017年就診的241名青少年女性, 其中98名健康對照者和143名PCOS受試者,將PCOS患者按照是否合併MetS再分成PCOS合併MetS組及PCOS合併非MetS組,對這些患者的一般資料進行統計分析。對於具有方差同性的正態分布數據,可使用單因素方差分析進行三組間比較,而非正態分布數據則需採用非參數檢驗。本文中正態分布數據採用單因素方差分析,而非正態分布數據則採用非參數檢驗(圖4)。

首先,我們展示使用SPSS 19.0進行非參數檢驗分析變量。導入三組樣本,對樣本數據進行正態性及方差齊性檢驗,非正態數據進行正態性轉換。基礎數據處理好之後,選擇分析→非參數檢驗→獨立樣本(圖5)。在SPSS的對話框中有三個小標籤,目標(Objective)中選擇自動比較不同組間的分布(Automatically compare distributions across groups),見圖6。在欄位(Fields)中選擇「使用定製欄位分配」(Use custom field assignments),將需分析的變量放入「檢驗欄位」(Test Fields)框中,將需檢測的分組變量「分組」放入組(Groups)中(圖7)。在設置(Settings)中選擇「自定義檢驗」(Customize tests),選擇Kruskal-Wallis 1-way ANOVA(k samples)即Kruskal-Wallis單因素ANOVA(k樣本),多重比較中可以選擇「所有成對比較」(All pairwise),最後點擊「運行」(Run)按鈕(圖8)。非參數檢驗的結果如圖9所示,獨立樣本Kruskal-Wallis檢驗的顯著性水平大於或等於0.05則組間比較無差異性,顯著性水平小於0.05則組間比較有統計學差異。

然後,我們再展示使用SPSS 19.0進行單因素方差分析變量。「選擇分析→比較均值→單因素ANOVA」即單因素方差分析(圖10)。將需分析的變量放入「因變量列表」(Test Fields)框中(圖11),點擊「兩兩比較」選擇項,在「假定方差齊性」選項中選擇「LSD」法即最小顯著差法(Least Significance Difference Method),在「未假定方差齊性」選項中選擇「Tamhane’s T2」,再點擊「繼續」按鈕(圖12)。接下來點擊「選項」按鈕,在「統計量」選項中選擇「描述性」、「方差同質性檢驗」,在「缺失值」選項中選擇「按分析順序排除個案」,點擊「繼續」按鈕(圖13)。單因素方差分析的結果如圖14所示,在「描述」結果框中我們可以看到不同組別中各變量的均值、標準差,在「方差齊性檢驗」結果框中,我們可以看到方差齊性檢驗的結果,在「ANOVA」結果框中,我們可以看到方差檢驗的F值以及顯著性水平值,顯著性水平大於或等於0.05則組間比較無差異性,顯著性水平小於0.05則組間比較有統計學差異。在「多重比較」結果框中,我們可以看到組間兩兩比較的結果(圖15),顯著性水平大於或等於0.05則組內兩組比較無差異性,顯著性水平小於0.05則組內兩組比較有統計學差異。

4. 血清ANGPTL8濃度與其他指標之間的相關分析

本文中的相關分析主要描述PCOS人群中血清ANGPTL8濃度與其他指標是否存在相關關係。兩個變量之間的相關性可以採用Pearson或Spearman相關分析方法進行分析。Pearson相關分析主要用來分析正態分布、非等間距測度的連續變量,而Spearman可用來分析不服從雙變量正態分布或總體分布型未知以及原始數據是等級資料的數據。本文中因部分數據無法轉換成正態分布數據,故選擇使用Spearman相關分析方法對血清ANGPTL8濃度與其他指標之間的關係進行分析(圖16)。

下面我們展示使用SPSS 19.0進行Spearman相關分析的實現過程。首先,使用PCOS人群數據作為分析數據集,導入SPSS軟體,數據整理完成後選擇「分析→相關→雙變量」(圖17)。在SPSS彈出對話框中,將需要進行相關性分析的變量拖入到「變量」列表框中,勾選相關係數為「Spearman」,顯著性檢驗「雙側檢驗」和「標記顯著性相關」,最後點擊「確定」按鈕(圖18)。Spearman相關分析的結果如圖19所示,相關係數則是兩變量之間的相關係數,該值為正數表示成正相關,反之則為負相關。顯著性水平≥0.05則表示兩變量之間的相關性無統計學差異性,顯著性水平<0.05則表示有統計學差異。

5. 血清ANGPTL8濃度的二元Logistic回歸分析

為進一步了解ANGPTL8濃度的變化對Mets和胰島素抵抗(IR)發生率的影響,我們進一步做了二元Logistic回歸分析(圖20)。在本研究中,我們利用EHC穩態濃度時的M值來評估研究人群的胰島素抵抗情況,根據文獻報導採用M值<6.28作為IR判定的評價標準,將研究人群二分類為IR和非IR組。由於原始ANGPTL8濃度數據離散度較大,在進行二元Logistic回歸分析之前,我們將原始ANGPTL8數據進行標準化處理(圖21)。

下面我們展示使用SPSS 19.0進行二元Logistic回歸分析的實現過程。首先,使用全人群數據作為分析數據集,導入SPSS軟體,數據整理完成後選擇「分析→回歸→二元Logistic」(圖22)。點擊後出現一個「logistic 回歸」 對話框,將Mets分組變量拖入到「因變量」列表框中,將標準化轉換後的ANGPTL8、年齡等變量拖入到「協變量」列表框中,然後點擊「選項」按鈕,在彈出對話框中,統計量和圖勾選「exp(B)的CI:95%」,輸出勾選「在每個步驟中」,選中「在模型中包括常數」,點擊「繼續」,最後點擊「確定」按鈕(圖23)。Logistic回歸分析的結果如圖1-24所示,exp(B)即為OR值,exp(B)CI:95%即是95%CI可信區間,顯著性水平大於或等於0.05則表示無統計學差異,顯著性水平小於0.05則表示有統計學差異。如果需要檢測其他協變量對回歸方程的影響,依次將需檢測變量拖入協變量」列表框中,再重複上訴步驟即可。如果需要判定ANGPTL8濃度變化對IR發生的影響,則將IR分組變量拖入到「因變量」列表框中,再重複上訴步驟。

圖20. 血清ANGPTL8濃度的二元Logistic回歸分析

6. 推測循環ANGPTL8濃度在評估MetS和IR中的預測價值

ROC曲線是根據一系列不同的二分類方式(分界值或決定閾),以真陽性率(靈敏度)為縱坐標,假陽性率(1-特異度)為橫坐標繪製的曲線。通過ROC曲線能查出任意界限值時對疾病的識別能力,曲線越靠近左上角,診斷試驗的準確性就越高。最靠近左上角的點是錯誤最少的最佳閾值,其假陽性和假陰性的總數最少。因此,我們可以通過ANGPTL8濃度做出相應ROC曲線,並計算其最佳閾值來識別MetS和IR。

下面我們展示使用SPSS 19.0進行的ROC曲線圖的繪製實現過程(以評估IR的預測價值為例)。首先,將全人群數據作為分析數據集,選擇「分析→ROC曲線」(圖25)。點擊後出現一個「ROC曲線」對話框,將ANGPTL8變量拖入到「檢驗變量」列表框中。利用EHC穩態濃度時的M值來評估研究人群的胰島素抵抗情況,通過M值將研究人群二分類分為非分組IR組(賦值為1)和IR組(賦值為2),將IR分組變量拖入到「狀態變量」列表框中,狀態變量的值填「2」,在輸出中勾選「ROC曲線、帶對角參考線、標準誤和置信區間(E)、ROC曲線的坐標點(C)」(圖26)。然後點擊「選項」按鈕,在彈出對話框中,分類勾選「包含明確分類的分界值(I)」,檢驗方向勾選「較大的檢驗結果表示更明確的檢驗(L)」,區域的標準誤的參數中分布假定選擇非參數,置信水平填95%,缺失值勾選「排除用戶缺失值和系統缺失值」,點擊「繼續」 (圖27),最後點擊「確定」按鈕。ROC曲線繪製結果如圖28所示。如果診斷試驗的結果完全隨機,則ROC曲線下面積就等於0.5;若ROC曲線下面積大於0.5,則證明該診斷試驗具有一定的診斷價值;ROC曲線下面積越接近1,則證明該診斷試驗的診斷價值越好。當ROC曲線下面積為1時,則該診斷試驗靈敏度是1,而假陽性率是0。本研究的ROC曲線下面積為0.82(圖29-30),因此我們可以認為通過ANGPTL8濃度預測IR具有較好的診斷價值。最後,我們可以通過曲線坐標計算cutoff值,尋找最佳切割點。即計算約登指數(約登指數=靈敏度與特異度之和減去1)最大點所對應的ANGPTL8濃度值。讀者也可使用其他統計軟體或者畫圖軟體進行ROC曲線的繪製及cutoff值的計算,具體方法這裡不再詳述。

在這項研究中,我們發現患有MetS的PCOS女性的血清ANGPTL8水平顯著高於未患MetS的PCOS女性和健康對照女性。空腹血清ANGPTL8水平與肥胖標誌物(BMI,FAT%和WHR),糖代謝指數(FBF,2h-BG和HbA1c)和IR標誌物(FIns和HOMA-IR)呈正相關,與ADI和M值呈負相關。我們通過ROC曲線分析還表明,循環的ANGPTL8可以較靈敏和特異地預測MetS及IR。最後,感謝楊剛毅教授、李伶教授、蒲丹嵐教授、廖湧教授,感謝他們在本文創作過程中給出的專業指導、修改,感謝他們對本研究的大力支持,感謝AME出版社給予的機會。重慶醫科大學內分泌碩士研究生,武警重慶市總隊醫院內分泌科主治醫師,發表CSCD核心期刊論文8篇、 SCI論文2篇,主持重慶市科衛聯合醫學科研項目1項,重慶市醫師協會內分泌代謝醫師分會糖尿病學組委員。長期從事糖尿病、甲狀腺疾病、腎上腺疾病及骨質疏鬆等內分泌疾病的臨床、教學、科研工作,研究方向為內分泌及代謝性疾病。

曾在第三軍醫大學附屬西南醫院內分泌科工作十一年,副主任醫師,副教授,第三軍醫大學優秀博士生,青年人才津貼獲得者,從事內分泌專業臨床和基礎研究多年,治學嚴謹,臨床經驗豐富,主要研究方向是糖尿病及其併發症的發病機理及防治。兼任中國研究型醫院學會糖尿病專委會委員,中華醫學會內分泌學分會免疫內分泌學組委員,中國微循環學會轉化醫學專委會青年委員,重慶市醫學會骨質疏鬆與骨礦鹽疾病專委會委員,重慶市醫學會糖尿病專委會急危重症內分泌代謝病學組副組長,重慶市醫學會糖尿病專委會糖尿病足學組委員,重慶市醫學會糖尿病專委會青年委員兼秘書長,重慶市中西醫結合學會糖尿病專委會委員,重慶市中西醫結合學會絡病專委會委員,重慶市醫學會兒科學專委會內分泌遺傳代謝學組委員,脂肪肝聯盟重慶市專家委員會委員,Biomedical Research & Experimental Sciences和Journal of Peer Scientist編委,Annals of Translational Medicine學科編輯,中國科技出版社有限公司科技/科普專家,《重慶醫科大學學報》客座編輯兼審稿人,臨床與病理中青年編委,Traditional Medicine Research青年編委,《中華臨床醫師雜誌》(電子版)特約編輯,Expert Opinion On Therapeutic Targets,Diabetes Research and Clinical Practice,Life Science,Journal of Diabetes Research,Journal of Thoracic Disease,《中華高血壓雜誌》《中南大學學報》(醫學版)審稿人,主持中華醫學會、重慶市等9項課題,以第一(通訊)作者在國外SCI期刊發表論文14篇,單篇最高影響因子:5.14,在國內核心期刊上發表論文20餘篇,獲得國家發明專利一項,獲得軍隊醫療成果二等獎一項。獲第三軍醫大學先進文職人員一次,西南醫院優秀文職人員一次,西南醫院嘉獎多次。

a

責任編輯:江葦妍  AME Publishing Company

排版編輯:呂琴雯  AME Publishing Company

b.03.2020.04.20.01

相關焦點

  • 橫斷面研究類型論文【資料與方法】的書寫標準及要求 | 橫斷面研究專題
    簡而言之,合格標準就是針對相應的研究主題,在符合倫理道德及實際情況下所指定的一種進入到研究的研究對象應具備的條件。 ①統計描述是否正確;②統計學方法是否適合收集的資料;③是否明確了檢驗水準;④是否說明缺失值處理方法;⑤是否描述統計學分析的軟體與版本。
  • 【精選課件】醫學科研中常用統計方法及錯誤解析
    科室的發展,人員的發展都離不開科研,而科研的骨架正是醫學統計學,正確的設計,統計推斷,分析和科學總結。南京醫科大學第二附屬醫院感染管理科李連紅博士在這裡給大家一起分享她和檢驗科一起交流的課件——醫學科研中常用統計方法及錯誤解析。
  • 這裡有一份關於橫斷面研究的「標準答案」!牆裂推薦|橫斷面研究專題
    比如,提出的研究問題不夠具體清楚;研究結果與研究方案不一致;對研究人群和研究對象選擇缺乏代表性,樣本量估算依據不足;對於控制偏倚的方法、對資料收集質量沒有進行評價;對拒絕參加或失訪的研究對象信息不夠重視;對混雜變量的選擇解釋不詳細或不解釋;結局或暴露(影響因素)分組選擇或分組切點依據不足或不清楚;未報告倫理審查;統計學方法描述不完整或錯誤
  • 適合統計小白的課程:社會統計學入門
    精通多種資料分析應用技術,擅長各種統計方法課程教學,尤以結構方程模型(SEM, Structural Equation Modeling)為最。處理資料分析案例上千件,組織和應邀統計學培訓講座數百場。因其資深的專業背景、精湛的分析技術、深入淺出的講授以及幽默詼諧的課堂風格,廣受大陸和臺灣師生的喜愛。
  • 這裡有一份關於橫斷面研究的「標準答案」!牆裂推薦 | 橫斷面研究專題
    比如,提出的研究問題不夠具體清楚;研究結果與研究方案不一致;對研究人群和研究對象選擇缺乏代表性,樣本量估算依據不足;對於控制偏倚的方法、對資料收集質量沒有進行評價;對拒絕參加或失訪的研究對象信息不夠重視;對混雜變量的選擇解釋不詳細或不解釋;結局或暴露(影響因素)分組選擇或分組切點依據不足或不清楚;未報告倫理審查;統計學方法描述不完整或錯誤
  • 臨床研究的新風口——利用機器學習方法建立和驗證預測模型 | 瘋狂統計學2.0
    2018年盛夏, 26位科研大神作者以「局解」的方式回顧自身SCI論文發表經歷,或介紹如何巧用公共資料庫,或側重某一種統計方法的應用。《瘋狂統計學》一書由此橫空出世,好評如潮。然而,高階的統計學方法和資料庫的利用需要因地制宜,廣大科研初學者的迷思更多在於「科研思路從何而來」「如何推進一項SCI論文研究」。
  • 統計學畢業論文題目精選
    心心念念的題目來啦終於來啦統計學作為一門綜合性很強的學科,其運用範圍非常廣泛,不少學生在寫作統計學論文時,都困在了選題這一步,其實就統計學而言,可供作為論文題目的熱詞有很多,如:企業管理、實證研究、統計估計、統計分析、計算機應用、支持向量機、數學模型、GIS、多元分析、統計報表等等,本文精選了224個優質「統計學畢業論文題目」,
  • @所有人: 頂級醫學雜誌JAMA的統計指南,中文版解讀新鮮出爐,快來看!
    最終,研究的方法及分析質量決定著產出文獻的學術質量。相反,如果沒有高質量的研究設計,沒有專業的臨床研究統計分析,那麼很多臨床研究就難以提供高質量的有效性證據和安全性數據,很可能使研究者和管理者的努力和辛苦付之東流。  為此,學術期刊作為科研共同體中的一個重要樞紐及組成部分,勢必應匯集專家隊伍優勢,做好把關、幫助甚至引導作者加強科研方法學與統計學分析能力的服務工作。
  • 應用四步法幫你選擇統計分析方法
    此類研究一般是觀察某些指標的分布情況,如某種疾病的患病率或者某個指標的水平,管理類研究中經常描述各類人群的構成比等,此類都只做描述,不做統計檢驗;2.對比類。也即統計推斷類,主要目的是對比幾組間的指標差異是否有統計學意義,或者是否高於某個目標值,包括比例的比較、均值的比較和分布的比較等;3.關聯分析類。
  • 社會科學實證研究中的統計分析方法應用
    有了一定規模的數據和一個統計分析軟體,就可以很方便地進行各種估算和分析。然而由於統計分析方法本身並不像加減乘除那樣簡單,而一些統計分析軟體已經發展到幾乎是人人都可使用的程度,如果使用者在只知其然不知其所以然的情況下操作並得到結果,可能出現對統計分析方法誤用或濫用的現象。本文僅對一些統計分析中比較常見的問題進行討論,以引起各方面的重視。
  • DP: 青少年的一般智力和特殊智力 | 唧唧堂論文解析
    (General Intelligence and Specific Cognitive Abilities in Adolescence: Tests of Age Differentiation, Ability Differentiation, and Their Interaction in Two Large Samples)》的一篇論文解析, 該論文於2020年2月發表於《Development
  • 國內外大數據工具學術論文比較研究 ——基於文獻計量方法
    作者:趙丹,王晰巍,李嘉興,張長亮來源:情報科學,2016(6)摘要:本文以Web of Science和中國學術期刊網絡出版總庫的大數據工具學術論文為數據源,使用Citespace工具,採用文獻計量學方法進行統計分析,從時間序列上的文獻分布特點、期刊分布、學科分布、研究熱點及趨勢等方面對該領域國內外論文的總體情況進行定量比較分析
  • 關於數據科學中數學和統計學的完全指南
    數學和統計學對學習數據科學至關重要,因為這些學科構成了所有機器學習算法的基礎。成為一名數據科學家,除了對程式語言要有很好的了解,還必須要掌握機器學習算法、數據驅動方法。但數據科學並不只涉及這些領域。在本文中,您將了解數學和統計學對數據科學的重要意義以及如何將其用於建立機器學習模型。
  • 科研寫作 | 帶你認識「橫斷面研究」
    4.資料收集在橫斷面研究中,資料收集過程包括:確定擬收集資料的內容、調查員培訓、確定資料收集方法。調查資料收集過程要注意:暴露(特徵)的定義和疾病的標準均要明確和統一;所有參與檢驗或檢測的調查員都需經過培訓, 以統一調查和檢測標準,避免測量偏倚的產生;收集資料的方法一經確定,就不能變更,在整個研究過程中必須前後一致,以避免調查偏倚。5.資料的統計分析研究資料匯總以後,可採用多種方法進行分組劃記與統計分析。
  • 2021年如何學習統計學?無償奉上我們2年時間精心製作的醫學統計學全套資料
    該課程是浙江高校醫學統計學教授的公益、免費的公開課!如假包換!我將在公眾號每天推送一篇文章,講述基於不同醫學研究類型的各種統計分析策略。這份材料包括了核心的三份材料,分別是完全入門《妙趣橫生統計學》(52將)、基於案例面向應用的《醫學統計學》(50講)、SPSS軟體操作方法(錄屏)、案例分析集、強化學習的統計學習測試題、視頻的字幕。
  • 【統計微課堂 第二期】梁斐教授從統計學角度解讀 ADAURA研究
    該試驗招募了682例發生EGFR基因突變的IB期、II期、IIIA期的非小細胞肺癌患者,這些患者的腫瘤被完全切除並且接受或沒接受輔助化療,然後接受奧希替尼或安慰劑輔助治療。 早在今年4月份,由於突出的療效,研究就宣布接受獨立數據監察委員會(IDMC)的建議,提前揭盲。
  • 醫學診斷研究必備寶典《MedCalc統計分析方法及應用》
    本書內容包括MedCalc入門、數據管理、計量資料的統計描述與正態性檢驗、分類資料的統計分析、相對數的估計與比較、方差齊性檢驗和t檢驗、方差分析、非參數檢驗、相關分析、回歸、生存分析、Meta分析、連續監測資料的序列測量分析、醫學參考值範圍的制定、方法比較和評價、診斷試驗及樣本含量估計等,並對數據的結果和圖形進行了統計學分析與推斷。
  • 「基於R語言統計分析方法」培訓課程開班
    為了讓研究所相關生態學、環境科學及其他相關領域的科研人員和研究生更好的了解、掌握R語言,實現多元數據的數量分析,4月25至27日,應中國科學院青年促進會新疆生態與地理研究所小組的邀請,中科院植物研究所博士賴江山赴新疆生地所主講「基於R語言統計分析方法」培訓課程。新疆生地所副所長張元明參加了開班儀式。  50餘位研究員、副研究員、博士研究生參加了此次培訓。
  • SPSS 統計分析策略(11):兩組率比較的統計方法​(卡方和Fisher法)
    >兩組率比較的統計方法系列課程「SPSS教程」1-10講為實驗性定量數據統計分析策略。從第11文開始,介紹實驗性分類數據結局的基本統計分析方法。分類結局包括這兩種形式,一種無序分類的結局,一種是有序分類結局。無序分類結局又包括二分類結局和多分類結局。本文的內容是二分類結局的分析。二分類結局往往以率的形式開展描述,因此統計分析探討的是率有無差異。吲達帕胺片治療原發性高血壓療效,將患者隨機分為兩組。
  • 醫學寫作中數據的統計方法及結果常見問題及分析
    科學研究很早就已經從簡單的定性分析深入到細緻的定量分析,科研工作者要面對大量的數據分析問題,科研數據的統計分析結果直接影響著論文的結果分析。在醫學科研寫作中,實驗設計的方法直接決定了數據採取何種統計學方法,因為每種統計方法都要求數據滿足一定的前提和假定,所以論文在實驗設計的時候,就要考慮到以後將採取哪種數據統計方法更可靠。醫學統計方法的錯誤千差萬別,其中最主要的就是統計方法和實驗設計不符,造成數據統計結果不可靠。