生存曲線、線性分析與熱圖繪製

2022-01-26 投必得學術
上一期我們對T檢驗(非參數檢驗)、單/雙因素方差分析及卡方檢驗進行了說明與實例分析。本期是Prism作圖與統計的最後一期內容了。主要包括我們上提到的多元統計方法中的生存分析與相關性分析。

此部分內容還是先從統計說起,然後用實例演示分析與作圖過程,此外還會介紹Prism鮮為人知的作圖彩蛋。希望這個系列能讓大家更準確地把握統計分析與高效製圖。


1.生存分析的概念與描述(熟悉此部分統計基本概念的小夥伴請忽略)

生存分析是對一個或多個非負隨機變量進行統計推斷,研究生存現象和響應時間數據及其統計規律的一門學科。與多因素分析不同的是:生存分析考慮了每個觀測出現某一結局的時間長短。主要應用於人或動物的存活(相對於死亡),也可以是患者的病情正處於緩解狀態(相對於復發或惡化),常常用追蹤的方式來研究事物發展的規律。

生存分析主要採用Kaplan-Meier檢驗。此外Log Rank、Breslow和Tarone-Ware法均可用於檢驗生存分布是否相同,區別在於Log Rank適用於各時間點權重一樣的比較;Breslow適用於各時間點的觀察例數為權重的比較;而Tarone-Ware適合於以各時間點的觀察例數的平方根為權重的比較。(用SPSS或Prism統計數據時注意區分)

PS:生存分析中還存在許多諸如起始事件、終點事件、生存時間或完全數據、不完全數據等統計學概念,請大家自行查詢,下面是小編總結的一個示意圖

2.生存分析實例(Kaplan Meier檢驗)

小編用最近看到的一篇文章(PMID: 31727683)中的圖1A來進行舉例說明。該圖顯示高miR-541與低miR-541表達肝癌病人的存活率。

接下來我們進行數據模擬和分析作圖。具體步驟如下:

1)新建生存數據分析,數據輸入:選擇Survival表格,進入數據輸入頁面,輸入模擬數據。在這裡我們隨機輸入了40個數據,每組各20個(文章中多於此數據)。其中0代表live,1代表dead;X軸代表存活時間(months),A、B分別代表miR-541高表達組和低表達組。

2)數據分析:選擇Survival curve,進入選項窗口,依次按圖中1、2、3指示選擇合適的數據比較方法和數據表示方法,然後確定。 


(統計參數設置)

3)數據統計:完成以上操作後,數據會計算出來,我們能看到數據統計界面以及兩種方法的數據統計結果。由於我們在模擬數據時,各時間點的權重均為「1」(時間無影響,即注重遠期效應),所以選擇看Log-rank檢驗的數據,及其P value。

(兩種統計方法的統計結果)

4)圖像輸出:完成上述分析後,我們點擊Graphs下方得到初步圖片,然後再進行修改和美化。首先雙擊High組,修改其為紅色標識。然後雙擊橫坐標,修改橫坐標最大為80 months。最後修改坐標軸等信息即可完成製圖。

(圖片修正過程)

(最終輸出圖片)


1.線性相關的分類與描述(熟悉此部分統計基本概念的小夥伴請忽略)

相關性分析是衡量兩個變量因素的相關密切程度,主要包含:Pearson相關和Spearman相關。其中Pearson相關是用於度量兩個變量之間的相關(線性相關),其值介於-1與1之間(兩個變量A和B:正相關/負相關)。Spearman相關是等級變量之間的Pearson相關係數(等級變量:如免疫組化:陰性/弱陽性/中等陽性/強陽性)。

2.相關性分析實例

1)Pearson相關,我們還是以上述文章(PMID: 31727683)中的圖4I(下圖左)來進行統計分析與作圖,分析肝癌患者中ATG2A基因與miR-541的相關性。

首先我們選擇XY數據表格,進行數據模擬(下圖右)。然後選擇linear regression分析,進入參數設置界面(這裡選擇默認)。

 

(圖片信息及數據模擬)

(統計分析參數設置)

完成參數設置後點擊「ok」,輸出計算結果。重要的結果說明如下圖所示。

(統計結果說明)

最後,手動敲入R與P值,調整坐標軸等美化和修改圖片,最後輸出圖片。

(作圖修正)

2)Spearman相關

我們以PMID: 28837144文章中的圖7b為例(下圖左),進行數據模擬作圖分析。此結果是分析結直腸癌組織中lncRNA XIST與ZEB1表達的相關性。

首先我們新建XY數據模型、輸入模擬數據。然後選擇統計參數,最後查看結果並作圖(注意擬合曲線仍選用linear regression分析),在這裡不在詳細贅述,簡要過程見配圖。

 

(圖片信息及數據模擬,註:模擬數據較少)

(統計參數設置與結果分析)

(擬合曲線分析與圖片輸出)

現在很多文章中都有熱圖的出現,熱圖不僅可以用Excel和R語言,更新後的Prism也可以實現火山圖的繪製。我們以PMID: 313521032這篇文章中的圖4A來為大家舉例說明。

直接進入正題,先選擇grouped的模擬數據。輸入完畢在Graphs下的圖片,選擇Heat Map,可以初步完成圖片(兩組及以上的方法相同)。

(數據模擬)      

(選擇grouped下的Heat map)

然後雙擊圖片,更改熱圖的顏色、Title、標尺、邊框等,簡要過程如下,最後輸出圖片。是不是很簡單呢?

  

(更改顏色、標題、邊框、標尺和方向)

(微調後的成品圖)

這是Prism統計與作圖系列的最後一期內容,小編在這裡首先感謝大家對投必得學術的支持,希望這三期內容能讓大家更加了解生物統計及作圖。Prism的功能還有很多,小編以後也會跟大家繼續分享一些應用中的小彩蛋。如果有任何疑問,大家也可在評論區留言或在我們的微信群內討論學習。雖然Prism每個版本都會有改進,但始終是一款繪圖為基礎的軟體,在數據處理方面還是不如SPSS等專業軟體功能豐富。接下來,小編將會與大家分享學習Prism不能做的一些統計分析,如主成分分析等。我們將用SPSS軟體進行分析與作圖,敬請期待!也請大家持續關注我們,將我們的資源分享給更多的小夥伴,一起快樂學習,共同進步!

系列相關推送:

Prism作圖與統計教程(二)

《都9102年了還在用SPSS做統計?Prism了解一下》

《科研論文作圖之Graphpad Prism》

發表SCI 論文很迷茫?來找「投必得」幫忙

  

相關焦點

  • 何使用Survminer包優雅的繪製生存曲線?
    引言:   生存分析是臨床上較為常用的統計學方法,用於比較不同組別的患者在接受幹預之後,生存時間的變化情況。生存分析是醫學領域中一個重要的內容,在各個疾病領域的研究中都運用十分廣泛。在R中進行生存分析常用的包主要有survival包以及survminer包。?
  • R語言做生存分析:繪製 Kaplan-Meirer生存曲線和實現Log-rank檢驗
    因為無法在短時間內評價慢性病患者的預後,所以通常情況下不會簡單地採用治癒率、病死率等指標,而是對患者進行隨訪,分析一定的時間之後患者生存或死亡的情況,這種將事件的結果和出現這一結果所經歷的時間結合起來分析的方法,稱為生存分析 (Survival Analysis)。
  • Graphpad Prism 8如何繪製生存曲線
    小圖教程GraphPad篇第 5 次推送Hi~小圖最近一直在做分析圖表,覺得GraphPad Prism 8這個軟體用起來真的是巴適的很~~小圖情不自禁的要和小夥伴們分享一下~~醫學研究中常常遇到的一類統計圖——生存曲線。
  • GraphPad Prism7繪製生存曲線
    GraphPad Prism7繪製生存曲線可以算得上是最簡單的一種方式。但是對於初學者來說,還是需要了解最基本的操作方法。今天,小編和大家一起來看看如何操作。首先,打開GraphPad Prism7,選擇「Survival」,如下圖所示在上圖中,小編標註了「1」和「2」,其中「1」是指輸入自己準備的數據。「2」是指使用軟體的示例數據。這裡小編就偷一下懶,使用示例數據。
  • K-M生存曲線繪製和Logrank檢驗
    本文使用MedCalc軟體,實現K-M生存曲線繪製和Logrank檢驗,與SPSS軟體相比,MedCalc軟體能夠輸出更多的結果,符合文章發表的要求;與Graphpad軟體相比,原始數據直接複製(註:公眾號後臺回覆:MC,獲取MedCalc軟體試用版下載,足夠進行數據分析)1、數據集描述months:生存時間,數值變量,單位為月;death:結局時間,分類變量,1為發生結局時間,0
  • python多重線性回歸分析
    python多重線性回歸分析多重線性回歸分析定義多重線性回歸模型:Mulitiple Linear Regression多元線性回歸模型:Multivariatedf=pd.read_csv('e:/python/out/corr.csv',encoding='utf8')#定義自變量x=df[['營銷費用(萬元)','客流量(萬人次)']]#定義因變量y=df[['銷售額(萬元)']]#計算相關係數df['客流量(萬人次)'].corr(df['銷售額(萬元)'])繪製散點圖
  • Python數據分析|線性回歸
    Python數據分析學習筆記,今天分享下利用Python對業務進行數據預處理,並利用線性回歸進行數據預測。①導入Python常用數據分析庫:常用的numpy、pandas、matplotlib先導入。②將待處理的數據讀取:read_excel進行Excel文件讀取,用sheet_name指定導入的sheet。
  • 多重線性回歸
    python多重線性回歸分析多重線性回歸分析定義多重線性回歸模型:Mulitiple Linear Regressioncorr(df['銷售額(萬元)'])繪製散點圖,確定回歸模型類型#營銷費用 作為x軸#銷售額 作為y軸#繪製散點圖
  • 【乾貨】集中供熱系統熱負荷圖都有哪些?常用三種圖的「自述」
    對集中供熱系統設計、技術經濟分析和運行管理,都很有用處。        在供熱工程中,常用的熱負荷圖主要有熱負荷時間圖、熱負荷隨室外溫度變化圖和熱負荷延續時間圖。熱負荷時間圖的特點是圖中熱負荷的大小按照他們出現的先後排列。
  • R語言-繪製ROC曲線
    Step2:利用roc()函數建立roc曲線,auc()函數計算曲線下面積。Step3:plot(roc)#繪製一個簡單的ROC曲線,如下圖。#繪製顯示AUC和最佳cut off值的ROC曲線 plot(roc, print.auc=TRUE, auc.polygon=TRUE, grid=c(),grid.col=c(), max.auc.polygon
  • 最小二乘法與線性回歸
    引言:回歸分析(regression analysis)指的是確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法
  • 一文玩轉生存曲線(並軟體實現)
    看大咖如何深度解讀生存曲線的前世今生。精華內容建議收藏,閱讀時間約10min。在醫學研究中,慢性病的發生、發展、預後一般不適用於治癒率、病死率等指標來考核,因為其無法在短時間內明確判斷預後情況。為此,只能對患者進行長期隨訪,統計一定時期後的生存或死亡情況以判斷診療效果,這樣的研究往往會產生帶有結局的生存時間資料。在分析方法上,需要採用生存分析方法。
  • 人人都能繪製的技術生命曲線-虎嗅網
    與Gartner技術曲線不同的是,這條新的曲線不僅能夠體現技術的生命曲線,還能體現出生命曲線當中的具體技術突破點,更為重要的是——這是一條擁有即時測繪功能的、人人都能繪製的技術生命曲線。系統通過給予各變量不同的權重配比,綜合計算出在具體時間相應的熱度值,從而形成了技術生命曲線。技術生命曲線在大數據分析的基礎上,添加了以時間點為單位,用權威熱點聚類算法,抓取熱點內容的功能,可對新技術發展歷程進行全程監測。
  • 固態表徵4-熱重分析-TGA
    熱重分析在實際的材料分析中經常與其他分析方法聯用,進行綜合熱分析,全面準確分析材料。在藥物處方前研究中,通常結合DSC對樣品進行熱力學分析。TGA是處方前研究實驗室必備的分析儀器之一。熱重分析通常可分為兩類:動態(升溫)和靜態(恆溫)。
  • 範例分析:多元線性回歸分析
    基礎回顧簡單線性和多元線性回歸理論基礎請回顧:相關與回歸分析基礎;一元(簡單線性)相關分析與回歸分析
  • 亦明3D:SolidWorks繪製8字扣手環,8字路徑草圖藉助曲面完成
    3d 8字扣手環模型:使用SolidWorks2014繪製;繪製過程:1、在前視基準面上繪製草圖 中心線+兩個圓:中心線長度4;2、拉伸曲面:兩側對稱2.5;3、在上視基準面上繪製草圖 橢圓;4、選擇分割線命令:要投影的草圖選擇橢圓
  • 用Excel進行數據分析:回歸分析
    ,可分為線性回歸分析和非線性回歸分析。一、案例場景為了研究某產品中兩種成分A與B之間的關係,現在想建立不同成分A情況下對應成分B的擬合曲線以供後期進行預測分析。測定了下列一組數據:二、操作步驟1、先繪製散點圖:具體步驟是選中數據,插入—>圖表—>散點圖
  • 線性回歸分析詳解10(完結篇):線性回歸分析預測的十大步驟
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第10章,這是本專欄的最後一章,是專欄的完結篇:用線性回歸分析做預測,多元線性回歸分析預測的十大步驟。線性回歸分析專格欄總目錄請見上圖,前9章,我分別講述了回歸分析及與回分析相關的概念,一元、多元線性回歸分析的公式與計算方法,以及多重共線性、回歸方程的精度、顯著性驗證和置信區間等進行回歸分析的重要步驟及其計算方法。至此,以回歸分析進行需求預測的各項知識點及各項準備工作全部完成,我們可以正式的以回歸分析進行需求預測。
  • 精品圖表|Excel繪製直方圖與正態分布曲線
    今日更新:Excel繪製直方圖與正態分布曲線老樣子,還是先上幾幅不同配色的圖來看一下:作圖思路先對原始的數據進行分割(組),計算每個分組的頻數與正態分布後。然後插入柱形圖與折線圖,調整柱形的分類間距與折線的平滑度即可。原始數據原始數據源如下圖所示:操作步驟Step-01對原數據進行分組,計算頻數與正態分布。
  • 線性電阻電路的分析方法_線性電阻的串並聯
    打開APP 線性電阻電路的分析方法_線性電阻的串並聯 發表於 2018-03-13 16:11:20 1、支路電流法和結點電壓法