除了火山圖,差異表達基因還可以這樣展示

2021-02-20 紀偉講測序

R語言繪製基因表達基因的「對稱散點圖」

 

轉錄組分析中,計算了兩組間差異表達的基因後,通常怎樣表示?您可能第一時間想到可以使用火山圖。的確,火山圖是使用頻率最多的,在火山圖中可以很輕鬆地根據基因在兩組間的Fold Change值以及顯著性p值,識別和判斷差異表達基因概況。火山圖實質上就是一種散點圖,通常橫縱坐標分別代表了log2轉化後的Fold Change以及-log10轉化後的p值或p調整值信息(下圖左)。提到散點圖,常見的還有另一種展示差異表達基因的樣式:橫縱坐標軸可分別代表兩組基因表達均值,這種風格可以更方便直觀對比基因在兩組中的差異狀態。

本篇教程就讓我們來學習如何繪製右圖這種「對稱散點圖」,展示組間差異基因表達格局。示例數據和R代碼等,可點擊下方「閱讀原文」獲取。(備註:若無法成功打開連結,請切換到電腦端網頁點擊下載)

示例文件「gene_diff.txt」是一組基因差異表達分析結果,記錄了處理組(treat)和對照組(control)間表達顯著不一致的基因,鑑定標準為p<0.01以及|log2 Fold Change|≥1。

其中,gene_id為基因名稱;control和treat代表了兩組中基因的平均表達值;log2FoldChange即log2轉化後的基因表達差異倍數;pvalue是差異基因顯著性p值;diff為根據p<0.01以及|log2 Fold Change|≥1篩選的差異基因,該列中「up」為上調,「down」為下調,「none」為非差異基因。

接下來通過該示例文件,展示使用R語言繪製差異基因表達「對稱散點圖」過程。


首先對數據做一些預處理。

例如,基因表達值數量級相差過大,取個對數轉換;基因名稱按是否為差異基因作個排序,避免後續作圖時被不顯著的基因點遮蓋,即排序的目的是讓這些顯著基因的點都位於圖的上方。

express <- read.delim('gene_diff.txt', sep = '\t')
express$control <- log(express$control+1)express$treat <- log(express$treat+1)
express$diff <- factor(express$diff, levels = c('up', 'down', 'none'))express <- express[order(express$diff, decreasing = TRUE), ]
head(express)


下來就可以使用預處理後的數據作圖了。

第一種類型是將基因按上調、下調或不顯著類型著色,便於從圖中辨認差異基因。我們使用ggplot2的方法繪製差異基因散點圖。

library(ggplot2)
ggplot(express, aes(x = control, y = treat)) +geom_point(aes(color = diff), size = 1) + scale_color_manual(values = c('red', 'gray', 'green4'), limit = c('up', 'none', 'down')) + theme_bw() + labs(x = 'control group', y = 'treat group', color = '') + geom_abline(intercept = 1, slope = 1, col = 'black', linetype = 'dashed', size = 0.5) + geom_abline(intercept = -1, slope = 1, col = 'black', linetype = 'dashed', size = 0.5) +geom_abline(intercept = 0, slope = 1, col = 'black', linetype = 'dashed', size = 0.5)

兩個坐標軸分別代表了處理組(treat)和對照組(control),圖中的點代表各基因在兩組中的平均表達值(已經作了log轉換)。treat組和control組相比,上調基因以紅色表示,下調基因以綠色表示。圖中的虛線代表了|log2FC|=1時的閾值線。

在該圖中,我們可以很輕鬆地觀察差異基因整體分布狀態和數量比較的信息。


上圖中沒有將p值信息展示出。因此另一種思路是,顏色代表p值,這樣就可以在圖中獲得一個漸變梯度。同樣使用ggplot2的方法繪製,和上述過程相比僅在顏色指定上存在區別。

ggplot(express, aes(x = control, y = treat)) +geom_point(aes(color = pvalue), size = 0.8) +  scale_color_gradient2(low = 'red', mid = 'darkgoldenrod2', high = 'royalblue2', midpoint = 0.5) +  theme_bw() +  labs(x = 'control group', y = 'treat group', color = 'p-value') +  geom_abline(intercept = 1, slope = 1, col = 'black', linetype = 'dashed', size = 0.5) +  geom_abline(intercept = -1, slope = 1, col = 'black', linetype = 'dashed', size = 0.5) +geom_abline(intercept = 0, slope = 1, col = 'black', linetype = 'dashed', size = 0.5)

類似上圖,兩個坐標軸分別代表了處理組(treat)和對照組(control),圖中的點代表各基因在兩組中的平均表達值(已經作了log轉換),圖中的虛線代表了|log2FC|=1時的閾值線。

和上圖不同點在於,此時基因按顯著性p值著色,從不顯著>顯著展示以藍色>紅色漸變,就獲得了一種梯度信息。這樣可以很方便地看出,在兩組中的表達值差異越大的基因,p值越小,二者趨勢是一致的,重在描述了差異倍數和p值的關係。

此外,若老師或同學們有RNAseq(mRNA、lncRNA、miRNA、circRNA)或蛋白質組等數據分析、繪圖等問題疑問,歡迎掃描下方二維碼回復,我們會根據大家的需求,選擇合適的問題,整理教程

上海生因生物有著豐富的轉錄組測序、外顯子測序數據分析的經驗,同時還提供文獻或分析思路整理、GEO、TCGA公共數據挖掘、高級個性化定製分析等服務。有這方面試驗或數據分析需要的老師,可以添加技術微信聯繫我們,共同探討如何尋找基因、分子研究,如何確定分子機制。對於已經在我們公司做過測序的老師,或者打算即將在我們公司做測序的老師,可以享受免費的售後分析服務。

關注技術微信聯繫數據分析

長按識別二維碼諮詢實驗、分析

李紀偉丨寫

趙青海丨審

其他相關資料

視頻講解:文獻中常見的信號通路是如何富集出來的

視頻講解:沒想到基因GO富集分析這麼簡單

視頻講解-GEO測序數據下載軟體prefech使用視頻(windows系統)

視頻講解-veen圖在線繪製教程

R語言作圖-蜂群圖,讓組間基因表達值的比較更優雅

R語言作圖-R語言繪製「密度提琴圖」,讓提琴圖更加豐富多彩

R語言作圖-R語言繪製ceRNA網絡的衝擊圖(桑基圖)

R語言作圖-R語言繪製基因表達相關性弦圖教程

R語言作圖-R語言繪製基因表達熱圖並設置基因展示範圍

R語言作圖-R語言繪製配對箱線圖

點擊閱讀原文查看更多信息

相關焦點

  • DESeq2分析基因表達矩陣
    上一節對基因表達數據使用edgeR進行差異表達分析:edgeR分析基因表達矩陣,那麼接下來,我們就繼續使用DESeq2對expressMatrix
  • R語言mRNA差異表達分析
    第二列是基因的logFC值,FC是即fold change,表示實驗組比上對照組的差異表達倍數。國內的一般默認取其對數絕對值大於2作為差異基因的篩選標準,這個閾值是可以根據實際情況進行調控。第三列是logCPM,CPM是 Counts Per Million,是每個基因一個指標。
  • 差異基因表達分析(上)
    公共資料庫當然,如果你要研究一個基因的功能時,不要先急著去花錢找公司測序,先去一些基因表達公共資料庫找找看:http://www.ebi.ac.uk/arrayexpress/https://www.ncbi.nlm.nih.gov/geo/差異表達(differential expression,DE)基因分析通過研究基因的差異表達,我們可以發現
  • 差異表達基因時的Log2FC和FDR值的含義?
    轉錄組分析差異表達基因時,結果中會出現Log2FC和FDR值,這兩個是什麼意思呢?
  • 三陰性乳腺癌表達矩陣探索筆記之差異性分析
    使用limma來進行批量的全部的基因的差異分析#將繪製箱圖的函數包裝成函數便於使用pb <- function(g){  library(ggpubr)  df <- data.frame(gene=g, stage=group_list) #比較下一個基因可以改為
  • ​腫瘤差異分析、互作分析神器,這個資料庫到底有多好用?
    說來都是一把辛酸淚,曾經小編在做TCGA差異分析的時候,相比較腫瘤各分期與正常的差異以及腫瘤各分期之間的差異,得做好多次差異分析,實在不忍心看到解螺旋的小夥伴們跟小編一樣經歷這樣的心累感,今天小編向大家介紹一個超級省心的資料庫CRN,相信大家使用了這個資料庫之後,對於TCGA腫瘤的差異分析和互作分析減少一點點心累感。
  • 3*差異分析方法和可視化方法匯總
    2、所涉及的代碼操作,參數全部外置,客戶可以不用讀懂代碼也可以操作。4、所有的課程都提供demo數據測試,並經過了內部審核。Limma、RankRrod、Deseq2、edgeR、t-test。R包Limma和RankRrod進行差異分析;RNA-seq 的read counts數據可以利用R包Deseq2和edgeR進行差異分析;TPM標準化後的RNA-seq數據可以利用t檢驗進行差異分析;還有一種情況:無正常樣本,而是查看某個基因在多個疾病樣本中表達的波動情況,可以利用R語言中的sd函數來計算每個基因在樣本中表達值的方差二、差異表達分析可視化常用的兩種方法:
  • OmicShare差異分析工具上線了!
    小師妹真是痛心疾首,你們都沒有聽周老師的課啊~在第14期在線交流課堂——RNA-seq中的基因表達量計算和差異表達分析(下),周老師已經詳細地講解了edgeR等差異分析軟體的分析原理,以及為什麼差異分析輸入的數據是read count而不是RPKM。
  • scRNA-seq數據差異基因表達分析的有效方法有哪些?
    scRNA-seq數據差異基因表達分析的有效方法有哪些?多模態性:單細胞基因表達是一個隨機過程,因此其表達值存在高度變異性。換句話說,表達水平與細胞亞型和細胞在整個細胞周期中的狀態有關。因此,細胞之間的生物學差異,如不同的細胞類型、不同的mRNA含量和不同的細胞狀態,導致基因表達值的多模態和異質性。
  • 單細胞RT-PCR表達量數據也可以差異分析
    研究者們首先通過流式預先把細胞分類,分成:basal/stem, luminal, and luminal progenitor cells這3群細胞,如下所示:流式細胞分選首先看了看3群細胞的不同病人的表達量差異情況,一般來說,做差異分析的話,組內差異肯定是要小於組間差異
  • 科學家揭示性別差異對不同人體組織基因表達的影響
    科學家揭示性別差異對不同人體組織基因表達的影響 作者:小柯機器人 發布時間:2020/9/12 15:23:00 美國芝加哥大學Barbara E.
  • 腦科學日報:性別差異對基因表達的影響;同情心可抑制生理性疼痛
    1,生而不同:Science論文揭示性別差異對不同人體組織基因表達的影響  來源:小柯生命  Stranger、Meritxell Oliva等研究人員合作揭示性別對不同人類組織中基因表達的影響。相關論文發表在2020年9月11日出版的《科學》雜誌上。  研究人員通過基因型組織表達計劃(GTEx,v8)調查了44個人類組織來源的基因表達以及基因表達的遺傳調控中的性別差異。研究人員證明性別影響整個人體組織樣本的基因表達水平和細胞組成。
  • 《科學》:充滿差異的單細胞蛋白表達
    然而最近的研究卻發現,看起來完全相同的單個細胞實際上表達水平完全是隨機的,存在著巨大的個體差異,科學家稱之為「噪音」。科學家們在研究單細胞生物體的「噪音」時發現,即使是基因完全相同的細胞其行為也是完全不同的。測量不同生物體內的蛋白表達噪音可以幫助科學家們了解生命的演化和功能。 哈佛大學化學與生物化學系謝曉亮小組最新的研究成果將該領域帶入了一個新的高度。
  • 差異表達臨床分析ceRNA網絡
    TANRIC提供查詢和分析兩大功能,提供每個樣品lncRNA表達量信息,可供分析表達量與臨床指標、耐藥性和預後相關性,可以針對候選lncRNA(已注釋或任何用戶自定義lncRNA)與功能基因mRNA或miRNA之間的相關性進行預測,還提供不同腫瘤中lncRNA表達譜的Heatmap可視化結果。
  • 基因表達,男女有別
    此外,Lappalainen 博士還參與了 GTEx 聯盟發布的其他幾篇論文,其中一篇發表在 Science 上的研究中,他們對 GTEx 組織中不同細胞類型的基因表達進行了計算分析,以此更好地發現影響疾病風險的基因變異背後的機制。
  • ...屠強研究組開發Decode-seq方法顯著提高差異表達基因分析的準確性
    鑑定差異表達基因是許多生物醫學研究項目的基礎步驟,利用轉錄組進行差異表達(Differential Expression, DE)分析是目前最主流的方法,得到了廣泛應用。例如,兩個常用於轉錄組DE分析的算法 edgeR 和 DESeq2 已經被引用了超過上萬次。
  • 基因表達+突變分析利器
    ,另一種是通過差異表達基因去檢索相關的基因突變。詳細的描述和檢索方式為:第一種:通過「Genotype」分析,可以鑑定出攜帶突變輸入基因的樣品中表達改變的基因。Liver cancer為例,檢索不僅可以得到突變基因在實體瘤中影響的基因表達目錄以外,還能得到表達的箱線圖。
  • 【論文精選】廣靈驢HSL基因克隆、序列分析與差異表達
    摘    要:試驗旨在對廣靈驢的激素敏感脂酶(hormone sensitive lipase,HSL)基因進行克隆和序列分析,並對HSL基因在廣靈驢不同組織中的差異表達水平進行分析。使用RT-PCR法擴增並克隆廣靈驢HSL基因CDS區部分序列,將序列拼接後得到HSL基因完整的CDS區全長序列,並對序列進行一系列生物信息學分析,通過實時螢光定量PCR檢測HSL基因mRNA在廣靈驢的心臟、肝臟、脾臟、肺臟、腎臟、背最長肌和皮下脂肪7個組織中的表達情況。
  • 差異基因分析方法——p-value
    我們都知道,在利用RNA-seq數據比較分析兩個樣品中同一個基因是否存在差異表達的時候,一般選取兩個標準:1)FoldChangeFoldChange,很容易理解了。就是兩樣品中同一個基因表達水平的變化倍數。