乾貨limma教程 | RNA測序數據分析案例手把手教學

2021-02-24 醫科研

15.1 約魯巴個體基因圖譜概況15.1.1 背景

這個案例由於原始數據過大，沒辦法進行原始數據預處理的朋友可以在limma包下載頁面下載已經預處理的數據，進行從15.1.6開始的統計分析。

檢測來源：不同的69約魯巴人的B淋巴細胞的細胞組，這個文庫是國際人體基因組計劃的一部分。

每個個體的RNA至少在Illumina Genome Analyser 2的兩個pannel上測量。在這個案例裡我們要尋找男性和女性的差異表達基因。這個案例研究需要limma3.9.19或以上版本。

15.1.2 數據獲取

已預處理的數據可以在http://bioinf.wehi.edu.au/limma/ 下載。未處理的數據FASTQ 文件可以在下面的地址下載。

15.1.3 約魯巴個體和FASTQ文件：Pritchard Lab’s eQTL

序列信息地址：http://eqtl.uchicago.edu/RNA_Seq_data/unmapped_reads/

樣本信息地址：http://eqtl.uchicago.edu/RNA_Seqdata/list_lanes_pickrell_2010_plosgenetics

性別信息（International HapMap Project NHGRI Repository ）：http://ccr.coriell.org/

我們只使用在Argonne國家實驗室的測序數據。Argonne中心的所有跑道都用46個bp讀數進行了排序。

> Targets <- read.delim("targets.txt", sep = "\t")> Targets   center           flow_cell lane individual concentration cellline gender1 argonne 090617_HGAC_S100091    5     NA18486          3.5 NA18486    Male2 argonne 090330_HGAC_S100065    3     NA18498_2        3.5 NA18498    Male3 argonne 090218_HGAC_S100047_PIPELINE_V2 7 NA18498     2.5 NA18498    Male#共有86個樣本，這裡只列出3個作為參考。
15.1.4 將reads與基因組對應需要下載的文件：
基因組：GRCh37 (hg19 Genome Reference Consortium Human Build 37)
read 注釋文件：NCBI RefSeq Build 37.2. FASTA files。從UCSC Human Genome 的網址下載：http://hgdownload.soe.ucsc.edu/goldenPath/hg19/
> library(Rsubread)> FASTQFiles <- paste0(Targets$individual, "_", Targets$center, ".fastq.gz")> BAMFiles <- paste0(Targets$individual, "_", Targets$center, ".subread.bam")> buildindex(basename="hg19_subread",reference="GRCh37.fa")> align("hg19_subread", readfile1 = FASTQFiles, input_format = "gzFASTQ", output_file = BAMFiles)> gene <- featureCounts(BAMFiles, useMetaFeatures=TRUE, annot.inbuilt="hg19", allowMultiOverlap=TRUE)> propmap <- propmapped(BAMFiles)
##顯示對得上的reads數目，它的平均佔比是0.786。樣本用測序的cDNA的濃度進行排序。> summary(propmap[,"PropMapped"])Min. 1st Qu. Median Mean 3rd Qu. Max.0.597 0.778 0.798 0.786 0.810 0.828
> Targets$concentration <- factor(Targets$concentration)> o <- order(Targets$concentration)> barplot(as.matrix(t(cbind(propmap[o,"NumMapped"]*1e-6,+ (propmap[o,"NumTotal"]-propmap[o,"NumMapped"])*1e-6))),+ ylab="Number of Reads (millions)", names = Targets$individual[o],+ las=3, cex.names=0.3, cex.axis=0.7, density = c(80,0),+ legend = c("Number of Mapped Reads", "Number of Unmapped Reads"),+ args.legend = list(x = "topright",cex = 0.5, bty = "n"))
加載基因水平計數
> Counts <- gene$counts> dim(Counts)[1] 25702 86> Counts[1:5,1:5]       NA18486 NA18498_2 NA18498 NA18499 NA18501653635     12      8       19      17       5100422834   0      0        0       0       0645520      0      0        0       0       079501       0      0        0       0       0729737      6      6        2       6       4
文庫的大小從60多萬到900多萬不等。樣品按用於測序的cDNA (pM)濃度排序。
> col.concent <- c("gold" , "orange", "red")> barplot(colSums(Counts[,o])*1e-6, names = Targets$individual[o], ylab="Library size (millions)",+ col = col.concent[Targets$concentration][o], las = 2, cex.names = 0.3)> legend("topleft", legend = c("1.5","2.5","3.5"), col = col.concent, pch = 15, cex = 0.7)
為了在RNA-seq數據上運用limma，我們將比較女性和男性個體。
> table(Targets$gender[!duplicated(Targets$cellline)])Female Male41 33
15.1.5  注釋注釋的Entrez Gene ID來自NCBI gene info file.
> library(limma)> columns <- c("GeneID","Symbol", "chromosome", "type_of_gene")> GeneInfo <- read.columns("130811-Homo_sapiens.gene_info",required=columns, stringsAsFactors = FALSE)> m <- match(gene$annotation$GeneID, GeneInfo$GeneID)> Ann <- cbind(gene$annotation[, c("GeneID", "Chr", "Length")],+ GeneInfo[m, c("Symbol", "type_of_gene")])> Ann$Chr <- unlist(lapply(strsplit(Ann$Chr, ";"), function(x) paste(unique(x), collapse = "|")))> Ann$Chr <- gsub("chr", "", Ann$Chr)> head(Ann)        GeneID Chr Length Symbol type_of_gene28373    653635 1     1769 WASH7P pseudo37837 100422834 1     138 MIR1302-10 miscRNA27617    645520 1     1130 FAM138A miscRNA14957     79501 1      918 OR4F5 protein-coding29525    729737 1     3402 LOC729737 miscRNANA    100507658 1      793 <NA> <NA>
15.1.6 DGEList 對象創建DGEList對象，把計數和相關的注釋結合起來：
> library(edgeR)> y <- DGEList(counts = Counts, genes = Ann)
15.1.7 過濾##保留總計數大於50的基因：> A <- rowSums(y$counts)> isexpr <- A > 50##保留有注釋信息的基因> hasannot <- rowSums(is.na(y$genes)) == 0> y <- y[isexpr & hasannot, , keep.lib.size = FALSE]> dim(y)[1] 16918 86
15.1.8 Scale標準化：> y <- calcNormFactors(y)##畫下MDS圖，圖像上更清晰地看到男性和女性的文庫區別> Gender <- substring(Targets$gender,1,1)> plotMDS(y, labels=Gender, top=50, col=ifelse(Gender=="M","blue","red"), gene.selection="common",+ prior.count = 5)
從MDS圖中可以明顯看出低cDNA濃度和高cDNA濃度的分離。
> plotMDS(y, labels=Gender, col=col.concent[Targets$concentration], prior.count=5)> legend("topleft", legend = c("1.5","2.5","3.5"), col = col.concent, pch = 15)
15.1.9 線性模型##設計設計矩陣> design <- model.matrix(~ gender + concentration, data = Targets)##用voom（）函數將read讀書轉換為log2-cpm，以及相應的權重，為後續線性模型服務。> v <- voom(y, design)##估計重複的細胞系之間的相關性，這些細胞系被多次測序> cor <- duplicateCorrelation(v, design, block = Targets$cellline)> cor$consensus[1] 0.446##細胞系內的相關性會略微改變voom的權重，所以我們再次運行voom:> v <- voom(y, design, plot = TRUE, block = Targets$cellline, correlation = cor$consensus)
同樣，我們更新voom權重的相關性
> cor <- duplicateCorrelation(v, design, block = Targets$cellline)> cor$consensus[1] 0.446
可以看到，在第二次迭代中，相關性幾乎沒有改變。
現在尋找基因在男性和女性之間的差異表達。正對數變化意味著男性更高。
> fit <- lmFit(v, design, block = Targets$cellline, correlation = cor$consensus)> fit <- eBayes(fit)> summary(decideTests(fit))(Intercept) genderMale concentration2.5 concentration3.5Down 1464 27 1469 4105NotSig 3352 16869 13622 9704Up 12102 22 1827 3109> topTable(fit, coef = "genderMale", n = Inf, sort = "p", p = 0.05)[,-1]Chr Length Symbol type_of_gene logFC AveExpr t P.Value adj.P.Val B64595 Y 5242 TTTY15 miscRNA 6.529 -0.258 52.97 3.63e-68 6.14e-64 123.9836192 Y 897 RPS4Y1 protein-coding 9.691 2.224 44.08 1.91e-61 1.62e-57 117.2159086 Y 1390 EIF1AY protein-coding 7.962 0.659 42.44 4.52e-60 2.55e-56 113.6618284 Y 5581 KDM5D protein-coding 7.148 2.566 41.47 3.08e-59 1.30e-55 115.8028653 Y 4795 DDX3Y protein-coding 6.439 3.547 39.30 2.68e-57 9.08e-54 114.1557503 X 19271 XIST miscRNA -10.223 4.135 -37.53 1.20e-55 3.37e-52 107.001##結果過多，不一一列舉
和預期的一樣，高表達的基因存在於性染色體上：
> chrom <- fit$genes$Chr> plotMD(fit, column=2, status=chrom, values=c("X","Y", "X|Y"),+ hl.col=c("red","blue", "green3"), main="Male vs Female",legend="bottomright")> abline(h=0,col="darkgrey")
15.1.10 基因子集檢測獲取Y染色體男性特異性區域的基因列表，以及X染色體上據報導可以逃脫X抑制活性的基因列表。性染色體基因文件網址：http://bioinf.wehi.edu.au/software/GenderGenes/.  我們認為第一個列表中的基因在男性中應該是上調的，而第二個列表中的基因在女性中應該是上調的。
> load(url("http://bioinf.wehi.edu.au/software/GenderGenes/GenderGenes.RData"))> Ymale <- v$genes$GeneID %in% msYgenes> Xescape <- v$genes$GeneID %in% XiEgenes
Roast基因組測試證實，在我們對男性和女性的比較中，男性特異性基因作為一個組顯著上升，而X基因作為一個組顯著下降：
> index <- list(Y = Ymale, X = Xescape)> mroast(v,index,design,2, block = Targets$cellline, correlation = cor$consensus, nrot=9999) NGenes PropDown PropUp Direction PValue FDR PValue.Mixed FDR.MixedY    13    0.000 1.0000        Up  1e-04 1e-04      1e-04     1e-04X    54    0.574 0.0926      Down  1e-04 1e-04      1e-04     1e-04
來自競爭性camera基因組測試的結果甚至更有說服力：
> camera(v,index,design,2)NGenes Direction PValue FDRY 13 Up 2.40e-262 4.80e-262X 54 Down 5.58e-26 5.58e-26
我們可以在均值差圖上突出男性特異性基因和x逃逸基因：
> status <- rep("Other",nrow(fit))> status[Ymale] <- "Ymale"> status[Xescape] <- "Xescape"> plotMD(fit,column=2,status=status,values=c("Xescape","Ymale"),hl.col=c("red","blue"),+ main="Male vs Female",legend="bottomright")> abline(h=0,col="darkgrey")
另一種查看基因的方式是查看Y和X特定基因在差異表達結果中的排名。這表明，除了少數例外，Y特異性基因的排位較高(陽性)，而X特異性基因的排位較低(陰性)：
> barcodeplot(fit$t[,2],Ymale,Xescape, labels=c("Up in male","Down in male"))> legend("top",legend=c("Ymale genes","Xescape genes"),lty=1,col=c("red","blue"))
15.2  Pasilla敲除後的不同剪接15.2.1這個案例研究重新分析了Brooks等人的數據。NOVA1和NOVA2蛋白是已知的調節哺乳動物剪接的蛋白。Brooks等以melanogaster果蠅為模型系統，利用RNA幹擾系統(RNA interference system, RNAi)敲除NOVA1和NOVA2的D. melanogaster or同源物表達，即Pasilla (ps)。實驗比較了經過處理和未經處理的S2-DRSC細胞系細胞。
在本例研究中，我們發現了在ps敲除後表達差異的外顯子和基因，我們發現敲除後的樣品與野生型相比，存在基因剪接差異。
為了完整起見，我們將描述從原始數據文件進行分析的所有步驟，包括映射和對齊。如果您想跳過映射並讀數步驟，請直接進入18.2.6節，即統計分析開始的地方。
15.2.2 GEO樣本和SRA文件GEO：http://www.ncbi.nlm.nih.gov/geo.（6個RNA來源），GSE18508（從原文獻中查到GSE號）為csv文件：
> library(limma)> GEO <- readTargets("GEO-samples.csv", sep=",")> GEO        GEO               Title Pasilla1 GSM461176 S2_DRSC_Untreated-1 Normal2 GSM461177 S2_DRSC_Untreated-3 Normal3 GSM461178 S2_DRSC_Untreated-4 Normal4 GSM461179 S2_DRSC_CG8144_RNAi-1 Down5 GSM461180 S2_DRSC_CG8144_RNAi-3 Down6 GSM461181 S2_DRSC_CG8144_RNAi-4 Down
有三種未經處理的生物樣品，其中ps應在正常水平上表達，三種經過處理的生物樣品，其中ps應在表達低水平。
當GEO記錄樣本信息時，序列數據文件實際上保存在NCBI短讀存檔文件(SRA)中。RNA樣本在Illumina基因組分析儀II上進行測序。其中幾個樣本使用了多次測序，共得到20個SRA文件：
> SRA <- readTargets("SRA-Files.csv", sep=",")> SRA        SRA       GEO               Title RunDate FlowCellID Type ReadLength1 SRR031708 GSM461176 S2_DRSC_Untreated-1 7/15/08 308T2AAXX    SE 452 SRR031709 GSM461176 S2_DRSC_Untreated-1 7/15/08 308T2AAXX    SE 453 SRR031710 GSM461176 S2_DRSC_Untreated-1 8/15/08 30AYWAAXX    SE 454 SRR031711 GSM461176 S2_DRSC_Untreated-1 8/15/08 30AYWAAXX    SE 455 SRR031712 GSM461176 S2_DRSC_Untreated-1 8/15/08 30AYWAAXX    SE 456 SRR031713 GSM461176 S2_DRSC_Untreated-1 8/15/08 30AYWAAXX    SE 457 SRR031714 GSM461177 S2_DRSC_Untreated-3 11/14/08 30MNEAAXX   PE 378 SRR031715 GSM461177 S2_DRSC_Untreated-3 12/23/08 30M2BAAXX   PE 379 SRR031716 GSM461178 S2_DRSC_Untreated-4 12/23/08 30M2BAAXX   PE 3710 SRR031717 GSM461178 S2_DRSC_Untreated-4 12/23/08 30M2BAAXX  PE 3711 SRR031718 GSM461179 S2_DRSC_CG8144_RNAi-1 7/15/08 308T2AAXX SE 4512 SRR031719 GSM461179 S2_DRSC_CG8144_RNAi-1 7/18/08 308UEAAXX SE 4513 SRR031720 GSM461179 S2_DRSC_CG8144_RNAi-1 8/15/08 30AYWAAXX SE 4514 SRR031721 GSM461179 S2_DRSC_CG8144_RNAi-1 8/15/08 30AYWAAXX SE 4515 SRR031722 GSM461179 S2_DRSC_CG8144_RNAi-1 8/15/08 30AYWAAXX SE 4516 SRR031723 GSM461179 S2_DRSC_CG8144_RNAi-1 8/21/08 308A0AAXX SE 4517 SRR031724 GSM461180 S2_DRSC_CG8144_RNAi-3 12/23/08 30M2BAAXX PE 3718 SRR031725 GSM461180 S2_DRSC_CG8144_RNAi-3 12/23/08 30M2BAAXX PE 3719 SRR031726 GSM461181 S2_DRSC_CG8144_RNAi-4 12/23/08 30M2BAAXX PE 3720 SRR031727 GSM461181 S2_DRSC_CG8144_RNAi-4 12/23/08 30M2BAAXX PE 37##所有在2008年7月和8月進行的測序都使用單端(SE)測序，其鹼基對讀數為45，而後期的測序使用雙端(PE)測序，其鹼基對讀數為37 bp。
15.2.3  將reads映射到參照基因組利用Rsubread將reads映射到參考D. melanogaster的基因組：
首先，SRA格式文件需要轉換成FASTQ格式，這是表示高通量測序數據的實際標準。這是使用SRA Toolkit 2.3.4版完成的。具體來說，Unix SRA工具包命令fastq-dump --split-spot --split-files  用於為每個單端SRA文件生成一個FASTQ文件，為每個雙端SRA文件生成兩個FASTQ文件。
第二，代表D.melanogaster的基因組的FASTA文件是從ftp://ftp.ncbi.nlm.nih.gov/genomes/Drosophila_melanogaster/RELEASE_5_48  下載的。染色體臂對應五個FASTA文件：
> DM <- readTargets("FASTA-GFF-files.csv",sep=",")> DM                FASTA                 GFF Chromosome1 CHR_2/NT_033778.fna CHR_2/NT_033778.gff Chr2R2 CHR_2/NT_033779.fna CHR_2/NT_033779.gff Chr2L3 CHR_3/NT_033777.fna CHR_3/NT_033777.gff Chr3R4 CHR_3/NT_037436.fna CHR_3/NT_037436.gff Chr3L5 CHR_4/NC_004353.fna CHR_4/NC_004353.gff Chr46 CHR_X/NC_004354.fna CHR_X/NC_004354.gff ChrX
五個*.fna文件被連接到一個單獨的fasta格式文件Drosophila ref.fasta中，並使用Rsubread構建一個索引文件。
> library(Rsubread)> buildindex(basename="index",reference="Drosophila_ref.fasta")
第三，reads與基因組對齊。用下面命令映射SE讀數：
> align("index",SE_fastq_files,input_format="FASTQ")
其中，SE fastq文件是一個包含SE fastq文件名稱的字符向量。映射PE讀數：
> align("index",PE_fastq_files1,PE_fastq_files2,input_format="FASTQ")
其中，PE fastq files1和PE fastq files2是包含PE fastq文件名稱的向量。這些命令生成包含對齊讀數(SE)或片段(PE)的BAM文件。
15.2.4  讀取外顯子計數接下來，我們計算每個基因的注釋外顯子重疊的讀數或片段數。包含基因和外顯子注釋的GFF文件從ftp://ftp.ncbi.nlm.nih. gov/genomes/Drosophila_melanogaster/RELEASE_5_48下載。每個染色體臂都有一個GFF文件，如上所示。
五個*.gff文件連接到一個文件中，並刪除相同外顯子的重複外顯子實例(相同的開始和停止位置)，以創建一個名為unique.gff的開始/停止位置的數據。SE讀數由下面命令進行計數：
> fc_SE <- featureCounts(SE_bam_files, annot.ext="unique.gff",+ isGTFAnnotationFile=TRUE,+ GTF.featureType="exon", GTF.attrType="ID",+ useMetaFeatures=FALSE, allowMultiOverlap=TRUE)
SE bam files  是SE讀數名稱的bam文件的向量。PE bam files  是PE讀數名稱的bam文件的向量。PE讀數由下面命令進行計數：
> fc_PE <- featureCounts(PE_bam_files, annot.ext="unique.gff",+ isGTFAnnotationFile=TRUE,+ GTF.featureType="exon", GTF.attrType="ID",+ useMetaFeatures=FALSE, allowMultiOverlap=TRUE,+ isPairedEnd=TRUE)
15.2.5 匯總DGEList和計數技術重複的總數#匯總到edgeR DGEList對象> library(edgeR)> y.all <- DGEList(counts=cbind(fc_SE$counts,fc_PE$counts), genes=fc_SE$annotation)> dim(y.all)[1] 74184 20> head(y.all$genes      GeneID         Chr Start     End Strand Length138088 30970 NC_004354.3 138094 139379 - 1286138087 30970 NC_004354.3 139445 139611 - 167138089 30970 NC_004354.3 139445 139889 - 445138086 30970 NC_004354.3 139713 139889 - 177138091 30971 NC_004354.3 140011 141629 + 1619138092 30971 NC_004354.3 142415 144271 + 1857
該注釋包括Entrez ID和每個外顯子的長度、染色體和起始、終止位置。回存到原始SRA的順序：
> y.all <- y.all[,SRA$SRA]
然後我們通過將計數重複和計數相加把數據摺疊起來，這樣每個GEO樣本就有一個單獨的列：
> y <- sumTechReps(y.all, ID=SRA$GEO)> y$samples         group lib.size norm.factorsGSM461176    1 31007529            1GSM461177    1 13040952            1GSM461178    1 15030819            1GSM461179    1 28143539            1GSM461180    1 14901292            1GSM461181    1 16264066            1> colnames(y) <- c("N1","N3","N4","D1","D3","D4")
15.2.6 基因注釋果蠅的基因注釋文件：ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/GENE_INFO/Invertebrates。
現在，我們將選中的注釋列添加到DGEList對象中：
``
> ncbi.L1 <- readLines("Drosophila_melanogaster.gene_info", n = 1)> ncbi.colname <- unlist(strsplit(substring(ncbi.L1, 10, 234), 』 』))> ncbi <- read.delim("Drosophila_melanogaster.gene_info",+ skip=1, header=FALSE, stringsAsFactors=FALSE)> colnames(ncbi) <- ncbi.colname> m <- match(y$genes$GeneID, ncbi$GeneID)> y$genes$Chr <- ncbi$chromosome[m]> y$genes$Symbol <- ncbi$Symbol[m]> y$genes$Strand <- NULL> head(y$genes)       GeneID Chr Start    End Length Symbol138088   30970 X 138094 139379 1286   CG3038138087   30970 X 139445 139611 167    CG3038138089   30970 X 139445 139889 445    CG3038138086   30970 X 139713 139889 177    CG3038138091   30971 X 140011 141629 1619      G9a138092   30971 X 142415 144271 1857       G9a
15.2.7 過濾保留至少3個樣本中有超過1個cpm的外顯子。
> isexpr <- rowSums(cpm(y) > 1) >=3> y <- y[isexpr,,keep.lib.sizes=FALSE]
15.2.8 Scale 標準化應用TMM標準化
> y <- calcNormFactors(y)> y$sample   group lib.size norm.factorsN1     1 30872843 0.955N3     1 12962245 1.031N4     1 14908555 0.976D1     1 27989806 1.005D3     1 14760887 1.022D4     1 16172265 1.014
MDS圖顯示了Pasilla down與正常樣本的明顯分離，但也顯示了與測序類型和日期相關的批次效應：
15.2.9 線性模型設置設計矩陣：
> Batch <- factor(c(1,3,4,1,3,4))> Pasilla <- factor(GEO$Pasilla,levels=c("Normal","Down"))> design <- model.matrix(~ Batch + Pasilla)
應用voom將讀數轉換為log2-cpm，並賦予相應的權重：
> v <- voom(y,design,plot=TRUE)
#線性模型：> fit <- lmFit(v, design)#檢測表達差異的外顯子> fit.de <- eBayes(fit, robust=TRUE)> topTable(fit.de, coef="PasillaDown")      GeneID Chr  Start     End Length Symbol logFC AveExpr t   P.Value adj.P.Val B150709 32007 X 10674926 10676128 1203    sesB -3.26 6.41 -32.1 4.45e-14 8.35e-10 22.3150713 32007 X 10675026 10676128 1103    sesB -3.26 6.41 -32.1 4.48e-14 8.35e-10 22.396435  43230 3R 22694960 22695852 893 BM-40-SPARC -2.47 10.50 -28.2 2.51e-13 2.61e-09 20.9150697 32008 X 10672987 10673728 742     Ant2 2.85 5.53 28.0 2.80e-13 2.61e-09 20.696434  43230 3R 22695915 22696094 180 BM-40-SPARC -2.27 8.11 -26.9 4.72e-13 3.52e-09 20.396433  43230 3R 22697648 22697717 70 BM-40-SPARC -2.17 6.27 -23.5 2.70e-12 1.46e-08 18.6107856 44030 3L 2561932 2562843 912       msn -2.46 5.12 -23.5 2.80e-12 1.46e-08 18.570750  44258 3R 5271691 5272628 938        ps -2.27 5.53 -23.1 3.38e-12 1.46e-08 18.411333  44548 2R 6407125 6408782 1658     lola 2.25 5.73 23.1 3.54e-12 1.46e-08 18.3150702 32008 X 10674230 10674694 465     Ant2 2.97 3.89 21.9 6.82e-12 2.34e-08 17.4> summary(decideTests(fit.de))      (Intercept) Batch3 Batch4 PasillaDownDown          443   5380   6070   2062NotSig       3388  26386  25184  33346Up          33427   5492   6004   1850
15.2.10  可變剪接Pasilla down與normal之間外顯子保留的差異檢測：
> ex <- diffSplice(fit[,"PasillaDown"], geneid = "GeneID", exonid = "Start")Total number of exons: 37258Total number of genes: 8192Number of genes with 1 exon: 1619Mean number of exons in a gene: 5Max number of exons in a gene: 56
顯示差異剪接的基因：
> topSplice(ex, test="simes", n=20)       GeneID Chr Symbol NExons P.Value FDR11214   44548 2R   lola 30 5.52e-32 3.63e-2895956   44448 3R  scrib 35 1.99e-20 4.41e-17141235  45320 X    trol 44 2.01e-20 4.41e-17
> topSplice(ex, test="F", n=20)        GeneID Chr Symbol NExons   F  P.Value FDR141235   45320  X    trol   44 30.87 1.93e-40 1.27e-3611214    44548 2R    lola   30 41.80 4.81e-33 1.58e-2995956    44448 3R   scrib   35 16.20 1.53e-23 3.35e-20##由於篇幅限制，這裡只顯示了top3，因為與下面的三幅圖像相關。
我們可以通過繪製所有的外顯子顯示差異最大的剪接基因：
> plotSplice(ex, geneid="lola", genecol="Symbol")
> plotSplice(ex, geneid="scrib", genecol="Symbol")
> plotSplice(ex, geneid="trol", genecol="Symbol")
我們可以看到，當Pasilla基因表達下降時，trol基因右端一個由5或6個外顯子組成的基因塊相對丟失，代價是較早的一個由12個外顯子組成的基因塊在Pasilla基因表達下降時相對高表達。基因前半部分的大多數外顯子的行為相似。

乾貨limma教程 | RNA測序數據分析案例手把手教學

相關焦點

基因測序(視頻+課件),輕鬆學會數據的處理和分析

RNA-seq的3的差異分析R包你選擇哪個

三代nanopore宏基因組測序數據分析，北京，11月7-9日

GSVA + limma進行差異通路分析

XRD與Jade學習資料合集,教程/乾貨/視頻免費分享!

RNA測序數據揭示了阿爾茨海默病的三種主要分子亞型

MDI Jade完整教程,快速玩轉XRD數據分析!

精於數據處理:自動化單細胞分析軟體——CeleScope

對轉錄組測序的counts矩陣去除批次效應

PPT教程:手把手教你高逼格的PPT動畫

基於circular RNA測序的聯合分析

手把手帶你零基礎 7 晚學會 SPSS 統計分析,搞定高分 SCI

研究解析RNA深度測序分析方法

沒見過這麼詳細的CAD實例教程手把手教學,如何畫立體齒輪

單細胞RNA測序揭示癌細胞對化學療法的多種反應機制

快速完成meta分析註冊課程上線了

non-coding RNA databases匯總

「基因組與轉錄組高通量測序應用最新技術與數據分析」高級實操...

轉錄組研究新利器:ONT直接RNA測序,鹼基修飾、轉錄異構體一網打盡!

乾貨limma教程 | RNA測序數據分析案例手把手教學

相關焦點

基因測序(視頻+課件),輕鬆學會數據的處理和分析

RNA-seq的3的差異分析R包你選擇哪個

三代nanopore宏基因組測序數據分析，北京，11月7-9日

GSVA + limma進行差異通路分析

XRD與Jade學習資料合集,教程/乾貨/視頻免費分享!

RNA測序數據揭示了阿爾茨海默病的三種主要分子亞型

MDI Jade完整教程,快速玩轉XRD數據分析!

精於數據處理:自動化單細胞分析軟體——CeleScope

對轉錄組測序的counts矩陣去除批次效應

PPT教程:手把手教你高逼格的PPT動畫

基於circular RNA測序的聯合分析

手把手帶你零基礎 7 晚學會 SPSS 統計分析,搞定高分 SCI

研究解析RNA深度測序分析方法

沒見過這麼詳細的CAD實例教程 手把手教學,如何畫立體齒輪

單細胞RNA測序揭示癌細胞對化學療法的多種反應機制

快速完成meta分析註冊課程上線了

non-coding RNA databases匯總

「基因組與轉錄組高通量測序應用最新技術與數據分析」高級實操...

轉錄組研究新利器:ONT直接RNA測序,鹼基修飾、轉錄異構體一網打盡!

沒見過這麼詳細的CAD實例教程手把手教學,如何畫立體齒輪