乾貨limma教程 | RNA測序數據分析案例手把手教學

2021-02-24 醫科研
15.1 約魯巴個體基因圖譜概況15.1.1 背景

這個案例由於原始數據過大,沒辦法進行原始數據預處理的朋友可以在limma包下載頁面下載已經預處理的數據,進行從15.1.6開始的統計分析。

檢測來源:不同的69約魯巴人的B淋巴細胞的細胞組,這個文庫是國際人體基因組計劃的一部分。

每個個體的RNA至少在Illumina Genome Analyser 2的兩個pannel上測量。在這個案例裡我們要尋找男性和女性的差異表達基因。這個案例研究需要limma3.9.19或以上版本。

15.1.2 數據獲取

已預處理的數據可以在http://bioinf.wehi.edu.au/limma/  下載。未處理的數據FASTQ 文件可以在下面的地址下載。

15.1.3 約魯巴個體和FASTQ文件:Pritchard Lab’s eQTL

序列信息地址:http://eqtl.uchicago.edu/RNA_Seq_data/unmapped_reads/

樣本信息地址:http://eqtl.uchicago.edu/RNA_Seqdata/list_lanes_pickrell_2010_plosgenetics

性別信息(International HapMap Project NHGRI Repository ):http://ccr.coriell.org/

我們只使用在Argonne國家實驗室的測序數據。Argonne中心的所有跑道都用46個bp讀數進行了排序。

> Targets <- read.delim("targets.txt", sep = "\t")> Targets   center           flow_cell lane individual concentration cellline gender1 argonne 090617_HGAC_S100091    5     NA18486          3.5 NA18486    Male2 argonne 090330_HGAC_S100065    3     NA18498_2        3.5 NA18498    Male3 argonne 090218_HGAC_S100047_PIPELINE_V2 7 NA18498     2.5 NA18498    Male#共有86個樣本,這裡只列出3個作為參考。

15.1.4 將reads與基因組對應

需要下載的文件:

基因組:GRCh37 (hg19 Genome Reference Consortium Human Build 37)

read 注釋文件:NCBI RefSeq Build 37.2. FASTA files。從UCSC Human Genome 的網址下載:http://hgdownload.soe.ucsc.edu/goldenPath/hg19/

> library(Rsubread)> FASTQFiles <- paste0(Targets$individual, "_", Targets$center, ".fastq.gz")> BAMFiles <- paste0(Targets$individual, "_", Targets$center, ".subread.bam")> buildindex(basename="hg19_subread",reference="GRCh37.fa")> align("hg19_subread", readfile1 = FASTQFiles, input_format = "gzFASTQ", output_file = BAMFiles)> gene <- featureCounts(BAMFiles, useMetaFeatures=TRUE, annot.inbuilt="hg19", allowMultiOverlap=TRUE)> propmap <- propmapped(BAMFiles)
##顯示對得上的reads數目,它的平均佔比是0.786。樣本用測序的cDNA的濃度進行排序。> summary(propmap[,"PropMapped"])Min. 1st Qu. Median Mean 3rd Qu. Max.0.597 0.778 0.798 0.786 0.810 0.828
> Targets$concentration <- factor(Targets$concentration)> o <- order(Targets$concentration)> barplot(as.matrix(t(cbind(propmap[o,"NumMapped"]*1e-6,+ (propmap[o,"NumTotal"]-propmap[o,"NumMapped"])*1e-6))),+ ylab="Number of Reads (millions)", names = Targets$individual[o],+ las=3, cex.names=0.3, cex.axis=0.7, density = c(80,0),+ legend = c("Number of Mapped Reads", "Number of Unmapped Reads"),+ args.legend = list(x = "topright",cex = 0.5, bty = "n"))

加載基因水平計數

> Counts <- gene$counts> dim(Counts)[1] 25702 86> Counts[1:5,1:5]       NA18486 NA18498_2 NA18498 NA18499 NA18501653635     12      8       19      17       5100422834   0      0        0       0       0645520      0      0        0       0       079501       0      0        0       0       0729737      6      6        2       6       4

文庫的大小從60多萬到900多萬不等。樣品按用於測序的cDNA (pM)濃度排序。

> col.concent <- c("gold" , "orange", "red")> barplot(colSums(Counts[,o])*1e-6, names = Targets$individual[o], ylab="Library size (millions)",+ col = col.concent[Targets$concentration][o], las = 2, cex.names = 0.3)> legend("topleft", legend = c("1.5","2.5","3.5"), col = col.concent, pch = 15, cex = 0.7)

為了在RNA-seq數據上運用limma,我們將比較女性和男性個體。

> table(Targets$gender[!duplicated(Targets$cellline)])Female Male41 33

15.1.5  注釋

注釋的Entrez Gene ID來自NCBI gene info file.

> library(limma)> columns <- c("GeneID","Symbol", "chromosome", "type_of_gene")> GeneInfo <- read.columns("130811-Homo_sapiens.gene_info",required=columns, stringsAsFactors = FALSE)> m <- match(gene$annotation$GeneID, GeneInfo$GeneID)> Ann <- cbind(gene$annotation[, c("GeneID", "Chr", "Length")],+ GeneInfo[m, c("Symbol", "type_of_gene")])> Ann$Chr <- unlist(lapply(strsplit(Ann$Chr, ";"), function(x) paste(unique(x), collapse = "|")))> Ann$Chr <- gsub("chr", "", Ann$Chr)> head(Ann)        GeneID Chr Length Symbol type_of_gene28373    653635 1     1769 WASH7P pseudo37837 100422834 1     138 MIR1302-10 miscRNA27617    645520 1     1130 FAM138A miscRNA14957     79501 1      918 OR4F5 protein-coding29525    729737 1     3402 LOC729737 miscRNANA    100507658 1      793 <NA> <NA>

15.1.6 DGEList 對象

創建DGEList對象,把計數和相關的注釋結合起來:

> library(edgeR)> y <- DGEList(counts = Counts, genes = Ann)

15.1.7 過濾
##保留總計數大於50的基因:> A <- rowSums(y$counts)> isexpr <- A > 50##保留有注釋信息的基因> hasannot <- rowSums(is.na(y$genes)) == 0> y <- y[isexpr & hasannot, , keep.lib.size = FALSE]> dim(y)[1] 16918 86

15.1.8 Scale標準化:
> y <- calcNormFactors(y)##畫下MDS圖,圖像上更清晰地看到男性和女性的文庫區別> Gender <- substring(Targets$gender,1,1)> plotMDS(y, labels=Gender, top=50, col=ifelse(Gender=="M","blue","red"), gene.selection="common",+ prior.count = 5)

從MDS圖中可以明顯看出低cDNA濃度和高cDNA濃度的分離。

> plotMDS(y, labels=Gender, col=col.concent[Targets$concentration], prior.count=5)> legend("topleft", legend = c("1.5","2.5","3.5"), col = col.concent, pch = 15)

15.1.9 線性模型
##設計設計矩陣> design <- model.matrix(~ gender + concentration, data = Targets)##用voom()函數將read讀書轉換為log2-cpm,以及相應的權重,為後續線性模型服務。> v <- voom(y, design)##估計重複的細胞系之間的相關性,這些細胞系被多次測序> cor <- duplicateCorrelation(v, design, block = Targets$cellline)> cor$consensus[1] 0.446##細胞系內的相關性會略微改變voom的權重,所以我們再次運行voom:> v <- voom(y, design, plot = TRUE, block = Targets$cellline, correlation = cor$consensus)

同樣,我們更新voom權重的相關性

> cor <- duplicateCorrelation(v, design, block = Targets$cellline)> cor$consensus[1] 0.446

可以看到,在第二次迭代中,相關性幾乎沒有改變。

現在尋找基因在男性和女性之間的差異表達。正對數變化意味著男性更高。

> fit <- lmFit(v, design, block = Targets$cellline, correlation = cor$consensus)> fit <- eBayes(fit)> summary(decideTests(fit))(Intercept) genderMale concentration2.5 concentration3.5Down 1464 27 1469 4105NotSig 3352 16869 13622 9704Up 12102 22 1827 3109> topTable(fit, coef = "genderMale", n = Inf, sort = "p", p = 0.05)[,-1]Chr Length Symbol type_of_gene logFC AveExpr t P.Value adj.P.Val B64595 Y 5242 TTTY15 miscRNA 6.529 -0.258 52.97 3.63e-68 6.14e-64 123.9836192 Y 897 RPS4Y1 protein-coding 9.691 2.224 44.08 1.91e-61 1.62e-57 117.2159086 Y 1390 EIF1AY protein-coding 7.962 0.659 42.44 4.52e-60 2.55e-56 113.6618284 Y 5581 KDM5D protein-coding 7.148 2.566 41.47 3.08e-59 1.30e-55 115.8028653 Y 4795 DDX3Y protein-coding 6.439 3.547 39.30 2.68e-57 9.08e-54 114.1557503 X 19271 XIST miscRNA -10.223 4.135 -37.53 1.20e-55 3.37e-52 107.001##結果過多,不一一列舉

和預期的一樣,高表達的基因存在於性染色體上:

> chrom <- fit$genes$Chr> plotMD(fit, column=2, status=chrom, values=c("X","Y", "X|Y"),+ hl.col=c("red","blue", "green3"), main="Male vs Female",legend="bottomright")> abline(h=0,col="darkgrey")

15.1.10 基因子集檢測

獲取Y染色體男性特異性區域的基因列表,以及X染色體上據報導可以逃脫X抑制活性的基因列表。性染色體基因文件網址:http://bioinf.wehi.edu.au/software/GenderGenes/.  我們認為第一個列表中的基因在男性中應該是上調的,而第二個列表中的基因在女性中應該是上調的。

> load(url("http://bioinf.wehi.edu.au/software/GenderGenes/GenderGenes.RData"))> Ymale <- v$genes$GeneID %in% msYgenes> Xescape <- v$genes$GeneID %in% XiEgenes

Roast基因組測試證實,在我們對男性和女性的比較中,男性特異性基因作為一個組顯著上升,而X基因作為一個組顯著下降:

> index <- list(Y = Ymale, X = Xescape)> mroast(v,index,design,2, block = Targets$cellline, correlation = cor$consensus, nrot=9999) NGenes PropDown PropUp Direction PValue FDR PValue.Mixed FDR.MixedY    13    0.000 1.0000        Up  1e-04 1e-04      1e-04     1e-04X    54    0.574 0.0926      Down  1e-04 1e-04      1e-04     1e-04

來自競爭性camera基因組測試的結果甚至更有說服力:

> camera(v,index,design,2)NGenes Direction PValue FDRY 13 Up 2.40e-262 4.80e-262X 54 Down 5.58e-26 5.58e-26

我們可以在均值差圖上突出男性特異性基因和x逃逸基因:

> status <- rep("Other",nrow(fit))> status[Ymale] <- "Ymale"> status[Xescape] <- "Xescape"> plotMD(fit,column=2,status=status,values=c("Xescape","Ymale"),hl.col=c("red","blue"),+ main="Male vs Female",legend="bottomright")> abline(h=0,col="darkgrey")

另一種查看基因的方式是查看Y和X特定基因在差異表達結果中的排名。這表明,除了少數例外,Y特異性基因的排位較高(陽性),而X特異性基因的排位較低(陰性):

> barcodeplot(fit$t[,2],Ymale,Xescape, labels=c("Up in male","Down in male"))> legend("top",legend=c("Ymale genes","Xescape genes"),lty=1,col=c("red","blue"))

15.2  Pasilla敲除後的不同剪接15.2.1這個案例研究重新分析了Brooks等人的數據。

NOVA1和NOVA2蛋白是已知的調節哺乳動物剪接的蛋白。Brooks等以melanogaster果蠅為模型系統,利用RNA幹擾系統(RNA interference system, RNAi)敲除NOVA1和NOVA2的D. melanogaster or同源物表達,即Pasilla (ps)。實驗比較了經過處理和未經處理的S2-DRSC細胞系細胞。

在本例研究中,我們發現了在ps敲除後表達差異的外顯子和基因,我們發現敲除後的樣品與野生型相比,存在基因剪接差異。

為了完整起見,我們將描述從原始數據文件進行分析的所有步驟,包括映射和對齊。如果您想跳過映射並讀數步驟,請直接進入18.2.6節,即統計分析開始的地方。

15.2.2 GEO樣本和SRA文件

GEO:http://www.ncbi.nlm.nih.gov/geo.(6個RNA來源),GSE18508(從原文獻中查到GSE號)為csv文件:

> library(limma)> GEO <- readTargets("GEO-samples.csv", sep=",")> GEO        GEO               Title Pasilla1 GSM461176 S2_DRSC_Untreated-1 Normal2 GSM461177 S2_DRSC_Untreated-3 Normal3 GSM461178 S2_DRSC_Untreated-4 Normal4 GSM461179 S2_DRSC_CG8144_RNAi-1 Down5 GSM461180 S2_DRSC_CG8144_RNAi-3 Down6 GSM461181 S2_DRSC_CG8144_RNAi-4 Down

有三種未經處理的生物樣品,其中ps應在正常水平上表達,三種經過處理的生物樣品,其中ps應在表達低水平。

當GEO記錄樣本信息時,序列數據文件實際上保存在NCBI短讀存檔文件(SRA)中。RNA樣本在Illumina基因組分析儀II上進行測序。其中幾個樣本使用了多次測序,共得到20個SRA文件:

> SRA <- readTargets("SRA-Files.csv", sep=",")> SRA        SRA       GEO               Title RunDate FlowCellID Type ReadLength1 SRR031708 GSM461176 S2_DRSC_Untreated-1 7/15/08 308T2AAXX    SE 452 SRR031709 GSM461176 S2_DRSC_Untreated-1 7/15/08 308T2AAXX    SE 453 SRR031710 GSM461176 S2_DRSC_Untreated-1 8/15/08 30AYWAAXX    SE 454 SRR031711 GSM461176 S2_DRSC_Untreated-1 8/15/08 30AYWAAXX    SE 455 SRR031712 GSM461176 S2_DRSC_Untreated-1 8/15/08 30AYWAAXX    SE 456 SRR031713 GSM461176 S2_DRSC_Untreated-1 8/15/08 30AYWAAXX    SE 457 SRR031714 GSM461177 S2_DRSC_Untreated-3 11/14/08 30MNEAAXX   PE 378 SRR031715 GSM461177 S2_DRSC_Untreated-3 12/23/08 30M2BAAXX   PE 379 SRR031716 GSM461178 S2_DRSC_Untreated-4 12/23/08 30M2BAAXX   PE 3710 SRR031717 GSM461178 S2_DRSC_Untreated-4 12/23/08 30M2BAAXX  PE 3711 SRR031718 GSM461179 S2_DRSC_CG8144_RNAi-1 7/15/08 308T2AAXX SE 4512 SRR031719 GSM461179 S2_DRSC_CG8144_RNAi-1 7/18/08 308UEAAXX SE 4513 SRR031720 GSM461179 S2_DRSC_CG8144_RNAi-1 8/15/08 30AYWAAXX SE 4514 SRR031721 GSM461179 S2_DRSC_CG8144_RNAi-1 8/15/08 30AYWAAXX SE 4515 SRR031722 GSM461179 S2_DRSC_CG8144_RNAi-1 8/15/08 30AYWAAXX SE 4516 SRR031723 GSM461179 S2_DRSC_CG8144_RNAi-1 8/21/08 308A0AAXX SE 4517 SRR031724 GSM461180 S2_DRSC_CG8144_RNAi-3 12/23/08 30M2BAAXX PE 3718 SRR031725 GSM461180 S2_DRSC_CG8144_RNAi-3 12/23/08 30M2BAAXX PE 3719 SRR031726 GSM461181 S2_DRSC_CG8144_RNAi-4 12/23/08 30M2BAAXX PE 3720 SRR031727 GSM461181 S2_DRSC_CG8144_RNAi-4 12/23/08 30M2BAAXX PE 37##所有在2008年7月和8月進行的測序都使用單端(SE)測序,其鹼基對讀數為45,而後期的測序使用雙端(PE)測序,其鹼基對讀數為37 bp。

15.2.3  將reads映射到參照基因組

利用Rsubread將reads映射到參考D. melanogaster的基因組:

首先,SRA格式文件需要轉換成FASTQ格式,這是表示高通量測序數據的實際標準。這是使用SRA Toolkit 2.3.4版完成的。具體來說,Unix SRA工具包命令fastq-dump --split-spot --split-files  用於為每個單端SRA文件生成一個FASTQ文件,為每個雙端SRA文件生成兩個FASTQ文件。

第二,代表D.melanogaster的基因組的FASTA文件是從ftp://ftp.ncbi.nlm.nih.gov/genomes/Drosophila_melanogaster/RELEASE_5_48  下載的。染色體臂對應五個FASTA文件:

> DM <- readTargets("FASTA-GFF-files.csv",sep=",")> DM                FASTA                 GFF Chromosome1 CHR_2/NT_033778.fna CHR_2/NT_033778.gff Chr2R2 CHR_2/NT_033779.fna CHR_2/NT_033779.gff Chr2L3 CHR_3/NT_033777.fna CHR_3/NT_033777.gff Chr3R4 CHR_3/NT_037436.fna CHR_3/NT_037436.gff Chr3L5 CHR_4/NC_004353.fna CHR_4/NC_004353.gff Chr46 CHR_X/NC_004354.fna CHR_X/NC_004354.gff ChrX

五個*.fna文件被連接到一個單獨的fasta格式文件Drosophila ref.fasta中,並使用Rsubread構建一個索引文件。

> library(Rsubread)> buildindex(basename="index",reference="Drosophila_ref.fasta")

第三,reads與基因組對齊。用下面命令映射SE讀數:

> align("index",SE_fastq_files,input_format="FASTQ")

其中,SE fastq文件是一個包含SE fastq文件名稱的字符向量。映射PE讀數:

> align("index",PE_fastq_files1,PE_fastq_files2,input_format="FASTQ")

其中,PE fastq files1和PE fastq files2是包含PE fastq文件名稱的向量。這些命令生成包含對齊讀數(SE)或片段(PE)的BAM文件。

15.2.4  讀取外顯子計數

接下來,我們計算每個基因的注釋外顯子重疊的讀數或片段數。包含基因和外顯子注釋的GFF文件從ftp://ftp.ncbi.nlm.nih. gov/genomes/Drosophila_melanogaster/RELEASE_5_48下載。每個染色體臂都有一個GFF文件,如上所示。

五個*.gff文件連接到一個文件中,並刪除相同外顯子的重複外顯子實例(相同的開始和停止位置),以創建一個名為unique.gff的開始/停止位置的數據。SE讀數由下面命令進行計數:

> fc_SE <- featureCounts(SE_bam_files, annot.ext="unique.gff",+ isGTFAnnotationFile=TRUE,+ GTF.featureType="exon", GTF.attrType="ID",+ useMetaFeatures=FALSE, allowMultiOverlap=TRUE)

SE bam files  是SE讀數名稱的bam文件的向量。PE bam files  是PE讀數名稱的bam文件的向量。PE讀數由下面命令進行計數:

> fc_PE <- featureCounts(PE_bam_files, annot.ext="unique.gff",+ isGTFAnnotationFile=TRUE,+ GTF.featureType="exon", GTF.attrType="ID",+ useMetaFeatures=FALSE, allowMultiOverlap=TRUE,+ isPairedEnd=TRUE)

15.2.5 匯總DGEList和計數技術重複的總數
#匯總到edgeR DGEList對象> library(edgeR)> y.all <- DGEList(counts=cbind(fc_SE$counts,fc_PE$counts), genes=fc_SE$annotation)> dim(y.all)[1] 74184 20> head(y.all$genes      GeneID         Chr Start     End Strand Length138088 30970 NC_004354.3 138094 139379 - 1286138087 30970 NC_004354.3 139445 139611 - 167138089 30970 NC_004354.3 139445 139889 - 445138086 30970 NC_004354.3 139713 139889 - 177138091 30971 NC_004354.3 140011 141629 + 1619138092 30971 NC_004354.3 142415 144271 + 1857

該注釋包括Entrez ID和每個外顯子的長度、染色體和起始、終止位置。回存到原始SRA的順序:

> y.all <- y.all[,SRA$SRA]

然後我們通過將計數重複和計數相加把數據摺疊起來,這樣每個GEO樣本就有一個單獨的列:

> y <- sumTechReps(y.all, ID=SRA$GEO)> y$samples         group lib.size norm.factorsGSM461176    1 31007529            1GSM461177    1 13040952            1GSM461178    1 15030819            1GSM461179    1 28143539            1GSM461180    1 14901292            1GSM461181    1 16264066            1> colnames(y) <- c("N1","N3","N4","D1","D3","D4")

15.2.6 基因注釋

果蠅的基因注釋文件:ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/GENE_INFO/Invertebrates

現在,我們將選中的注釋列添加到DGEList對象中:

``

> ncbi.L1 <- readLines("Drosophila_melanogaster.gene_info", n = 1)> ncbi.colname <- unlist(strsplit(substring(ncbi.L1, 10, 234), 』 』))> ncbi <- read.delim("Drosophila_melanogaster.gene_info",+ skip=1, header=FALSE, stringsAsFactors=FALSE)> colnames(ncbi) <- ncbi.colname> m <- match(y$genes$GeneID, ncbi$GeneID)> y$genes$Chr <- ncbi$chromosome[m]> y$genes$Symbol <- ncbi$Symbol[m]> y$genes$Strand <- NULL> head(y$genes)       GeneID Chr Start    End Length Symbol138088   30970 X 138094 139379 1286   CG3038138087   30970 X 139445 139611 167    CG3038138089   30970 X 139445 139889 445    CG3038138086   30970 X 139713 139889 177    CG3038138091   30971 X 140011 141629 1619      G9a138092   30971 X 142415 144271 1857       G9a

15.2.7 過濾

保留至少3個樣本中有超過1個cpm的外顯子。

> isexpr <- rowSums(cpm(y) > 1) >=3> y <- y[isexpr,,keep.lib.sizes=FALSE]

15.2.8 Scale 標準化

應用TMM標準化

> y <- calcNormFactors(y)> y$sample   group lib.size norm.factorsN1     1 30872843 0.955N3     1 12962245 1.031N4     1 14908555 0.976D1     1 27989806 1.005D3     1 14760887 1.022D4     1 16172265 1.014

MDS圖顯示了Pasilla down與正常樣本的明顯分離,但也顯示了與測序類型和日期相關的批次效應:

15.2.9 線性模型

設置設計矩陣:

> Batch <- factor(c(1,3,4,1,3,4))> Pasilla <- factor(GEO$Pasilla,levels=c("Normal","Down"))> design <- model.matrix(~ Batch + Pasilla)

應用voom將讀數轉換為log2-cpm,並賦予相應的權重:

> v <- voom(y,design,plot=TRUE)

#線性模型:> fit <- lmFit(v, design)#檢測表達差異的外顯子> fit.de <- eBayes(fit, robust=TRUE)> topTable(fit.de, coef="PasillaDown")      GeneID Chr  Start     End Length Symbol logFC AveExpr t   P.Value adj.P.Val B150709 32007 X 10674926 10676128 1203    sesB -3.26 6.41 -32.1 4.45e-14 8.35e-10 22.3150713 32007 X 10675026 10676128 1103    sesB -3.26 6.41 -32.1 4.48e-14 8.35e-10 22.396435  43230 3R 22694960 22695852 893 BM-40-SPARC -2.47 10.50 -28.2 2.51e-13 2.61e-09 20.9150697 32008 X 10672987 10673728 742     Ant2 2.85 5.53 28.0 2.80e-13 2.61e-09 20.696434  43230 3R 22695915 22696094 180 BM-40-SPARC -2.27 8.11 -26.9 4.72e-13 3.52e-09 20.396433  43230 3R 22697648 22697717 70 BM-40-SPARC -2.17 6.27 -23.5 2.70e-12 1.46e-08 18.6107856 44030 3L 2561932 2562843 912       msn -2.46 5.12 -23.5 2.80e-12 1.46e-08 18.570750  44258 3R 5271691 5272628 938        ps -2.27 5.53 -23.1 3.38e-12 1.46e-08 18.411333  44548 2R 6407125 6408782 1658     lola 2.25 5.73 23.1 3.54e-12 1.46e-08 18.3150702 32008 X 10674230 10674694 465     Ant2 2.97 3.89 21.9 6.82e-12 2.34e-08 17.4> summary(decideTests(fit.de))      (Intercept) Batch3 Batch4 PasillaDownDown          443   5380   6070   2062NotSig       3388  26386  25184  33346Up          33427   5492   6004   1850

15.2.10  可變剪接

Pasilla down與normal之間外顯子保留的差異檢測:

> ex <- diffSplice(fit[,"PasillaDown"], geneid = "GeneID", exonid = "Start")Total number of exons: 37258Total number of genes: 8192Number of genes with 1 exon: 1619Mean number of exons in a gene: 5Max number of exons in a gene: 56

顯示差異剪接的基因:

> topSplice(ex, test="simes", n=20)       GeneID Chr Symbol NExons P.Value FDR11214   44548 2R   lola 30 5.52e-32 3.63e-2895956   44448 3R  scrib 35 1.99e-20 4.41e-17141235  45320 X    trol 44 2.01e-20 4.41e-17
> topSplice(ex, test="F", n=20) GeneID Chr Symbol NExons F P.Value FDR141235 45320 X trol 44 30.87 1.93e-40 1.27e-3611214 44548 2R lola 30 41.80 4.81e-33 1.58e-2995956 44448 3R scrib 35 16.20 1.53e-23 3.35e-20##由於篇幅限制,這裡只顯示了top3,因為與下面的三幅圖像相關。

我們可以通過繪製所有的外顯子顯示差異最大的剪接基因:

> plotSplice(ex, geneid="lola", genecol="Symbol")

> plotSplice(ex, geneid="scrib", genecol="Symbol")

> plotSplice(ex, geneid="trol", genecol="Symbol")

我們可以看到,當Pasilla基因表達下降時,trol基因右端一個由5或6個外顯子組成的基因塊相對丟失,代價是較早的一個由12個外顯子組成的基因塊在Pasilla基因表達下降時相對高表達。基因前半部分的大多數外顯子的行為相似。

相關焦點

  • 基因測序(視頻+課件),輕鬆學會數據的處理和分析
    因為,你只有真正了解數據是如何來的,才能更好地明白數據該如何處理和分析,以及如何才能有效地挖掘出它背後隱含的生物知識。4、宋述慧=第二代RNA-Seq數據分析理論及上機5、周曉光-第二代測序技術6、陳飛老師核酸檢測及診斷技術7、胡松年老師:基因轉錄組的測定及分析8、胡松年老師:基因組文章構成分析9、Acupuncture for Chronic Pain基因組學與蛋白質組學1、微生物基因組學
  • RNA-seq的3的差異分析R包你選擇哪個
    直到現在(2020),基於高通量測序技術的RNA-Seq方法仍然是轉錄組學研究中必不可少的工具。截止到(2016)已經普遍接受的是,標準化預處理步驟可以顯著提高分析質量,特別是對於差異基因表達分析而言。然而,彼時尚未找到金標準歸一化方法。
  • 三代nanopore宏基因組測序數據分析,北京,11月7-9日
    本期主題圍繞「nanopore宏基因組測序數據分析」,nanopore測序實時,快速,便攜,長度長,高通量等諸多特點,特別適合微生物研究。在新冠病毒研究以及後續病毒溯源方面都會有重要的應用。以完整項目為案例,通過親自上手操作,快速掌握技能;4、從建庫到上機,數據分析完,一次學習,完成病原微生物鑑定整套流程。
  • GSVA + limma進行差異通路分析
    一般我們做GSEA都是先進行差異基因分析,然後取差異倍數排序結果進行GSEA
  • XRD與Jade學習資料合集,教程/乾貨/視頻免費分享!
    XRD應用廣泛,除一般物相分析外,還可以進行單晶分析、結構分析、測定微晶尺寸、宏觀及微觀應力等。為幫助各位小夥伴快速get這些技能,小編搜遍全網,傾心整理了這份XRD乾貨合集,結合Jade分析資料,助你快速成為XRD大神。
  • RNA測序數據揭示了阿爾茨海默病的三種主要分子亞型
    赴美治療服務機構和生元國際了解到,西奈山伊坎醫學院的研究人員利用RNA測序數據確定了阿爾茨海默病(AD)的三種主要分子亞型。這項研究有助於我們理解AD的發病機制,並為開發新的、個性化的治療方法鋪平道路。
  • MDI Jade完整教程,快速玩轉XRD數據分析!
    5、Photoshop安裝軟體+視頻教程+PDF教程詳細信息公眾號回覆:PS安裝軟體:PS 2015/2017/2018/2019;視頻教程:初級教程+中級教程+高級教程+案例教程+PS科研繪圖教程;PDF教程:設計電子書+模板+插件6、國自然等申請輔助資料
  • 精於數據處理:自動化單細胞分析軟體——CeleScope
    你是否還在為單細胞數據分析而發愁?是否還在為重新學習各種分析軟體而苦惱?今天給大家介紹一個單細胞數據分析軟體——CeleScope™,簡單易上手,結果準確可靠,讓你的研究更進一步!CeleScope™是一系列用於分析新格元GEXSCOPE®單細胞測序數據的生物信息流程。可從二代測序下機的原始fastq數據開始處理,包含數據拆分、比對、定量、生成表達矩陣、分群等功能。
  • 對轉錄組測序的counts矩陣去除批次效應
    RNA-seq我們在生信技能樹應該是至少推出了400篇教程,而且是我們全國巡講的標準品知識點,其中還有一個閱讀量過兩萬的綜述翻譯及其細節知識點的補充:相信大家聽完了我B站的RNA-seq分析流程後,對這個數據的應用方向都不陌生。
  • PPT教程:手把手教你高逼格的PPT動畫
    原標題:PPT教程:手把手教你高逼格的PPT動畫 今天河南中公優就業IT培訓小編給大家分享的是一個比賽用的PPT,為了說明水浮蓮(水葫蘆)對水域的汙染十分嚴重,其中一頁PPT裡展示了一組數據
  • 基於circular RNA測序的聯合分析
    百邁客circRNA測序採用Epicentre Ribo-ZeroTM試劑盒去除樣本中的rRNA,對富集到的 RNA進行文庫構建、測序並利用測序數據進行circRNA的鑑定、特徵分析、表達分析和其miRNA結合位點分析,結合miRNA數據,可對circRNA功能有更深入了解。
  • 手把手帶你零基礎 7 晚學會 SPSS 統計分析,搞定高分 SCI
    ,比如:  有些基礎性概念會理解偏差,甚至搞不清楚哪寫數據應該用哪些方法;  有的時候甚至自己也會混淆單樣本 t 檢驗與兩獨立樣品 t 檢驗;  在面對數據關係分析的時候,就連以前學過的最簡單的 Person 相關性分析也會出現紕漏;  SPSS 軟體摸索不明白,輸出的圖標怎麼才符合投稿要求  ......
  • 研究解析RNA深度測序分析方法
    RNA測序也是分析同一基因的基因亞型的有效方法,這種分析方法需要一些修訂模型,尤其是當RNA序列數據不是均勻分布的時候,最新這篇文章中就提出了一種non-URD(N-URD)模型,可以用於推斷亞型表達水平,研究人員通過一系列的系統模擬研究,證明了這種模型超越了原始模型,能恢復主要亞型,分析可變亞型的表達比率。
  • 沒見過這麼詳細的CAD實例教程 手把手教學,如何畫立體齒輪
    但「傳統手藝」還是不能丟的,今天就帶來一期CAD實例教程,手把手的教學,如何畫一個立體齒輪。CAD版本:中望CAD 2020專業版1、先畫兩條中心線作基本校準(後來才發現用實線會比較好)。
  • 單細胞RNA測序揭示癌細胞對化學療法的多種反應機制
    應用單細胞技術李指出,單細胞分析經常被科學家們比作「水果冰沙」。有很多研究檢測了一組細胞中的特徵或反應,而其中往往有某些單細胞對整體影響很大,就如冰沙中的水果。這樣的檢測可以提供有用的信息,但也會掩蓋單個細胞之間的異質性,而單細胞技術可以讓這些細胞個體的異質性被梳理出來。
  • 快速完成meta分析註冊課程上線了
    隨著時代的發展,meta分析越來越規範,現在越來越多的期刊要求meta分析進行註冊才能發表。Meta分析註冊有以下的好處:   1.將課題進行記錄以及方法學的評價   2.防止作者因某種原因改變原方案,減少選擇性報導   3.有利於陰性結果的meta分析的發表,能在一定程度上減少發表偏倚   4.避免課題撞車
  • non-coding RNA databases匯總
    21世紀初期,通過對人類和小鼠基因組分析發現,98%的序列被劃分到「junk「 DNA之列,除被注釋的mRNA之外,大多收轉錄本似乎是不能encode蛋白質的,而這些轉錄本便是ncRNA, ncRNA因此也正式進入科學家的視野。隨著測序技術的發展與計算生物學的興起,使得人們對RNA領域的理解越來越深入,ncRNA領域也越發火熱。ncRNA參與了大多數生物學過程,調節生理,發育甚至疾病。
  • 「基因組與轉錄組高通量測序應用最新技術與數據分析」高級實操...
    關於舉辦「基因組與轉錄組高通量測序應用最新技術與數據分析由此不斷產生出巨量的分子生物學數據,這些數據有著數量巨大、關係複雜的特點,以至於不利用計算機根本無法實現數據的存儲和分析。隨著生物信息學作為新興學科迅速蓬勃發展,正在改變人們研究生物醫學的傳統方式,高通量測序技術以及數據分析技術已成為探索生物學底層機制和研究人類複雜疾病診斷、治療及預後的重要工具,廣泛應用於生命科學各個領域,是21世紀生命科學與生物技術的重要戰略前沿和主要突破口。
  • 轉錄組研究新利器:ONT直接RNA測序,鹼基修飾、轉錄異構體一網打盡!
    長讀長cDNA測序方法能夠產生跨越整個異構體的全長轉錄本序列,從而去除或大幅度減少模糊定位,並改進差異異構表達的分析結果。然而,以上方法依賴於cDNA的合成及PCR擴增,去除了天然RNA的鹼基修飾信息,並且只能粗略地估計多聚腺苷酸(poly(A))尾長。