可變剪接(Alternative splicing;又稱「選擇性剪接」)是一種在真核生物中非常普遍的基因表達方式,具體表現為一個基因的外顯子以不同的組合方式剪接形成不同的成熟RNA,從而在不同的時空環境和狀態下形成不同的蛋白質,執行不同的生物學功能。目前許多可變剪接分析軟體主要可鑑別5種不同的可變剪接事件,分別為外顯子跳躍(skipped exon, SE),5』可變剪切位點(alternative 5′ splice site, A5SS),3』可變剪切位點(alternative 3′ splice site, A3SS),互斥外顯子(mutually exclusive exons, MXE)和內含子保留(retained intron, RI),圖示如下:
rMATS是一款利用RNA-Seq數據分析差異可變剪接的工具,它在MATS(multivariate analysis of transcript splicing)的基礎上針對有生物學重複的情況提出了新的統計模型。模型根據reads比對到不同轉錄本(是否包含選擇性剪接的外顯子)的比例來定義剪接位點的inclusion level,並用likelihood-ratio test檢驗不同組中生物學重複的平均inclusion level的差異顯著性來判定差異可變剪接。
軟體安裝
安裝軟體之前首先確認已安裝Python2.7.x及所需模塊(NumPy, BLAS, LAPACK, GSL and gfortran),在Python控制臺輸入以下命令檢查編碼類型:
>>> import sys >>> print sys.maxunicode
根據編碼類型的不同,選擇使用不同版本的rMATS:
輸出結果為1114111時,選擇rMATS-turbo-xxx-UCS4;
輸出結果為63353時,選擇rMATS-turbo-xxx-UCS2。
從下面的網址下載rMATS並解壓,根據需要選擇安裝STAR及獲取基因組的STAR索引文件。
http://rnaseq-mats.sourceforge.net/download.html
軟體使用
軟體的使用方式非常簡單,且支持兩種輸入文件格式(fastq文件和bam文件)。
(1)輸入文件為fastq文件時,需安裝STAR比對軟體並提供對應的基因組索引文件,命令如下:
RNASeq-MATS.py --s1 s1.txt --s2 s2.txt --gtf gtfFile --bi STARindexFolder -od outDir -t readType -readLength readLength [options]*
【左右滑動查看完整信息】
(2)輸入文件為bam文件時,命令如下:
RNASeq-MATS.py --b1 b1.txt --b2 b2.txt --gtf gtfFile --od outDir -t readType --nthread nthread --readLength readLength --tstat tstat [options]*
【左右滑動查看完整信息】
主要參數解釋如下:
結果解讀
根據用於計算的reads的差別,rMATS給出了兩組結果,一種結果只用到了跨越剪接位點的reads,另外一種考慮到了比對到剪接片段的所有reads,兩種結果分別以文件名中的關鍵字JC和JCEC進行標識(如AS_Event.MATS.JC.txt, AS_Event.MATS.JCEC.txt;JC.raw.input.AS_Event.txt, JCEC.raw.input.AS_Event.txt)。一般情況下,比較兩組樣品的差異可變剪接只需JC的結果。
下圖給出了一個rMATS利用前列腺癌細胞系的RNA-Seq數據進行差異可變剪接分析的示例,鑑定出的差異可變剪接事件為外顯子跳躍,分析中用到了比對到剪接位點及外顯子區的所有reads,以兩組的inclusion level差異大於5%和FDR不大於0.01為標準進行篩選。
rMATS在2017年11月更新了最新的4.0.1版本,運算速度相較之前的版本提升了100倍,軟體詳細的教程及結果說明可參考官網(http://rnaseq-mats.sourceforge.net/index.html)。
參考資料
http://www.pnas.org/content/111/51/E5593
http://rnaseq-mats.sourceforge.net/index.html