差異可變剪接分析工具--rMATS

2021-01-08 百邁客雲

可變剪接(Alternative splicing;又稱「選擇性剪接」)是一種在真核生物中非常普遍的基因表達方式,具體表現為一個基因的外顯子以不同的組合方式剪接形成不同的成熟RNA,從而在不同的時空環境和狀態下形成不同的蛋白質,執行不同的生物學功能。目前許多可變剪接分析軟體主要可鑑別5種不同的可變剪接事件,分別為外顯子跳躍(skipped exon, SE),5』可變剪切位點(alternative 5′ splice site, A5SS),3』可變剪切位點(alternative 3′ splice site, A3SS),互斥外顯子(mutually exclusive exons, MXE)和內含子保留(retained intron, RI),圖示如下:

rMATS是一款利用RNA-Seq數據分析差異可變剪接的工具,它在MATS(multivariate analysis of transcript splicing)的基礎上針對有生物學重複的情況提出了新的統計模型。模型根據reads比對到不同轉錄本(是否包含選擇性剪接的外顯子)的比例來定義剪接位點的inclusion level,並用likelihood-ratio test檢驗不同組中生物學重複的平均inclusion level的差異顯著性來判定差異可變剪接。

軟體安裝

安裝軟體之前首先確認已安裝Python2.7.x及所需模塊(NumPy, BLAS, LAPACK, GSL and gfortran),在Python控制臺輸入以下命令檢查編碼類型:

>>> import sys >>> print sys.maxunicode

根據編碼類型的不同,選擇使用不同版本的rMATS:

輸出結果為1114111時,選擇rMATS-turbo-xxx-UCS4;

輸出結果為63353時,選擇rMATS-turbo-xxx-UCS2。

從下面的網址下載rMATS並解壓,根據需要選擇安裝STAR及獲取基因組的STAR索引文件。

http://rnaseq-mats.sourceforge.net/download.html

軟體使用

軟體的使用方式非常簡單,且支持兩種輸入文件格式(fastq文件和bam文件)。

(1)輸入文件為fastq文件時,需安裝STAR比對軟體並提供對應的基因組索引文件,命令如下:

RNASeq-MATS.py --s1 s1.txt --s2 s2.txt --gtf gtfFile --bi STARindexFolder -od outDir -t readType -readLength readLength [options]*

【左右滑動查看完整信息】

(2)輸入文件為bam文件時,命令如下:

RNASeq-MATS.py --b1 b1.txt --b2 b2.txt --gtf gtfFile --od outDir -t readType --nthread nthread --readLength readLength --tstat tstat [options]*

【左右滑動查看完整信息】

主要參數解釋如下:

結果解讀

根據用於計算的reads的差別,rMATS給出了兩組結果,一種結果只用到了跨越剪接位點的reads,另外一種考慮到了比對到剪接片段的所有reads,兩種結果分別以文件名中的關鍵字JC和JCEC進行標識(如AS_Event.MATS.JC.txt, AS_Event.MATS.JCEC.txt;JC.raw.input.AS_Event.txt, JCEC.raw.input.AS_Event.txt)。一般情況下,比較兩組樣品的差異可變剪接只需JC的結果。

下圖給出了一個rMATS利用前列腺癌細胞系的RNA-Seq數據進行差異可變剪接分析的示例,鑑定出的差異可變剪接事件為外顯子跳躍,分析中用到了比對到剪接位點及外顯子區的所有reads,以兩組的inclusion level差異大於5%和FDR不大於0.01為標準進行篩選。

rMATS在2017年11月更新了最新的4.0.1版本,運算速度相較之前的版本提升了100倍,軟體詳細的教程及結果說明可參考官網(http://rnaseq-mats.sourceforge.net/index.html)。

參考資料

http://www.pnas.org/content/111/51/E5593

http://rnaseq-mats.sourceforge.net/index.html

相關焦點

  • 轉錄組專題-可變剪接
    1.基於EST(表達序列標籤)數據可以發現新的可變剪切位點,準確程度依賴於EST序列數據的質量,並且對於結果還要進行生物學的分析驗證。3.基於新一代測序技術RNA-seq   定量更準確、可重複性更高、檢測範圍更廣、分析更可靠。轉錄組高通量測序對於研究可變剪切和它的調節來說是一個強而有力的實驗工具,但是同時必須要有特殊的分析方法和工具。
  • .| 惠靜毅團隊揭示RNA結合蛋白QKI調控肺癌關鍵可變剪接事件
    RNA的可變剪接是一種被大家廣泛接受的增加基因組多樣性的機制。越來越多的研究發現,在腫瘤細胞中,mRNA 可變剪接發生顯著變化,並在腫瘤的發生發展中發揮重要作用(Song et al., 2018)。然而,一直困擾我們的問題是如何在眾多腫瘤相關的可變剪接事件中有效地發現並鑑定發揮關鍵作用的靶基因。
  • CircPlant:植物環狀RNA整合分析工具
    我們的「要文譯薦」欄目很高興邀請到論文的第一作者張霈婧博士親自為大家解讀CircPlant這個植物環狀RNA整合分析工具。要點介紹研究問題增強植物環狀RNA識別的有效性解決方案提出植物環狀RNA特異性識別工具CircPlant實現方式針對植物circRNA剪接信號和可變剪接位點等問題,整合植物環狀
  • RNA-seq差異表達分析步驟
    BioNews,專注於報導生命科學領域相關新聞,長按下方二維碼即可關注"BioNews"(id : iBioNews)我們將簡要描述差異表達分析的主要步驟分析每一步,我們都會描述分析目的,一些典型的選項,輸入和輸出的文件,並指出可以找到詳細步驟的完整章節。我們希望提供整個RNA-seq數據分析流程的概述,以便使用者可以看到各個步驟間是如何相互關聯的。
  • 研究發現RNA剪接基因編輯的新方法
    證明可以利用TAM (Targeted-AID induced mutagenesis)基因編輯,靶向DNA上的RNA剪接順式元件,高效調控RNA剪接,用於研究RNA可變剪接的功能,以及用於人類遺傳疾病的治療。  真核細胞中,RNA剪接是基因表達的重要環節。據估計,超過75%的人類基因具有一種以上的mRNA剪接方式(可變剪接),其中大部分可以翻譯為功能性蛋白質。
  • 希望組正式推出納米孔單細胞全長轉錄組測序分析服務
    單細胞RNA測序(scRNA-Seq)是分析細胞間異質性的一項關鍵技術,但是基於短讀長的單細胞測序缺乏識別全長轉錄本的能力,不能開展更深入的細胞間異質性研究,例如可變剪接、基因融合事件等。因此,結合了長讀長測序技術的單細胞全長轉錄組備受矚目。
  • RNA-seq 數據分析最佳實戰
    討論RNA-seq分析流程主要步驟:實驗設計,質控,比對,基因水平和轉錄組水平定量,可視化,基因差異表達,可變剪接,功能分析,融合基因檢測,eQTL (expression quantification trait loci,表達數量性狀位點)。展望轉錄組研究存在的問題。
  • Nature:揭秘RNA結構多樣性在HIV-1剪接過程中扮演的角色
    近日,一項刊登在國際雜誌Nature上題為「Determination of RNA structural diversity and its role in HIV-1 RNA splicing」的研究報告中,來自懷特黑德生物醫學研究所等機構的科學家們通過研究確定了RNA的結構多樣性及其在HIV-1剪接過程中扮演的關鍵角色。
  • 施一公團隊首次捕獲真核細胞剪接體三維結構
    21日,施一公團隊在《科學》(Science)同時在線發表了兩篇研究長文,《3.6埃的酵母剪接體結構》和《前體信使RNA剪接的結構基礎》。第一篇文章介紹了通過單顆粒冷凍電子顯微技術(冷凍電鏡)解析的酵母剪接體近原子解析度的三維結構,第二篇文章在此結構的基礎上進行了詳細分析,闡述了剪接體對前體信使RNA執行剪接的基本工作機理。
  • 研究揭示LARP7介導U6修飾及其在生精細胞mRNA精準剪接和精子發生中...
    在真核細胞中,絕大部分新轉錄mRNA轉錄本(Pre-mRNA)需經過剪接移除內含子,才能形成可翻譯的成熟mRNA,此過程由包括五種snRNA(U1、U2、U4、U5、U6)及其相互作用蛋白組成的剪接體(spliceosome)催化完成。在5種剪接體snRNA中,U6的保守性最強,位於剪接體催化中心且為剪接體催化活性必需。
  • Science:RNA剪接突變在遺傳變異和疾病中發揮重要作用
    2016年5月1日/生物谷BIOON/--在一項新的研究中,來自美國芝加哥大學和史丹福大學等機構的研究人員通過對全基因組數據和細胞係數據進行大量分析,發現RNA剪接是一種將突變與複雜性狀和疾病關聯在一起的主要基本因子。
  • 科學家合作揭示剪接體重塑機制
    科學家合作揭示剪接體重塑機制 作者:小柯機器人 發布時間:2020/11/29 22:07:03 西湖大學施一公、萬蕊雪等研究人員合作報導了ATP酶/解旋酶Prp2及其共激活因子Spp2對剪接體重塑的機制
  • 施一公等報導釀酒酵母剪接體處於完成RNA剪接後構象的高解析度電鏡...
    中的3』剪接位點如何被識別,第二步轉酯反應如何發生以及成熟的mRNA如何被釋放等關鍵問題提供了重要的結構信息。從1977年首次發現RNA剪接至本世紀初,科學家們通過免疫沉澱、基因敲除、交聯質譜、建立體外剪接反應系統等研究手段,初步建立起剪接體的組裝與解聚的發生過程,以及蛋白與蛋白、蛋白與核酸之間的相互作用、相互調控等複雜的RNA剪接調控網絡。
  • RNA-seq數據分析最佳實踐調查
    我們回顧了RNA序列數據分析中的所有主要步驟,包括實驗設計,質量控制,閱讀比對,基因和轉錄水平的定量,可視化,差異基因表達,替代剪接,功能分析,基因融合檢測和eQTL定位。我們重點介紹與每個步驟相關的挑戰。我們討論了小RNA的分析以及RNA-seq與其他功能基因組學技術的整合。最後,我們討論了正在改變轉錄組學領域的最新技術的前景。
  • Neuron|剪接體基因突變可導致嬰幼兒早發性神經退行性疾病
    哺乳動物的絕大多數基因都含有至少一個內含子,而且絕大部分多外顯子(multi-exon)基因都會發生可變剪切。正確的RNA剪切對於基因的表達是必須的,這是細胞信息流從轉錄到翻譯的重要中間步驟。在細胞內,RNA的剪切是由一個由多個蛋白和小RNA分子組裝成的RNA剪切體(spliceosome)實現的【3】。
  • RNA剪接或許成為治療阿爾茲海默症的潛在分子靶標
    該研究首次發現RNA剪接核心成分與Tau蛋白重疊,在患阿爾茲海默症的人腦中也形成了類似的神經纖維纏結的結構。這也就意味著,除了A蛋白組成的細胞外斑塊沉積與Tau蛋白組成的細胞內神經纖維纏結是誘導阿爾茲海默症患病的原因外,RNA剪接失調也可能是引起阿爾茲海默症的原因之一。
  • 基於可變基因在冰塵洞中構建噬菌體泛基因組
    今天分享一篇本月初發表在Nature Communications上的研究——基於可變基因在冰塵洞中構建噬菌體泛基因組。噬菌體與宿主之間在進化水平上按軍備競賽理論會導致互相獨立的生態系統中的噬菌體基因組間產生顯著差異,但在研究中卻發現在距離上相隔甚遠的生態系統中出現幾乎相同的噬菌體基因組。本研究發現在分散的水生態系統中的噬菌體基因組存在高度相似的核心區域,同時存在靈活多變的基因模塊,並且可通過同源基因交換來產生變異的噬菌體。