使用MISO進行可變剪切的分析

2020-10-18 生信修煉手冊

MISO是一款經典的可變剪切分析工具,和rmats類似,該軟體也支持對可變剪切事件進行定量和差異分析,網址如下

https://miso.readthedocs.io/en/fastmiso/index.html#

這個軟體支持exon和transcript兩種水平的可變剪切分析,在rmats的文章中,我們也提到了rmats是從exon水平給出的可變剪切結果,因為二代測序讀長短的特點,無法有效得到轉錄本全長,從exon水平得到的結果更加的準確,而且陽性結果更容易通過RT-PCR驗證出來,但是無法詳細的探究某個基因不同isoform之間的變化;transcript水平直接給出不同isoform間的定量和差異,能有效的探究基因不同isofrm的變化情況,但是結果準確性較差。

該軟體是一個python包,直接通過pip就可以安裝,分析的pipeline如下

1. 對參考基因組的GFF文件建索引

對於transcript水平的分析而言,只需要提供轉錄本的GFF文件,可以從Ensembl等資料庫下載參考基因組的gtf文件,然後自己轉換成GFF3格式;對於exon水平而言,需要提供已知的可變剪切事件的GFF格式文件,示意如下

chr1  SE      gene    4772649 4775821 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-;Name=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-chr1  SE      mRNA    4772649 4775821 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-chr1  SE      mRNA    4772649 4775821 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-chr1  SE      exon    4775654 4775821 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A.up;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.Achr1  SE      exon    4774032 4774186 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A.se;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.Achr1  SE      exon    4772649 4772814 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A.dn;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.Achr1  SE      exon    4775654 4775821 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B.up;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.Bchr1  SE      exon    4772649 4772814 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B.dn;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B

第二列表示可變剪切的類型,以外顯子跳躍為例,ID的格式如下

chr1:4775654:4775821:-@chr1:4774032:4774186:@chr1:4772649:4772814

包含了用@符號隔開的3個外顯子,中間的exon的跳過的外顯子,第一個為上遊的外顯子,第二個為下遊的外顯子,對應如下示意圖中的3個exon

transcript水平的GFF文件從資料庫中下載即可,而exon水平的GFF文件是需要自己先識別可變剪切的不同isoform,然後整理得到的,對於人和小鼠等常見物種,官網提供了exon水平的GFF文件,連結如下

https://miso.readthedocs.io/en/fastmiso/annotation.html

準備好GFF文件之後,就可以建立索引了,命令如下

index_gff --index ensGene.gff3 index_db

index_db為索引保存的目錄。

2. 運行miso

運行miso需要第一步建好的索引以及樣本對應的bam文件,該bam文件必須是經過排序處理的,而且有對應的bai索引,對於雙端數據,用法如下

miso --runindex_db algin.sorted.bam \  --output-dir out_dir --read-len 150 --paired-end 250 15 --settings-filename miso_settings.txt

read-len是reads的平均長度,paired-end代表插入片段長度的平均值和方差,miso_settings.txt是配置文件,內容如下

[data]filter_results = Truemin_event_reads = 20strand = fr-unstranded[sampler]burn_in = 500lag = 10num_iters = 5000num_processors = 4

配置文件中的參數很多,就不一一解釋了,每個參數的意義請參考官方文檔。
通過上述方式得到的結果可以直接用於後續的差異分析,但是這個結果不利於我們查看,所以官方提供了匯總程序,用法如下

summarize_miso --summarize-samples raw_out/ summary_out1

3. 樣本間的差異分析

進行樣本間差異分析的代碼如下

compare_miso --compare-samples control case/ comparisons/

在輸出目錄,會生成一個後綴為bf的文件。

4. 對結果進行過濾

用法如下

filter_events --filter  case_vs_control.miso_bf --num-inc 1 --num-exc 1 --num-sum-inc-exc 10 --delta-psi 0.20 --bayes-factor 10 --output-dir filter_dir

5. 可視化

用法如下

sashimi_plot --plot-event "chr1:7778:7924:-@chr1:7096:7605:-@chr1:6717:6918:-" index_db/ sashimi_plot_settings.txt  --output-dir out_dir

sashimi_plot_settings.txt是配置文件,其中設置了樣本的bam文件和可變剪切的輸出結果,示例如下

[data]# directory where BAM files arebam_prefix = ./test-data/bam-data/# directory where MISO output ismiso_prefix = ./test-data/miso-data/bam_files = [   "heartWT1.sorted.bam",   "heartWT2.sorted.bam",   "heartKOa.sorted.bam",   "heartKOb.sorted.bam"]miso_files = [   "heartWT1",   "heartWT2",   "heartKOa",   "heartKOb"][plotting]# Dimensions of figure to be plotted (in inches)fig_width = 7fig_height = 5# Factor to scale down introns and exons byintron_scale = 30exon_scale = 4# Whether to use a log scale or not when plottinglogged = Falsefont_size = 6# Max y-axisymax = 150# Whether to plot posterior distributions inferred by MISOshow_posteriors = True# Whether to show posterior distributions as bar summariesbar_posteriors = False# Whether to plot the number of reads in each junctionnumber_junctions = Trueresolution = .5posterior_bins = 40gene_posterior_ratio = 5# List of colors for read denisites of each samplecolors = [   "#CC0011",   "#CC0011",   "#FF8800",   "#FF8800"]# Number of mapped reads in each sample# (Used to normalize the read density for RPKM calculation)coverages = [   6830944,   14039751,   4449737,   6720151]# Bar color for Bayes factor distribution# plots (--plot-bf-dist)# Paint them bluebar_color = "b"# Bayes factors thresholds to use for --plot-bf-distbf_thresholds = [0, 1, 2, 5, 10, 20]

最終會產生如下所示的結果

這種圖稱之為sashimi plot , 是一種專用於可變剪切可視化的圖表,上述示意圖表示的是一個外顯子跳躍事件在不同樣本中的表達情況,左下方是GFF文件中共的exon結構,左上方是每個樣本中比對上exon的reads的可視化,採用了RPKM表示,不同剪切方式用曲線連結,曲線上標記的是比對上該區域的reads數目,不同分組的樣本用不同顏色表示,右側的圖片是樣本中對應的可變剪切的表達量值。

從這種圖中,可以直觀的看到兩組樣本間的可變剪切表達有無差異,上圖中heartWT組中的表達量高於heartKO組。

實際分析時,由於需要手動整理可變剪切isofrom對應的gff文件,所以使用的難度較大,但是其提供的可視化功能是非常值得借鑑的。

·end·

相關焦點

  • EmpiReS:可變剪切差異分析
    因此,倍數變化的分析是標準方法,但是通常需要對變化的變化進行雙重差分分析。差異性可變剪切是雙重差異性分析的一個例子,即,基因的不同同工型在條件之間的倍數變化。EmpiRe是一種基於生物學對象適當特徵的倍數變化的各種組學數據的定量方法。這些倍數變化的經驗誤差分布可從「重複測量」中估算出來,並用於量化特徵倍數變化及其方向。我們使用模擬數據評估EmpiRe檢測應用於RNA-Seq的差異表達基因的性能。
  • 水生植物蓮的miRNA與可變剪切調控研究中獲進展
    可變剪切是一種重要的轉錄後調控機制,能使同一個基因產生多個具有結構差異的轉錄本,而這些轉錄本很多在蛋白結構以及分子功能上也產生差異。由於這些結構序列上的差異,導致同一個miRNA靶標基因產生的部分轉錄本不具有miRNA靶標位點,從而「逃脫」相應miRNA的調控。這些同一基因轉錄的不受miRNA調控的轉錄本及受到miRNA調控的轉錄本在不同發育時期與組織中的表達模式尚不清楚。
  • 組蛋白修飾可調控mRNA剪切來決定胚胎幹細胞命運 | Genome Biology
    已有研究表明可變剪切、細胞周期控制和組蛋白修飾等在ESC的定向分化中起著重要的作用。然而,這些機制之間的複雜關聯以及它們如何共同作用並參與ESC的命運決定還有待研究。 本文研究者用人類胚胎幹細胞(hESC)H1細胞系以及由其誘導分化而來的四個細胞類型(包括中胚層細胞ME、滋養層類細胞TBL、神經母細胞NPC和間質幹細胞MSC)來代表五個不同分化程度的細胞譜系(cell lineage),並用IMR90用作終端分化體細胞的參照細胞。作者對這些細胞的轉錄組和表觀組進行了整合分析(圖1)。
  • 遺傳發育所在選擇性剪切對擬南芥蛋白質多樣性貢獻研究中獲進展
    研究人員仍不知道有多大比例的選擇性剪切事件可以導致蛋白質組的多樣性。  中國科學院遺傳與發育生物學研究所焦雨鈴研究組在全基因組水平通過分析與核糖體結合的mRNA來研究翻譯組的構成,並與總mRNA所代表的轉錄組進行了比較。
  • 【科研】轉錄組--可變剪接
    其實可變剪接是一種常規的生物學過程,90-95%的人類多外顯子都可以通過可變剪接產生多個轉錄本,這便是產生更多樣化的蛋白質組的原因。可變剪接在組織分化等多個重要的生物學過程中都扮演著重要的角色,它的紊亂可以引起包括腫瘤在內的多種疾病的發生。
  • Java中可變參數的使用方式
    在Java的參數定義中,有一種比較特殊的定義方式,就是可變參數。可能有的朋友對這個名稱有點陌生,但是看到代碼可能就會說,「就是他啊」。那這個可變參數是什麼呢,就是類似下面這個方法籤名中的參數的定義方式了。
  • 黏度測量時為什麼不能使用太低的剪切速率?
    我們知道,在執行黏度測量時,黏度(η)是由量測的應力(σ)除以施加的剪切速率(dγ/dt)得到的,那麼測試時可使用的剪切速率並不僅僅是由儀器所能施加的剪切速率範圍決定,還會由儀器所能量測的應力範圍決定。在旋轉流變儀上,應力(σ)由扭矩(M)結合夾具幾何特徵及尺寸換算得到,那麼儀器所能量測的應力範圍則由儀器的扭矩範圍和夾具的幾何尺寸共同決定。
  • 直流電動機轉速調整中的可變電阻電路分析
    如圖是卡座中的雙速直流電動機轉速調整可變電阻電路。電路中的S1是機芯開關,S2是用來轉換電動機轉速的「常速/倍速」轉換開關,RP1和RP2分別是常速和倍速下的轉速微調可變電阻器,用來對直流電動機的轉速進行微調。
  • 系統繪製環形RNA可變反向剪接和可變剪接圖譜
    該研究系統繪製了環形RNA可變反向剪接和可變剪接圖譜,揭示了環形RNA可以通過可變反向剪接和可變剪接機制產生新的外顯子剪接,深入的機制研究表明環形RNA的可變反向剪接受到其上下遊內含子互補配對序列的競爭配對調控。
  • 希望組正式推出納米孔單細胞全長轉錄組測序分析服務
    單細胞RNA測序(scRNA-Seq)是分析細胞間異質性的一項關鍵技術,但是基於短讀長的單細胞測序缺乏識別全長轉錄本的能力,不能開展更深入的細胞間異質性研究,例如可變剪接、基因融合事件等。因此,結合了長讀長測序技術的單細胞全長轉錄組備受矚目。
  • 調控玉米性狀 可變剪接「火」起來
    玉米變異豐富,比人猿間差異還大  可變剪接,又稱選擇性剪接。其過程是未成熟的mRNA(信使RNA)分子通過選擇不同的剪切位點,切除掉其部分片段,將剩餘片段以多樣化組合方式重新連接在一起,形成多種不同結構的成熟mRNA分子。  「簡單來說,就是一個前體mRNA分子可以經過不同的加工方式,形成不同的成熟mRNA產物。」
  • 靜電容量可變素子可變電容器的產品化
    陶瓷電容器中使用的強電介質材料包含了BT系列材料等,因此當向電介質施加電場的時候,它具有相對介電常數變化(減少)的直流偏置特性。  薄膜可變電容器活用了直流偏置特性,是一種可以通過控制電壓來調整靜電容量的功能性設備。此外,通過薄膜法將電介質層變薄,從而提升了施加於電介質的電場強度,實現了通過低電壓獲得相對較大的靜電容量變化率的目標。
  • 使用示波器進行故障診斷的方法(1):常見傳感器波形分析
    汽車專用示波器可以實時採集點火、噴油、電控系統傳感器的波形,通過對傳感器波形的分析,可以準確診斷傳感器是否故障。通過對點火波形的分析,不僅可以診斷點火系統的火花塞、高壓線、點火線圈等各元器件故障,而且可以分析出進氣系統和燃油系統的可能故障點,為汽車的運行技術狀況和故障診斷提供科學的根據。
  • 使用了可變電導放大器的電壓控制放大器(VCA)
    ,還可用作AGC放大器的放大倍數可變部件以及低頻振幅調製電路等。根據以上關係,可用下式計算輸出電流I:I=GM.E1=19.2*IA.EIO 再用A2進行電流電壓轉換之後可獲得輸出電壓。根據正負EI=IO/19.2*IA,當IO=1MA,IA=1MA時,CA3080的輸入電壓正負EI為52MV;當IA=10UA時,則為5.2V。IA比較小時,轉換速度就會降低,所以不能太小。
  • 為什麼剪切比複製快?
    本文從作業系統層面解釋為什麼剪切比複製快。註:本文基於linux環境進行介紹回答這個問題之前,首選要明白幾個概念文件節點(inode),文件信息的保存(文件名,大小,創建時間,修改時間等信息)文件是怎麼存儲的
  • 波前傳感器的技術革命-----四波剪切幹涉技術
    法國PHASICS公司研發團隊,突破傳統技術的壁壘,成功研發出了世界上解析度最高的四波剪切幹涉技術波前探測器。本文簡單介紹了波前傳感器的原理和典型應用,以及四波剪切幹涉技術原理,比較了剪切幹涉技術的波前分析儀與傳統哈特曼傳感器的特點。
  • 【乾貨分享】高壓均質機和高剪切均質機的區別及應用
    目前國內食品行業使用的傳統均質設備多為高壓均質機、膠體磨、砂磨和輥磨機等,近年來出現了新型的高剪切均質機設備。至於這些均質設備在各行業中的應用,目前尚無人進行深入系統地研究。對此,筆者針對目前主要使用的高壓均質機和高剪切式均質機,從均質原理、不同物料的工藝流程以及實驗數據等方面進行了對比分析研究 1、均質機理分析 液體物料分散系中分散相顆粒或液滴破碎的直接原因是受到剪切力和壓力的作用。引起剪切力和壓力作用的具體流體力學效應主要有層流效應、湍流效應和空穴效應。
  • 液壓剪板機壓料力的大小隨被剪切板厚度的增加而增大
    液壓剪板機1.外形結構(1)運用UG(有限元)分析方法,經計算機輔助優化設計。(2)機身採用整體鋼板焊接結構,具有良好的強度、剛度及抗震性。(3)刀片間隙調整採用無極調整機構,適應不同板厚及材質的剪切需要。(4)矩形下刀片,可使用四個刃口剪切,延長了刀片的使用壽命。(5)調整剪切行程、既可提高加工效率,又可實現分段剪切功能。(6)剪切次數自動計數,減少了繁瑣的清點工作。
  • 關於剪切流均化庫使用中的幾個問題
    考察鄰近廠家的使用情況也存在上述問題,幾個廠家都很難實現8臺卸料器的循環工作,只能是能開幾臺就開幾臺。這樣,剪切流均化庫變成了普通儲存庫。有1個廠家將庫底板上設置的卸料器改到庫底板下。這樣由於土建結構的制約只能由原設計的線卸料變為點卸料,均化作用已經大打折扣。