常見的RNA-seq分析方法,看這裡~

2022-01-01 生信人

Modeling and analysis of RNA-seq data: a review from a statistical perspective

今天小編從統計學角度分別介紹下樣本,基因,轉錄本和外顯子水平相關的RNA-seq分析工具。


一、樣本水平分析:轉錄組相似性

1、相關分析是測量生物樣品轉錄組相似性的經典方法。最常用的度量是Pearson和Spearman相關係數。該分析首先計算任意兩個生物樣本之間歸一化基因表達的成對相關係數,得到相關矩陣。用戶可以將相關矩陣(通常作為熱圖)可視化以解釋生物樣本的成對轉錄組相似性,或者他們可以在分析中使用相關矩陣,例如樣本聚類。

2、轉錄組重疊測量TROM,以找到相同或不同物種中轉錄組的稀疏對應性。 TROM方法基於它們的「相關基因」而不是整個基因群來比較生物樣品,因此導致比相關性分析更穩健和稀疏的轉錄組相似性結果。 TROM將樣品的相關基因定義為具有z分數(每個基因的樣品的標準化表達水平)大於或等於系統選擇的閾值的基因。然後通過重疊測試計算成對TROM分數,以測量每對樣品的相關基因的相似性。得到的TROM得分矩陣具有與相關矩陣相同的維度,行和列對應於比較中使用的樣本,並且TROM得分矩陣可以容易地可視化或結合到後續分析中。

3、有其他統計指標可用於測量各種情景下的轉錄組相似性,如偏相關來測量樣本相似性、互信息(MI)能夠捕獲非線性依賴關係的度量、主成分分析(PCA),t-隨機鄰居嵌入(t-SNE)和多維縮放(MDS)有助於可視化基因表達數據並研究樣本在降維後的相似性。

二、基因水平分析:基因表達動力學

1、基因差異表達分析。目前認為歸一化是DGE分析之前的關鍵步驟,因為批次效應的存在可能源於不同測序深度或不同實驗中的各種特定方案偏差。RPKM, FPKM和TPM是三個最常用的單位用於RNA-seq數據的基因表達測量,它們消除了總測序深度和基因長度的影響。 RPKM和FPKM之間的主要區別在於前者是基於單端讀取的單位,而後者基於配對末端讀數,並且將來自相同RNA片段的兩個讀數計為一個而不是兩個。RPKM / FPKM和TPM之間的區別在於,前者在將讀取計數除以基因長度之前計算樣本比例因子,而後者首先將讀取計數除以基因長度,並基於長度標準化讀數計算樣本比例因子。

但基因表達數據仍可能包含特定的偏差,並且通常需要進一步標準化。標準化方法主要有兩類:基於分布的和基於基因的。基於分布的歸一化方法旨在使不同樣本中所有或大多數基因表達水平的分布相似,並且這些方法包括分位數歸一化,DESeq和TMM。基於基因的標準化方法旨在使非DE基因或持家基因在不同樣品中具有相同的表達水平,並且此類方法包括PoissonSeq和Bullard等人開發的方法。

2、基因共表達網絡分析。基因共表達網絡(GCN)是無向圖,其中節點對應於不同的基因,連接節點的邊緣表示基因之間的共表達關係,學習基因之間的功能關係,推斷和詮釋未知基因的功能。最常用的GCN分析方法之一WGCNA,最初是為微陣列數據開發的,但WGCNA可用於標準化的RNA-seq數據。它廣泛應用於基因表達數據集,以檢測基因簇和模塊,並通過分析相關網絡來研究基因連接。

三、轉錄水平分析:轉錄本重構和定量

RNA-seq數據的一個重要用途是基於短RNA-seq讀數恢復全長mRNA轉錄物結構和表達水平。目前有許多計算工具同時執行轉錄重建和量化。

1、基於似然法的分析方法。第一種類型的轉錄物定量方法通過基於統計模型最大化可能性或後驗來估計轉錄物豐度。這些方法是靈活的,並且可以容易地修改以將先前的生物信息結合到後部以提高量化準確性。統計模型進一步分為三類:基於區域的,基於讀的和基於片段的模型。Cufflinks [56], eXpress [57], RSEM [24], and Kallisto [58]
如Alpine專門設計用於調整同種型定量中的多種測序偏差來源,它考慮了在每個同種型中的所有可能位置處長度在片段長度分布中間的所有潛在片段。還有Cufflinks, eXpress, RSEM, KallistoiReckon和NSMAP等重建方法。

2、基於回歸的方法。同種型量化的第二類統計方法是基於回歸的,這些方法將同種型定量問題表示為線性或廣義線性模型,並將基於區域的讀數(或比例)作為響應變量,候選同種型作為預測變量,並將同種型豐度作為待估計的係數(參數)。基於回歸的方法包括rQuant ,SLIDE,IsoLasso和CIDANE。

四、外顯子水平分析:選擇性剪接中的外顯子包含率

當轉錄組學研究關注外顯子水平時,通常的主要步驟是估計感興趣的外顯子的剪接百分比,常見的方法有MISO,SpliceTrap和rMATS等。MISO和SpliceTrap都構建了類似於貝葉斯框架下的模型,作為感興趣的參數,然後可以基於其後驗分布獲得貝葉斯置信區間。

有生信分析請留言

TCGA | 小工具 | 資料庫 |組裝| 注釋 |   基因家族  |  Pvalue

基因預測  |bestorf |  sci | NAR | 在線工具 | 生存分析 | 熱圖

 生信不死 | 初學者 | circRNA | 一箭畫心| 十二生肖 | circos

 舞臺|基因組 | 黃金測序 | 套路 | 雜談組裝 |  進化 | 測序簡史

相關焦點

  • 一個RNAseq完整數據分析腳本
    RNAseq的分析方法有很多很多種,定量的方法也有很多指標可供選擇。這裡面我們選擇比較常用的一種經典的定量方法來完成一個無參轉錄組的分析案例,使用hisat2比對,featureCounts進行reads計數,使用DESeq2包進行定量。從測序數據比對,到得到差異表達基因,再到對差異表達可視化以及對差異表達基因進行功能注釋。
  • RNASeq實戰練習-軟體安裝及數據下載
    RNASeq實戰練習-軟體安裝及數據下載軟體安裝新建 rnaseq 分析環境conda env listconda create -n rnaseq -y安裝軟體# 激活rnaseq分析環境conda activate rnaseq# 安裝所需的軟體conda install -c biobuilds sra-tools -yconda install -c hcc aspera-cli -yconda install -c bioconda gffread -yconda install
  • C-Myc 與RNA-seq分析
    RNA-seq自2008年發明以來,大家更多的關注點在於其能不依賴於參考序列,幾乎無門檻、快速(也不快,建庫加測序加分析費時費事)的分析轉錄情況,但不幸的是其樣品間的比較方法一直沿用的還是microarray的分析方法
  • 史上最全 | 39個RNAseq分析工具與對比
    這是一篇在NC上發表的使用RNAseq工具對比的一篇文獻,解讀這篇文獻對我們使用RNAseq發文提供了思路。下面小編具體解說一下。文獻摘要:RNA-sequencing(RNA-seq)是一個重要的轉錄組學研究技術,數百款分析工具目前已經開發出來。儘管最近相關研究評估了最新的可用的RNAseq工具,但他們沒有全面綜合的評估RNAseq分析的工作流。
  • RNA seq第十七講 | 全面而詳細!RNA-seq 數據分析最佳實戰
    一篇RNA-seq分析流程的綜述,全面而詳細!深度好文,可用來反覆閱讀。初學者用於把握RNA-seq真箇流程及各個流程選擇上的差異。已經開始學習者可用來查缺補漏和發現新的分析角度。轉錄本定量RNA-seq分析核心為基因和轉錄本的定量分析,基於比對到轉錄本上的數量。最簡單的定量方法是用HTSeq-count或featureCounts累積原始數量。基因水平定量使用GTF(genome transfer format )文件,包含外顯子和基因,通常丟棄很多序列。
  • RNA-seq數據分析最佳實踐調查
    RNA-seq可以單獨用於轉錄組分析,也可以與其他功能基因組學方法結合使用以增強基因表達的分析。最後,RNA-seq可以與不同類型的生化分析結合使用,以分析RNA生物學的許多其他方面,例如RNA-蛋白質結合,RNA結構或RNA-RNA相互作用。但是,由於我們關注「典型」 RNA序列,因此這些應用超出了本文的範圍。
  • RNA-seq差異表達分析步驟
    ,這是RNA-seq數據分析中最為常規的任務。分析每一步,我們都會描述分析目的,一些典型的選項,輸入和輸出的文件,並指出可以找到詳細步驟的完整章節。我們希望提供整個RNA-seq數據分析流程的概述,以便使用者可以看到各個步驟間是如何相互關聯的。
  • RNA-seq數據深度分析—motif的鑑定
    在最初的基因表達,我們通常做RT-PCR,半定量RT-PCR,northern bloting等等,後來我們又通過microarray來考察基因表達水平。
  • 新司機帶你學RNA-Seq數據分析
    同時我這裡就不再贅述RNA-seq的具體原理,有需要了解的請移步:一個簡略的RNA-seq演示至於軟體的安裝到官網下載,解壓後將bin/添加進路徑即可,這裡不再做講解。註:所有操作皆在LINUX&R上完成,默認基本處理軟體已經安裝本體介紹
  • 計算差異表達分析方法(rna-seq)
    比較了11種RNA-seq數據的差異表達分析方法。
  • RSEM:RNA-seq數據的一站式分析
    RNA-seq的目的就是確定樣本中基因的表達量,通過基因表達定量,可以比較同一個樣本中各個基因表達的高低,也可以鑑定在不同樣本間表達有差異的基因等。不管後續的分析目的是什麼,RNA-seq數據分析都必須先進行基因表達定量。最常用的RNA-seq表達定量的技術思路是先將測序得到的reads比對到參考基因組,然後再根據比對結果,結合參考基因組的注釋文件,得到每個基因的表達量。
  • 人類血液樣本RNA-seq研究現狀
    07 接著,再給大家介紹一下常用於血液樣本RNA-seq分析的常見血液樣本——外周血單個核細胞,一般簡稱PBMCs。我們首先來看到溼實驗部分,也就是左圖展示給大家的這樣,首先從生物樣本中抽提RNA,這裡的生物樣本可以是細胞、組織或者血樣,然後根據不同的建庫方法分離純化出所需的RNA。目前常用的建庫方法一般有兩種,Poly(A)和RiboZero。一般抽提到的總 RNA 當中,95%都是核糖體 RNA,而rRNA 在人類當中都是已知且保守的,在人的各個組織、器官當中也是極度地穩定。
  • RNAseq常規主成分分析(PCA)不好看,可以這樣做
  • R語言與RNAseq
    前期在表達分析中主要使用兩類表達數據:晶片數據,如GEO中不同數據集;RNAseq數據,如TCGA中的
  • 【The Plant Cell 】玉米轉錄因子的RNA-seq和CHIP-seq聯合分析
    本研究採用RNA-seq和CHIP-seq分別從整個轉錄水平和全基因組水平研究Opaque2突變型玉米的表達情況並搜索O2在全基因組水平的DNA位點情況,聯合兩者分析可以揭示差異基因是否為O2所調控。3)信息分析 RNA-seq數據分析:mapping至玉米基因組(軟體TopHat2.0.6)、DEGs分析、LncRNA分析(軟體PhyloCSF) CHIP-seq數據分析
  • 超能餅乾|SnapATAC分析單細胞ATAC-seq數據(三)
    簡介在本教程中,我們將對PBMC的兩個scATAC-seq數據集(5K和10K)和一個scRNA-seq數據集進行整合分析。這三個數據集均來自10X genomics測序平臺產生的數據,可以直接在10x官網下載使用。
  • RNAseq視頻教程上線了
    寒假到了,你是否已從圖書管借了大量圖書,準備利用這個假期來提高自己,最後假期結束之後,卻原封不動將這些書還回去;或者你已經給自己制定了嚴格的學習計劃,但卻經不住電視的誘惑,將計劃拋之腦後;又或者你已經徹底放棄,決定每逢佳節胖三斤,假期就坐在沙發上邊看電視邊玩手機邊吃東西
  • RNA-seq最強綜述名詞解釋&思維導圖|關於RNA-seq,你想知道的都在這(續)
    為了方便理解和對綜述有個概覽,特整理了下面的思維導圖,對應原文,共計8個大標題,大標題下又分有小主題,各個分支介紹有每個主題的主要內容及採用方法。Read depth Read深度:一個樣本測序得到的reads數;容易和基因組測序的覆蓋度 (多少基因組區域被測到了)和測序深度混淆 (單個核苷酸被測到的次數或所有核苷酸被測到的平均深度)。
  • RNA-seq測序基本知識
    一個簡單的解決方法是參考PubMed已發布的文獻選擇與其相同或相似的測序平臺。當然總是建議在進行科學研究之前,一定要查閱文獻,看看過去的研究如何處理目前的問題。然而盲目追隨過去的先例的弱點是,一般來說,NGS測序特別是RNA-seq正在迅速改變實驗的設計和執行方式。由於技術的飛速發展,可以公平地說,對於一個特定問題沒有單一的正確答案。
  • | RNA-seq的十年(上)
    第二步,在高通量平臺(通常是Illumina平臺)上對文庫進行測序,每個樣本的測序深度為10-30M讀長數(讀長這裡就是前面說的reads)。在這篇綜述中,我們首先會介紹一些最基本的短讀長RNA-seq中的DGE方法,再將這種基礎方法與最近新興的長讀長RNA-seq和dRNA-seq進行比較。我們會介紹短讀長測序方法在文庫製備方面的進展,以及實驗設計和DGE的數據分析方法。隨後我們會拓展這些常規的RNA-seq方法,介紹一些單細胞測序和空間轉錄組學的分析。