Modeling and analysis of RNA-seq data: a review from a statistical perspective
今天小編從統計學角度分別介紹下樣本,基因,轉錄本和外顯子水平相關的RNA-seq分析工具。
一、樣本水平分析:轉錄組相似性
1、相關分析是測量生物樣品轉錄組相似性的經典方法。最常用的度量是Pearson和Spearman相關係數。該分析首先計算任意兩個生物樣本之間歸一化基因表達的成對相關係數,得到相關矩陣。用戶可以將相關矩陣(通常作為熱圖)可視化以解釋生物樣本的成對轉錄組相似性,或者他們可以在分析中使用相關矩陣,例如樣本聚類。
2、轉錄組重疊測量TROM,以找到相同或不同物種中轉錄組的稀疏對應性。 TROM方法基於它們的「相關基因」而不是整個基因群來比較生物樣品,因此導致比相關性分析更穩健和稀疏的轉錄組相似性結果。 TROM將樣品的相關基因定義為具有z分數(每個基因的樣品的標準化表達水平)大於或等於系統選擇的閾值的基因。然後通過重疊測試計算成對TROM分數,以測量每對樣品的相關基因的相似性。得到的TROM得分矩陣具有與相關矩陣相同的維度,行和列對應於比較中使用的樣本,並且TROM得分矩陣可以容易地可視化或結合到後續分析中。
3、有其他統計指標可用於測量各種情景下的轉錄組相似性,如偏相關來測量樣本相似性、互信息(MI)能夠捕獲非線性依賴關係的度量、主成分分析(PCA),t-隨機鄰居嵌入(t-SNE)和多維縮放(MDS)有助於可視化基因表達數據並研究樣本在降維後的相似性。
二、基因水平分析:基因表達動力學
1、基因差異表達分析。目前認為歸一化是DGE分析之前的關鍵步驟,因為批次效應的存在可能源於不同測序深度或不同實驗中的各種特定方案偏差。RPKM, FPKM和TPM是三個最常用的單位用於RNA-seq數據的基因表達測量,它們消除了總測序深度和基因長度的影響。 RPKM和FPKM之間的主要區別在於前者是基於單端讀取的單位,而後者基於配對末端讀數,並且將來自相同RNA片段的兩個讀數計為一個而不是兩個。RPKM / FPKM和TPM之間的區別在於,前者在將讀取計數除以基因長度之前計算樣本比例因子,而後者首先將讀取計數除以基因長度,並基於長度標準化讀數計算樣本比例因子。
但基因表達數據仍可能包含特定的偏差,並且通常需要進一步標準化。標準化方法主要有兩類:基於分布的和基於基因的。基於分布的歸一化方法旨在使不同樣本中所有或大多數基因表達水平的分布相似,並且這些方法包括分位數歸一化,DESeq和TMM。基於基因的標準化方法旨在使非DE基因或持家基因在不同樣品中具有相同的表達水平,並且此類方法包括PoissonSeq和Bullard等人開發的方法。
2、基因共表達網絡分析。基因共表達網絡(GCN)是無向圖,其中節點對應於不同的基因,連接節點的邊緣表示基因之間的共表達關係,學習基因之間的功能關係,推斷和詮釋未知基因的功能。最常用的GCN分析方法之一WGCNA,最初是為微陣列數據開發的,但WGCNA可用於標準化的RNA-seq數據。它廣泛應用於基因表達數據集,以檢測基因簇和模塊,並通過分析相關網絡來研究基因連接。
三、轉錄水平分析:轉錄本重構和定量
RNA-seq數據的一個重要用途是基於短RNA-seq讀數恢復全長mRNA轉錄物結構和表達水平。目前有許多計算工具同時執行轉錄重建和量化。
1、基於似然法的分析方法。第一種類型的轉錄物定量方法通過基於統計模型最大化可能性或後驗來估計轉錄物豐度。這些方法是靈活的,並且可以容易地修改以將先前的生物信息結合到後部以提高量化準確性。統計模型進一步分為三類:基於區域的,基於讀的和基於片段的模型。Cufflinks [56], eXpress [57], RSEM [24], and Kallisto [58]
如Alpine專門設計用於調整同種型定量中的多種測序偏差來源,它考慮了在每個同種型中的所有可能位置處長度在片段長度分布中間的所有潛在片段。還有Cufflinks, eXpress, RSEM, KallistoiReckon和NSMAP等重建方法。
2、基於回歸的方法。同種型量化的第二類統計方法是基於回歸的,這些方法將同種型定量問題表示為線性或廣義線性模型,並將基於區域的讀數(或比例)作為響應變量,候選同種型作為預測變量,並將同種型豐度作為待估計的係數(參數)。基於回歸的方法包括rQuant ,SLIDE,IsoLasso和CIDANE。
四、外顯子水平分析:選擇性剪接中的外顯子包含率
當轉錄組學研究關注外顯子水平時,通常的主要步驟是估計感興趣的外顯子的剪接百分比,常見的方法有MISO,SpliceTrap和rMATS等。MISO和SpliceTrap都構建了類似於貝葉斯框架下的模型,作為感興趣的參數,然後可以基於其後驗分布獲得貝葉斯置信區間。
有生信分析請留言
TCGA | 小工具 | 資料庫 |組裝| 注釋 | 基因家族 | Pvalue
基因預測 |bestorf | sci | NAR | 在線工具 | 生存分析 | 熱圖
生信不死 | 初學者 | circRNA | 一箭畫心| 十二生肖 | circos
舞臺|基因組 | 黃金測序 | 套路 | 雜談組裝 | 進化 | 測序簡史