scRNA-seq數據差異基因表達分析的有效方法有哪些?
我們知道RNA-seq即轉錄組測序,是某個物種或者特定細胞類型產生的所有轉錄本的集合,而單細胞RNA測序(single-cell RNA-seq,簡稱scRNA-seq)則是以單個細胞為特定研究對象,提取其mRNA進行逆轉錄並進行高通量測序分析,可體現出個體細胞內表達水平的具體變化,目前已廣泛應用在生物學、醫藥研發、臨床醫學等各個領域。
除此之外,scRNA-seq分析相比RNA-seq分析還具有多模態性、大量的零計數和稀疏性。
多模態性:
單細胞基因表達是一個隨機過程,因此其表達值存在高度變異性。換句話說,表達水平與細胞亞型和細胞在整個細胞周期中的狀態有關。因此,細胞之間的生物學差異,如不同的細胞類型、不同的mRNA含量和不同的細胞狀態,導致基因表達值的多模態和異質性。
大量的零計數和稀疏性:
scRNA-seq數據的另一個特點是大量的零計數。但是並非所有從樣本單元檢測到的零計數都是真正的零表示。這只是意味著在測序過程中可能無法檢測到一些真正表達的基因。這是由於少量的起始RNA導致許多轉錄物低於檢測閾值。此外,低捕獲效率可能會錯過大量的逆轉錄過程。因此,我們可以觀察到「drop-out」現象,即在這些細胞處於相同的條件下,其中一些轉錄物在某些細胞中強烈表達,但在其他細胞中未表達。
正是由於這些特性才推動了scRNA-seq數據分析鑑別差異基因表達方法的發展,以下舉幾個專門針對scRNA-seq數據提出的新方法新模型的例子:
1、使用兩部分聯合模型來檢測差異表達基因,以適應多模態表達值和「drop-out events」;一部分模型對應於正常觀察到的基因,另一部分模型對應於「drop-out events」。
(參考文獻:Bayesian approach to single-cell differential expression analysis.)
2、MAST:使用hurdle model來表示零計數和陽性表達值,然後使用邏輯回歸和線性回歸分別識別每個部分的DE基因(differentially expressed genes)。
(參考文獻:MAST: a flexible statistical framework for assessing transcriptional changes and characterizing heterogeneity in single-cell RNA sequencing data.)
3、使用線性模型——廣義加性模型(GAMS)來識別DE基因。
(參考文獻:The dynamics and regulators of cell fate decisions are revealed by pseudotemporal ordering of single cells.)
4、scDD:考慮了四種不同模式的分布在生物和跨生物條件下的基因表達值。
(參考文獻:A statistical approach for identifying differential distributions in single-cell RNA-seq experiments.)
5、非參數方法:D3E,使用兩個非參數方法,Cramer-von Mises實驗和Kolmogorov Smirnov實驗,比較每個基因在不同條件下的表達值的分布,以確定DE基因。
(參考文獻:A statistical approach for identifying differential distributions in single-cell RNA-seq experiments.)
6、SigEMD:結合數據填補方法、邏輯回歸模型和非參數方法,精確有效地識別scRNA-seq數據中的DE基因,
(參考文獻:SigEMD: A powerful method for differential gene expression analysis in single-cell RNA sequencing data.)
你們還知道哪些方法,或者有什麼新的idea,來與小編聊聊吧。