scRNA-seq數據差異基因表達分析的有效方法有哪些?

2020-12-05 深圳南博屹生物科技

scRNA-seq數據差異基因表達分析的有效方法有哪些?

我們知道RNA-seq即轉錄組測序,是某個物種或者特定細胞類型產生的所有轉錄本的集合,而單細胞RNA測序(single-cell RNA-seq,簡稱scRNA-seq)則是以單個細胞為特定研究對象,提取其mRNA進行逆轉錄並進行高通量測序分析,可體現出個體細胞內表達水平的具體變化,目前已廣泛應用在生物學、醫藥研發、臨床醫學等各個領域。

除此之外,scRNA-seq分析相比RNA-seq分析還具有多模態性、大量的零計數和稀疏性。

多模態性:

單細胞基因表達是一個隨機過程,因此其表達值存在高度變異性。換句話說,表達水平與細胞亞型和細胞在整個細胞周期中的狀態有關。因此,細胞之間的生物學差異,如不同的細胞類型、不同的mRNA含量和不同的細胞狀態,導致基因表達值的多模態和異質性。

大量的零計數和稀疏性:

scRNA-seq數據的另一個特點是大量的零計數。但是並非所有從樣本單元檢測到的零計數都是真正的零表示。這只是意味著在測序過程中可能無法檢測到一些真正表達的基因。這是由於少量的起始RNA導致許多轉錄物低於檢測閾值。此外,低捕獲效率可能會錯過大量的逆轉錄過程。因此,我們可以觀察到「drop-out」現象,即在這些細胞處於相同的條件下,其中一些轉錄物在某些細胞中強烈表達,但在其他細胞中未表達。

正是由於這些特性才推動了scRNA-seq數據分析鑑別差異基因表達方法的發展,以下舉幾個專門針對scRNA-seq數據提出的新方法新模型的例子:

1、使用兩部分聯合模型來檢測差異表達基因,以適應多模態表達值和「drop-out events」;一部分模型對應於正常觀察到的基因,另一部分模型對應於「drop-out events」。

(參考文獻:Bayesian approach to single-cell differential expression analysis.)

2、MAST:使用hurdle model來表示零計數和陽性表達值,然後使用邏輯回歸和線性回歸分別識別每個部分的DE基因(differentially expressed genes)。

(參考文獻:MAST: a flexible statistical framework for assessing transcriptional changes and characterizing heterogeneity in single-cell RNA sequencing data.)

3、使用線性模型——廣義加性模型(GAMS)來識別DE基因。

(參考文獻:The dynamics and regulators of cell fate decisions are revealed by pseudotemporal ordering of single cells.)

4、scDD:考慮了四種不同模式的分布在生物和跨生物條件下的基因表達值。

(參考文獻:A statistical approach for identifying differential distributions in single-cell RNA-seq experiments.)

5、非參數方法:D3E,使用兩個非參數方法,Cramer-von Mises實驗和Kolmogorov Smirnov實驗,比較每個基因在不同條件下的表達值的分布,以確定DE基因。

(參考文獻:A statistical approach for identifying differential distributions in single-cell RNA-seq experiments.)

6、SigEMD:結合數據填補方法、邏輯回歸模型和非參數方法,精確有效地識別scRNA-seq數據中的DE基因,

(參考文獻:SigEMD: A powerful method for differential gene expression analysis in single-cell RNA sequencing data.)

你們還知道哪些方法,或者有什麼新的idea,來與小編聊聊吧。

相關焦點

  • ...屠強研究組開發Decode-seq方法顯著提高差異表達基因分析的準確性
    鑑定差異表達基因是許多生物醫學研究項目的基礎步驟,利用轉錄組進行差異表達(Differential Expression, DE)分析是目前最主流的方法,得到了廣泛應用。例如,兩個常用於轉錄組DE分析的算法 edgeR 和 DESeq2 已經被引用了超過上萬次。
  • 計算差異表達分析方法(rna-seq)
    比較了11種RNA-seq數據的差異表達分析方法。
  • 研究探討RNA-seq數據分析方法
    隨著測序價格的不斷下降,以及個人化測序儀的上市,更多的實驗室有機會嘗試這種新技術。 然而,測序之後的數據分析才是真正的挑戰。在RNA-seq之後,還需要一些強大的計算工具,才能繪製出完整的轉錄組圖譜。在這一期的《自然—方法學》(Nature Methods)上,來自MIT和哈佛Broad研究院的研究人員發表了一篇綜述,介紹了轉錄組注釋和定量的計算方法。
  • 差異基因表達分析(上)
    一般而言,RNA-Seq和microassay分析得到的差異表達基因最終也需要通過這種實驗方法進行驗證。一般適用於驗證實驗,而不是用於探索性實驗。microarray基因矩陣基因晶片的概念在上個世紀80年代就已經提出來了, 被評為1998年度自然科學領域十大進展之一。
  • QB期刊 |RNA-seq數據計算方法大匯總
    為了回答各種生物問題,十年來不同領域的研究者已為第二代RNA-seq數據分析提出了超過2000種計算與分析方法。該綜述文章從四個層面(樣本,基因,轉錄本,和外顯子)對RNA-seq數據的分析方法進行了總結,旨在歸納看似不同的方法背後共通的統計假設和模型。
  • 差異基因分析方法——p-value
    我們都知道,在利用RNA-seq數據比較分析兩個樣品中同一個基因是否存在差異表達的時候,一般選取兩個標準:1)FoldChangeFoldChange,很容易理解了。就是兩樣品中同一個基因表達水平的變化倍數。
  • R語言mRNA差異表達分析
    第四列是P值,其零假設是這個基因的表達在正常組織和癌症組織上是一樣的,因此P<0.05可認為某個基因在兩組間表達有顯著差異。第五列FDR是對P值的校正結果,一般使用FDR小於0.05。[i,1],14,15)) if (num %in% seq(1,9)) {metadata[i,2] <- "tumor"} if (num %in% seq(10,29)) {metadata[i,2] <- "normal"}}     打開基因數據這個文件夾 可以看到裡面有182個文件夾,每一個文件夾裡面還有1
  • 從數據分析到結論產生,談談scATAC-seq
    因此,理解基因型-表型軸需要一個全面的功能性非編碼基因組元件目錄,其中大部分涉及基因表達的表觀遺傳調控。開放染色質區域的全基因組圖譜可以通過它們與特徵相關序列變異型的聯繫來促進順式和反式調節元件的功能分析。目前,高通量測序分析轉座酶可及染色質(ATAC-seq)被認為是全基因組可及染色質的最易獲得和最具成本效益的策略。
  • 3*差異分析方法和可視化方法匯總
    這次我們推出的課程更加側重於分析技能和技巧的講解,相信客戶能夠更好的進行復現和重複。2、所涉及的代碼操作,參數全部外置,客戶可以不用讀懂代碼也可以操作。4、所有的課程都提供demo數據測試,並經過了內部審核。Limma、RankRrod、Deseq2、edgeR、t-test。
  • RNA-seq的標準化方法的不完全整理
    >基因長度不同,為了能夠比較不同的樣本,比較不同的基因的表達量,以及使表達水品分布符合統計方法的基本假設,就需要對原始數據進行標準化。對於一個新興的領域,通常會有50多種算法,但是最後常用的,其實也就那麼幾個。在RNA-seq標準化這個領域也是如此,目前用的最多也就是, RPKM/FPKM, TPM,但是注意,有些時候一個方法出現的多,單純是因為公司沒有修改他們的分析流程。
  • RNA-seq的3的差異分析R包你選擇哪個
    很多課題組導師都認為做一個RNA-seq項目就能發CNS啦,就跟這兩年大家以為做一個單細胞轉錄組項目就可以發CNS的堅信程度是一模一樣的!直到現在(2020),基於高通量測序技術的RNA-Seq方法仍然是轉錄組學研究中必不可少的工具。截止到(2016)已經普遍接受的是,標準化預處理步驟可以顯著提高分析質量,特別是對於差異基因表達分析而言。
  • C-Myc 與RNA-seq分析
    如果沒太了解過2012年相關cell paper的人可能有疑問,我說說RNA-seq的優勢,說說C-Myc如何在生物學中起作用,但這兩點似乎沒有太大的聯繫,除了C-Myc是調控轉錄,RNA-seq是分析轉錄表達量的問題。Okay,它們的聯繫就在於轉錄調控與轉錄定量。
  • Genome Biology|VIPER:在單細胞RNA測序中為精確的基因表達恢復...
    例如,scRNA-seq已被應用於對新細胞亞型和細胞狀態進行分類,進行空間定位,鑑定差異表達基因,以及研究基因表達變異的遺傳基礎。但是,由於RNA轉錄組的數量較少以及基因表達的隨機性,在scRNA-seq數據中有很高的概率將非零值判斷為零,這被稱為「dropout」事件。
  • 除了火山圖,差異表達基因還可以這樣展示
    轉錄組分析中,計算了兩組間差異表達的基因後,通常怎樣表示?接下來通過該示例文件,展示使用R語言繪製差異基因表達「對稱散點圖」過程。首先對數據做一些預處理。例如,基因表達值數量級相差過大,取個對數轉換;基因名稱按是否為差異基因作個排序,避免後續作圖時被不顯著的基因點遮蓋,即排序的目的是讓這些顯著基因的點都位於圖的上方。
  • ...DISC:使用半監督深度學習推斷單細胞轉錄組的基因表達和結構
    本文設計了許多實驗證明DISC具有適用性,可擴展性和可靠性,這使DISC成為恢復基因表達,增強基因和細胞結構以及改善識別稀疏單細胞RNA測序 (scRNA-seq) 數據的細胞類型的有前途方法。一、相關介紹scRNA-seq以單細胞的方式測量轉錄組,並廣泛用於揭示細胞異質性和多樣性。
  • 基因表達+突變分析利器
    小夥伴們大家好呀,今天要為大家介紹的是於2020年9月1日發布的資料庫muTarget(http://www.mutarget.com/),分析實體瘤中基因表達變化和突變狀態的資料庫。Sequencing Version 2平臺生成的原始高通量測序(HTSeq)分析RNA-seq數據。
  • 單細胞轉錄組高級分析四:scRNA數據推斷CNV
    本專題將介紹一些單細胞轉錄組的高級分析內容:多樣本批次校正、轉錄因子分析、細胞通訊分析、基因集變異分析和更全面的基因集富集分析。不足之處請大家批評指正,歡迎添加Kinesin微信交流探討!inferCNV是大名鼎鼎的broad研究所開發的,可以使用單細胞轉錄組數據分析腫瘤細胞CNV。
  • 數位化基因表達譜分析相關案例
    案例一: 研究者將人類乳腺癌細胞和正常細胞進行SAGE-Seq分析(即DGE),檢測到大量差異表達的基因。進一步做GO和pathway功能分析,發現了許多與癌症相關的基因和通路。
  • 單細胞測序揭秘COVID-19,TotalSeqTM & scRNA-seq 「珠聯璧合」不能少
    對於當下的COVID-19的助力,TotalSeqTM 和 scRNA-seq 的「珠聯璧合」具體體現在哪些方面呢?由於BCR的可變區序列與抗體的可變區序列相同,因此獲得相應的BCR序列即可體外大規模製備抗體,相對於VDJ scRNA-seq 篩選中和抗體而言,LIBRA-seq篩查的方法更加直接有效[3]。
  • 基因測序(視頻+課件),輕鬆學會數據的處理和分析
    比如,什麼是基因組,什麼是轉錄組,什麼是蛋白組,什麼是染色體,什麼是基因,什麼是基因重組,什麼是進化/演化,什麼是表觀遺傳,什麼是變異,變異類型有哪些,NGS技術是什麼,測序儀的工作原理是什麼,DNA是如何被測出來的等這些東西。因為,你只有真正了解數據是如何來的,才能更好地明白數據該如何處理和分析,以及如何才能有效地挖掘出它背後隱含的生物知識。