重磅推薦值得收藏! | RNA-seq的十年(上)

2021-02-15 植物生物技術Pbj

作者把《RNA sequencing: the teenage years》這篇綜述翻譯了一下,全篇漢字大約是3萬字,比較長,為了方便閱讀,把它拆成3篇放出來,分別是上,中,下篇。上篇講的是常規RNA-seq的發展;中篇講的是常規RNA-seq數據處理的一些流程與工具,例如TopHat,STAR,RSEM,Salmon等;下篇講的是RNA-seq的在高級應用,涉及空間轉錄組學,翻譯組學等等。

文獻信息

本文是2019年7月份發表在《Nature Reviews Genetics》上的有關RNA-seq的綜述文章。

文獻信息如下所示:

Stark, R., et al. (2019). 「RNA sequencing: the teenage years.」 Nature Reviews Genetics.

摘要

在過去的十年中,RNA測序(RNA-seq)已經成為在全轉錄組範圍內分析差異基因表達和mRNAs差異剪接的重要工具。然而,隨著下一代測序技術的發展,RNA-seq技術也在不斷發展。現在,RNA-seq用於研究RNA生物學的許多方面,其中包括單細胞基因表達、翻譯(翻譯組,translatome)和RNA結構(結構組,structurome)。RNA-seq的其它應用也在開發中,例如空間轉錄學(spatialomics)。加上新的長讀長 (long-read,註:在本文中,RNA-seq測序生成的read統一譯為「讀長「)和直接RNA-seq(direct RNA-seq)技術以及用於數據分析的更好的計算工具的整合,RNA-seq技術的創新有助於人們更全面地理解RNA生物學,例如從何時何地轉錄發生到控制RNA功能的摺疊和分子間相互作用等問題。

前言

RNA-seq技術出現於十年之前,自其誕生之日起,RNA-seq就成了研究分子生物學的普遍工具,這項技術幾乎構成了我們對基因組功能的認知基礎 。RNA-seq中最常用的分析方法就是找出差異基因表達(Differential gene expression, DGE)。從最早的出版期刊開始,DGE分析的基本階段就未發生實質性的改變。在實驗室中,其標準流程就分為三步:

第一步是構建測序文庫,這一步驟包括提取RNA,富集mRNA或清除核糖體RNA,合成 cDNA,加上接頭。

第二步,在高通量平臺(通常是Illumina平臺)上對文庫進行測序,每個樣本的測序深度為10-30M讀長數(讀長這裡就是前面說的reads)。

第三步是數據分析,具體的工作是:對測序得到的讀長進行比對(aligning)和/或組裝到轉錄組上,對這些覆蓋了轉錄組的讀長進行過濾,歸一化(Normalization),根據統計模型找出那些在不同樣本之間有差異的轉錄本。早期的RNA-seq從大量的實驗樣本中產生了DGE數據,這充分說明了RNA-seq在廣泛的生物體以及系統中的使用,這些生物體包括玉米(Zea mays), 擬南芥(Arabiodopsis thaliana), 釀酒酵母(Saccharomyces cerevisae),小鼠(Mus musculus)以及人類。雖然RNA-seq這個術語經常被用於那些完全不同的方法學方法和/或生物學,但是DGE分析仍然是RNA-seq(補充材料中的表1)的主要應用,並被視為常規研究工具。

RNA-seq的更廣泛應用已經促進了我們對生物學多方面的理解 ,例如通過提示mRNA剪接和非編碼RNAs和增強子RNAs對基因表達的調控。RNA-seq的應用和進步是由技術發展(溼實驗室和計算生物學)驅動的,相對於以前的基因晶片,RNA-seq這種方法對RNA生物學和轉錄組產生更豐富並且偏見更小的信息。到目前為止,從標準的RNA-seq方法衍生而來的各種RNA-seq方法幾乎有100種。Illumina的短讀長(short-read)測序平臺能對這些由大部分不同方法的RNA-seq構建的文庫進行測序,但是最近長讀長(long-read)RNA-seq的與直接RNA-seq測序(direct RNA sequencing, dRNA-seq)的進步已經能夠解決以前研究人員使用短序列手段無法解決的一些問題。

在這篇綜述中,我們首先會介紹一些最基本的短讀長RNA-seq中的DGE方法,再將這種基礎方法與最近新興的長讀長RNA-seq和dRNA-seq進行比較。我們會介紹短讀長測序方法在文庫製備方面的進展,以及實驗設計和DGE的數據分析方法。隨後我們會拓展這些常規的RNA-seq方法,介紹一些單細胞測序和空間轉錄組學的分析。我們會提供一些案例,介紹RNA-seq在RNA生物學方面的關鍵應用,包括轉錄組分析,翻譯動力學,RNA結構,RNA-RNA之間相互作用和RNA-蛋白質的相互作用。最後,我們會簡單描述一下RNA-seq的未來,以及單細胞和空間RNA-seq方法是否會像DGE分析一樣成為常規工具,長讀長測序方法是否會取代短讀長測序方法。由於篇幅限制,我們無法介紹所有的RNA-seq方法,在這些方法中,值得注意的是非編碼轉錄組學,原核轉錄組學(prokaryotic transcriptomes)和表觀轉錄組學(epitranscriptome)。

RNA-seq技術的發展歷史

Illumina的短序列讀長測序技術生成了SRA(Short Read Archive)中95%已表達的數據(附件表2)。由於cDNA的短序列讀長測序方法幾乎是一種常規的方法,因此 我們認為這是一種最基礎的 RNA-seq技術,我們先來討論這種測序主要流程與局限。不過,長讀長cDNA測序與dRNA-seq已經興起,隨著研究人員對能提供更豐富轉錄本水平方面(isoform-level)數據需求增大,這兩種新的測序方法有望對常規的短讀長測序方法提出挑戰(FIG1, TABLE1)。

Table1-短讀長與長讀長RNA-seq平臺測序技術平臺優勢劣勢重要應用短讀長cDNAIllumina,   Ion   Torrent①高通量,一次運行產生的讀長是長讀長平臺的100倍到1000倍。②偏倚與錯誤明確(對Ion   Torrent平臺來說,聚合物(homopolymers)仍是一個問題)。③ 現在有大量可兼容的方法和計算流程;  4. 可對降解的RNA進行分析。①樣本製備包括逆轉錄,PCR與片段大小選擇,所有的這些操作增加了測序偏倚。②針對異構體檢測與定量的能力有限。③轉錄本發現分析需要從頭對轉錄本進行比對和/或組裝步驟。幾乎所有的RNA-seq方法都已經是針對短讀長cDNA測序而開發的:DGE,WETA,smallRNA, 半日細胞,空間轉錄組,nascent RNA,翻譯組,結構和RNA-蛋白質相互作用分析等等。長讀長cDNAPacBio,   ONT①可捕獲1-50kb的長讀長;  ②從頭轉錄組分析方法簡單。①中低通量:目前一次運行只能生成0.5M到10M的讀長;②樣本製備包括逆轉錄,PCR和片段選擇,增加了偏倚;③針對降解的RNA分析能力有限。用於研究新異構體,從頭轉錄組分析,融合轉錄本發現,MHC,HAL或其它複雜的轉錄本分析。長讀長RNAONT①可捕獲許多1-50kb的全長轉錄組;②從頭轉錄組分析方法簡單;  ③樣本製備並不需要進行逆轉錄或PCR,從而降低了PCR導致的偏倚;④ 可檢測RNA的修飾;⑤ 直接在單細胞水平上對poly(A)進行估計。  ①低通量,目前一次運行只能生成0.5M到1M的讀長;②樣本製備與測序偏倚不明;③無法對降解的RNA進行分析。①用於研究新異構體,從頭轉錄本分析,融合轉錄本,MHC,HLA或其它的複雜轉錄本分析。②檢測核糖核酸修飾。Figure 1-短讀長,長讀長和直接RNA-seq技術與工作流程

Figure 1-短讀長,長讀長和直接RNA-seq技術與工作流程。

(a)不同RNA-se方法的文庫製備,這些方法可以分為3種,分別是短讀長測序(黑色),長讀長測序(綠色),或長讀長直接RNA-seq(藍色)。根據使用的文庫製備方法不同,文庫製備會表現出相應的複雜性和偏倚。短讀長與長讀長cDNA文庫在製備時有一些步驟是相同的,不過所有的方法都需要一個接頭連接步驟,並且它們都受到樣本質量和文庫上下遊計算問題的影響。

(b)三種主流的RNA-seq測序方法。

Illumina的工作流程(左邊):文庫製備好後,每個cDNA就會在一個泳道(flowcell)上通過合成來聚集成簇,其中合成的過程使用3』阻斷的螢光標記的核苷酸。在每一輪測序的過程中,新合成的DNA鏈就會被成像,從而檢測出參與合成的是哪種核苷酸,這種測序方法產生的讀長是50-500bp。

Pacific Biosciences工作流程(中間):文庫製備好後,每個分子被加載到一個測序晶片上,在晶片上這些分子與固定到納米孔(nanowell)底部的聚合酶進行結合。隨著每一個螢光標記的核苷酸被整合到新合成的鏈上,這些核苷酸發出的螢光就會被檢測到,這種方法產生的讀長為50kb。

Oxford納米孔工作流程(右邊):文庫製備好後,每個分子被加載到流動室(flowccell)中,流式室中含有馬達蛋白,馬達蛋白固定在流動室中,它可以與文庫的接頭結合。馬達蛋白控制RNA鏈通過納米孔,從而造成納米孔中電流的改變,這種技術產生的讀長為1-10kb。

(c) 短讀長、長讀長與直接RNA-seq分析的比較。超過90%的人類基因(gene n)存在可變剪接,它們會形成兩個或更多的可表達異構體(轉錄本x與y)。短讀長cDNA測序中就增加了捕獲信息的複雜性,短讀長對異構體的檢測會受到其讀長的限制,在這種技術裡,短讀長無法精確地回貼(註:測序分析方法中的術語「map「在本文中都譯為」回貼「)到轉錄組上,而長讀長測序方法則能直接鑑定異構體。在短讀長cDNA測序中,有很大比例的讀長會不明確地回貼到不同異構相同的外顯子上;而那些跨越了外顯子-外顯子連接處的讀長可以提高對異構體的分析效果,但是當不同的異構體都含有這個連接處時,這種操作意義不大。這些問題都加劇了數據分析的複雜性,以及無法對結果進行明確地解釋。長讀長cDNA方法能夠產生全長的異構體讀長,從而去除或大幅度降低這些不精確的結果,並改進差異異構表達的分析結果。然而這些方法依賴於cDNA的轉換,它去除了RNA鹼基的修飾信息,並且只能粗略地估計多聚腺苷酸(poly(A))尾巴長度。直接RNA-seq可以進行全長導構體分析,鹼基修飾檢測(例如N6-甲基腺苷(M6A))和poly(A)尾巴長度估計。

短讀長cDNA測序

短讀長已經成了在整個轉錄組範圍內對基因進行檢測和定量的事實方法(de facto method),部分原因是這種方法比晶片成本更低,操作更方便,但是其主要原因還是因為這種方法能生成更全面,更高質量的數據,這種方法能夠 對整個轉錄組中的基因表達水平進行定量。使用Illumina短讀長測序平臺進行DGE分析的核心步驟包括:RNA提取、cDNA合成、接頭連接、PCR擴增、測序和數據分析(FIG1)。在這個過程中,存在打斷片段,片段長度選擇和基於磁珠的文庫純化這些操作,因此這種方法產生的cDNA片段通常都是在200bp以下。RNA-seq文庫的測序讀長分配到每個樣本上的話,每個樣本會測到平均20-30 million條讀長(reads)(也就是常說的20-30M條讀長),數據經過處理後,使用這些讀長對每個基因或轉錄本進行定量,最後再用統計學方法來統計基因的差異。短讀長RNA-seq方法很穩健,並且通過對短讀長測序技術的大範圍比較發現,這種技術在平臺內和平臺間的相關性很好。但是,在樣本製備和數據分析這兩個階段會引入一些幹擾和偏倚。這種局限可能會影響通過實驗來解決特定生物學問題的能力,例如準確識別和量化多個異構體中的哪個來源於一個基因。對於研究那些非常長,高度可變的轉錄本異構的人來說,這種局限表現得尤為明顯,例如在人類轉錄組研究中;人類轉錄本的長度範圍是109bp到186kb,其中50%轉錄本長度大於2500bp。儘管短讀長RNA-seq可以對最長的轉錄本進行詳細的分析,但是涉及的實驗方法不能擴展到全轉錄組分析。其他的偏倚與局限來源於那些大量的計算方法,這些方法包括例如如何處理模糊或多個回貼的讀長(multi-mapped reads)。現在出現了一種合成長讀長(synthetic long reads)的新方法,這種方法可以實現全長的mRNA測序,並試圖解決其中的一些局限。這種方法使用了唯一分子標識符(unique molecular identifiers,UMI)來標記全長的cDNA,在製備短讀長RNA文庫之前,加入的UMI會隨著單個cDNA分子而進行複製。轉錄本異構體可以在高達4kd的contigs中重建,用於發現異構體和表達分析。但是,對於從根本上解決短讀長cDNA測序固有局限的最可能解決方案則是長讀長cDNA測序和dRNA-seq測序 。

長讀長cDNA測序

雖然Illumina測序目前是佔主導地位的RNA-seq平臺,但PacBio和Oxford Nanopore(ONT)公司都提供了可供選擇的長讀長技術,能夠對完整的單個RNA分子進行單分子水平級的測序。通過消除短RNA-seq測序數據的組裝這一步,這些新方法克服了短讀長測序方法相關的一些問題。例如,減少了測序讀長回貼過程中的歧義,並且可以識別更長的轉錄本,這樣就能獲取更完整的異構體多樣性信息。這些方法還能降低許多短讀長RNA-seq計算工具中關於剪接連接的假陽性。

PacBio的Iso-Seq技術可以讀取最高可達15kb的轉錄本的全長cDNA,這就有利於發現大量以前未注釋的轉錄本,並通過檢測物種的全長同源序列證實了早期的基因預測。在標準的Iso-Seq操作流程中,高質量的RNA被一個模板切換凝聚力轉錄酶(a template-switching reverse transcriptase)反轉錄為全長的cDNA。生成的cDNAs再經過PCR擴增,加入到PacBio的單分子實時(single-molecule, real-time)文庫製備系統中。製備好的短轉錄本序列可以很快地擴散到測序晶片的活性表面,但由於短轉錄本的測序存在偏倚,因此在對轉錄本進行測序時,建議選擇片段的長度是1到4kb,這樣就能在此範圍對長轉錄本和短轉錄本進行更加均勻地採樣。由於PacBio測序方法需要大量的模板,因此需要進行多輪PCR,不過這一操作還需要進行優化,從而降低擴增導致的偏倚。經過PCR的末端修復和PacBio SMRT接頭連接後,就可以進行長讀長測序了;通過修改測序晶片的上樣條件,就可以在這一步驟進一步控制測序片段長度。

ONT cDNA測序方法也能產生全長的轉錄本讀長,甚至還能在單細胞水平上產生該讀長。模板轉錄逆轉錄酶也在這種方法中用於製備全長cDNA,製備好的cDNA可以選擇使用PCR來進行擴增,隨後在產物上加上接頭,形成測序文庫。直接cDNA測序會消除PCR偏倚,從而形成高質量的測序結果;但是,如果使用PCR來製備測序文庫的話,需要的RNA數量更少。ONT cDNA測序法尚未報導過在PacBio測序儀上觀察到的片段長度偏倚。

這兩種長讀長cDNA方法都受到標準模板切換逆轉錄酶使用的限制,這種逆轉錄酶能用全長RNA以及截短的RNA來生成cDNA。逆轉錄酶可以將那些只含5ʹ帽子結構的mRNA置換為cDNA,這樣的話,那些由於RNA降解,RNA剪接或不完全cDNA合成而生成的短轉錄本就不會被反轉錄為cDNA,從而提高數據質量。但是,有報導指出,逆轉錄酶會對ONT平臺的讀長產生不良影響。

長讀長直接RNA測序

前面我們提到了長讀長測序方法,這種測序方法與短讀長測序平臺一樣,它們都依賴於將mRNA轉換為cDNA。而最近Oxford Nanopore指出,他們的納米孔測序技術可以直接對RNA進行測序,也就是說,這種測序手段不需要常規測建庫過程中的的cDNA的合成和/或PCR擴增操作。這種方法稱為dRNA-seq,這種方法就消除了常規建庫過程中的偏倚,並且能夠保留表觀遺傳學信息。這種方法可以從RNA直接進行兩個接頭的連接來製備文庫。首先,帶有一個oligo(dT)懸臂的雙鏈核酸接頭退火併連接到RNA的多聚腺苷酸(PolyA)尾部,隨後就是可選(但不推薦的)的逆轉錄操作,這一步用於提高測序的通量。第二個連接操作就是添加測序接頭,這個測序接頭上已經提前安裝有驅動測序的馬達蛋白。文庫隨後進行MinION測序,其中RNA直接從3ʹpoly(A)尾部向5ʹcap端進行測序。最初的研究表明,dRNA-seq的測序長度過超過1000bp,最大測序長度過超過10kb。與短讀長測序相比,這種長讀長測序的幾個優勢在於:長讀長測序可以提高對異構體的檢測,並且它們還可以用於下方代碼poly(A)尾巴的長度,這對於可變poly(A)分析( alternative poly(A) analysis)來說非常重要。Nanopolish-polya這個工具可以對那些用納米孔測序得到的數據進行分析,計算出poly(A)尾的長度,這就包括基因之間的長度,也包括轉錄亞型之間的長度。這種分析證實了,保留內含子的轉錄本比完全剪接的轉錄本具有略長的poly(A)尾巴。雖然dRNA-seq還處於起步階段,但是它具有檢測RNA鹼基修飾的潛力,因此它的應用潛力巨大,尤其是能夠對表觀遺傳學轉錄進行新的分析。

長讀長與短讀長技術的比較

雖然長讀長技術在評估轉錄本方面比短讀長技術有一些明顯的優勢,但是長讀長技術也有一些明顯的局限。尤其是與短讀長技術相比,長讀長技術的測序通量更低,錯誤率更多。但長讀長技術的主要優勢在於,它們能夠捕獲更多的單個轉錄本,不過這依賴於高質量的RNA文庫。總體來說,這些局限影響了那些完全依賴於長讀長測序實驗的靈敏性(sensitivity)與特異性(specificity)。

長讀長測序方法的主要局限就是當前的通量。在Illumina平臺上,運行單次的RNA-seq可以生成10E9-10E10條短讀長,但是在PacBio和ONT平臺上,一次RNA-seq則只能產生10E6-10E7條讀長。這種低通量限制了應用長讀長測序技術進行實驗的規模,並降低了對差異基因表達檢測的靈敏性。然而,並非所有的實驗都需要高深度測序。對於那些主要研究異構體的發現以及其特徵的研究者們來說,測序長度比測序深度更重要。例如1百萬個PacBio環形一致性測序(circular consensus-sequencing, CCS)的讀長几乎就可以保證產生那些大於1kb的高表達基因的檢測,ONT測序技術也是如此。因此,對於那些低到中等水平表達的基因來說,測序深度確實是一個主要問題。當進行同期功能基因組學分析(contemporary functional genomics analysis)大規模的DGE實驗時,這種低通量測序技術的局限就會表現得明顯。在這些研究中,必須對多個樣本組進行分析,每組就是由多個生物學重複構成的,這樣就能夠實現充分的統計功效來有確認那些在整個轉錄組水平上發生的精確變化。對於這種需求,長讀長技術不太可能取代短讀長技術,除非長讀長的測序讀長的生成量能提高2個數量級。隨著全長RNA-seq讀長數目的增加,轉錄本檢測的靈敏度將會增加到類似於Illumina平臺上的這種水平,並同時具有更高的特異性。與此同時,通過將Illumina 的短讀長RNA-Seq與PacBio的長讀長Iso-Seq結合(並且可能還與ONT方法結合),可以增加全長RefSeq注釋的異構體檢測的數量、靈敏性和特異性,同時保留轉錄本量化的質量。雖然長讀長RNA-seq方法目前的實驗成本較高,但它們可以檢測到短讀長方法遺漏的異構體,尤其是那些難以測序但與臨床相關的區域,例如高度多態的人類MHC或雄激素受體。

長讀長測序平臺的第二個主要局限就是其更高的錯誤率,它比成熟的Illumina測序儀要高出一到兩個數量級。長讀長測序平臺上生成的數據還包含更多的插入-刪除錯誤。雖然這些錯誤與識別變化(variant calling)有關,但在RNA-seq中,每個鹼基都被正確識別並非那麼重要而長讀長測序的目標是要闡明轉錄本和異構體(While these error rates are of concern for variant calling, in RNA- seq it is less crucial that every base be called correctly, as the goal is only to disambiguate transcripts and isoforms)。這種錯誤率對於其應用來說確實是一個值得觀注的問題,現在正在解決這一問題。PacBio SMRT測序平臺上出現的隨機錯誤通常可以通過使用CCS增加測序深度來進行解決,在這種技術裡,cDNA經過長度選擇和接頭進行環化後,每個分子就可以被多次測序,從而產生長度範圍是10-60kb的連續長讀長,並且包含許多原始cDNA的拷貝。這些長讀長經過數據分析後就被處理為單個cDNA子子讀長(subreads),這些子讀長被組合後就可以產生一致的序列。分子測序的次數越多,產生的錯誤率就越低;CCS已經被證明可以將錯誤率降低到與短讀長相當的水平,甚至更低。但是,將更多的這個平臺的測序能力用於重新讀取相同的分子,就又加劇了其測序通量的問題,因為可以讀取的唯一轉錄本變得更少了。

長讀長RNA-seq方法的靈敏度還受到其他幾個因素的限制。首先,它們依賴於長RNA分子以全長轉錄本的形式進行測序,但是要達到這種情況並非總能實現,因為在樣品處理和RNA提取過程中RNA會發生降解或剪接。這種情況在短讀長RNA-seq中也存在(3ʹ端的偏倚),但這種問題在短讀長中是可控的,對於全長轉錄組分析進行研究的研究者們來說,即使是低水平的RNA降解,也能限制長讀長的RNA-seq效果。因此,對於那些即將使用長讀長進行測序的研究者來說,需要仔細地對提取的RNA進行質控。其次,中位數的讀長長度會進一步受到文庫製備中的技術問題與偏倚的限制,例如有些cDNA合成的截斷或某些cDNA是由降解的mRNA合成的,最近開發的高效逆轉錄酶對此有所改進,這些酶有著更高的鏈特異性,甚至能夠產生更多的3ʹ-5ʹ轉錄本的覆蓋。雖然這些酶還未被廣泛使用,但是這些高效逆轉錄酶也提高了結構穩定的RNAs,例如tRNAs的覆蓋率,在oligo-dT和全轉錄組分析(WTA)方法中使用的逆轉錄酶很難處理這些結構穩定的RNAs。第三,長讀長測序平臺固有的偏倚(例如長文庫分子在測序晶片表面上的低擴散)會降低更長轉錄本的覆蓋率。

長讀長方法(使用cDNA或dRNA-seq)解決了用於異構體分析的短讀長測序方法中的一個基本問題,即它們的讀長長度。長讀長方法可以生成從Poly(A)尾部到5ʹcap的跨異構體的全長轉錄本讀長。因此,這些方法使得分析轉錄本及其異構體成為可能,從而無需從短的讀長中重構它們或推斷它們的存在;每個測序的讀長僅僅代表了它的起始RNA分子。全長cDNA測序或dRNA-seq用於分析DGE的未來應用將依賴於PacBio和ONT技術的更高通量。長讀長RNA-seq分析正被研究者們迅速採用,並與深度短讀長RNA-seq數據結合起來,用於更全面的分析,這非常類似於基因組組裝所採取的混合方法。隨著時間的推移,長讀長和dRNA-seq方法可能會用於證明已經鑑定的基因和轉錄本的列表,即使在研究很透的生物中,對於基因和轉錄本的研究也還遠遠不夠。隨著方法的成熟,以及測序通量的增加,差異轉錄本分析將會成為常規方法。合成長讀長RNA-seq或其它技術的發展將對這個領域產生什麼樣的影響,還有待觀察。然而從目前來看,Illumina短讀長RNA-seq依然佔據了主導地位,在這篇綜述的剩下部分中我們將會集中討論短讀長測序。

改良RNA-seq建庫方法

RNA-seq最初用於分析多聚腺苷酸化的轉錄本,使用的方法源於早期的表達序列標籤(expressed-sequence tag)和晶片研究。然而,下一代測序的使用指出了這些方法的局限性,而這些局限性在晶片數據中並不明顯。因此,在RNA-seq首次報導後不久,就有研究報導了文庫製備方法的一些重大進展。例如,在cDNA合成之前,對RNA進行片段化可以產生3ʹ:5ʹ偏倚,鏈特異性文庫製備方法能夠更好的區分正義鏈與反義鏈,這些改進都能夠對轉錄本豐度進行更準確的估計。RNA片段化和鏈特異性文的製備很快就成了RNA-seq文庫製備試劑盒中的標準方法。這裡我們簡要描述了其它RNA-seq方法的改良,使用這些改進方法的可以讓研究者們根據他們的生物學問題以及特定樣本進行選擇。這些改進的方法包括在選擇RNA進行測序時,取代dligo-dT富集的替代方法,或者是那些專門選擇轉錄本的3ʹ或5ʹ末端的方法,或者是使用UMIs進行區分技術重複和生物重複的方法,以及針對RNA易降解特性改良的文庫製備方法。這些方法的組合可以使研究者們闡明由可變poly(A)(alternative poly(A),APA),或替代啟動子(alternative promoter)使用和可變剪接(alternative splicing)生成的複雜轉錄本。

Poly(A)富集的替代方法

大多數發表的RNA-seq數據都是基於oligo-dT富集的mRNA方法,這種方法會選擇包含poly(A)尾的轉錄本,並將集中測序測序那些在轉錄組的蛋白質編碼區上。不過這種方法除了產生3ʹ偏倚外,RNA中還有許多非編碼RNA,例如miRNA和增強子RNA,這些RNA不含有poly(A),因此不能使用這種方法進行研究。如果不進行poly(A)富集也無法達到目的,因為這會導致高達95%的讀長來源於rRNA。因此,研究者們可以選擇使用oligo-dT用於mRNA-seq,或者是剔除rRNA後進行WTA。短的非編碼RNAs無法被oligo-dT方法捕獲,使用WTA也很難對其進行研究,因此在研究非編碼短RNA時需要特定的小RNA方法,這些方法主要是通過順序RNA連接(sequential RNA ligation)實現的(通常小RNA建庫試劑盒中就有相應的說明)。

WTA生成的RNA-seq數據來源於編碼和一些非編碼RNA。RNA的部分降解也能使用這種方法進行測序,RNA的降解會導致一些poly(A)從轉錄的末端分離。rRNA的去除有兩種方法,一種是將rRNAs從其它RNA中剔除掉(所謂的pull-out法),另一種就是使用RNAse H酶來對rRNA進行降解。這兩種方法都是使用序列特異性和物種特異性寡核苷酸探索來實現的,這些探針能與細胞質rRNA(5S rRNA,5.8S rRNA,18S rRNA和28S rRNA)和線粒體rRNA(12S rRNA和16S rRNA)互補。為了簡化人類,大鼠,小鼠或細菌(16S和23S rRNA)樣本的處理,通常將預先混合的寡核苷酸添加到RNA中,然後讓它們與rRNA進行雜交,以便進行下一步的清除。其它高豐度的轉錄本,例如珠蛋白(globin)或線粒體RNA也可以按照類似的方法去除。pull-out方法結合了生物素化的探針和鏈黴素包裹的磁珠,它們可以用於除去寡聚的rRNA複合物,留下剩餘的RNA用於建庫例如Ribo-Zero(Illumina,USA)和RiboMinus(Thermo Fisher,USA)。RNase H酶降解法可以降低那些生成的loigo-DNA:RNA複合物,例如,NEBNext RNA depletion(NEB,USA)和RiboErase(Kapa Biossystems,USA)。最近對這些方法的比較說明,在高質量的RNA中,這兩種方法都可以將rRNA降低至後續RNA-seq讀長的20%以下。但是,作者說明了,RNase H方法比pull-out法的穩定性要強,並且比較不同試劑盒時,最後得到的DGE長度的偏倚比較明顯。作者還描述了另外一種類似於RNase H的方法,這種方法表現不錯,並且以前沒有報導過。ZapR方法是Takara Bio的一項專有技術,它使用一種酶來降解RNA-seq文中的rRNA片段。rRNA剔除方法的一個局限是,相比對oligo-dT RNA測序方法,rRNA剔除方法需要更高的測序深度,主要是因為裡面還會存有一定的rRNA。

Oligo-dT和rRNA剔除法都可以用於後續實驗的DGE分析,研究者們可能會默認使用以前在他們的實驗室中使用的方法或最容易使用的方法。然而,對於這些方法的使用應該考慮一些因素,尤其是那些易降解的樣本,另外,WTA方法會檢測到更多的轉錄本,但是其實驗成本要高於oligo-dT方法。

富集的RNA 3ʹ末端用於Tag RNA-seq以及可變多聚腺苷酸分析(Enriching RNA 3ʹends for Tag RNA- seq and alternative polyadenylation analysis.)

標準的短讀長Illumina方法需要對每個樣本生成10萬到30條(10M到30M條)讀長用於高質量的DGE分析。對於那些專注於基因水平表達,並從事大型或高度重複實驗的研究者們,或資源受限的研究者來說,可以選擇使用3ʹtag計數。由於測序集中在轉錄本的3ʹ末端,因此需要的讀長(reads)更少,這就降低了成本,並且一次測序的樣本數目也可以更多。富集的3ʹ末端也可以用於確定單個轉錄本的poly(A)位點,而由於mRNA前體上存在的APA,其3『末端可能會發生變化。

3ʹ mRNA-seq方法會產生每個轉錄本的單個標籤讀長(tag read),這些讀長來源於3ʹ末端,這個標籤(tag)豐度與轉錄本的豐度是成正比的。標籤測序法(tag-sequencing protocols),例如QuantSeq(Lexogen, Austria)通常比標準RNA-seq法流程更為簡單。標籤測序法已經進行了優化,這種方法使隨機引物或錨定的oligo-dT-primed來進行cDNA合成,從而並不需要poly(A)富集這一步驟,並在cDNA合成後立即進行PCR,從而取代了接頭連接步驟。這種方法可以在低測序深度上實現與標準RNA-seq類似的靈敏度水平,因此,這種方法可以使用多路復用的形式實現多個文庫的同步測序。這種建庫方法的數據分析也進行了簡化,因為不需要外顯子連接檢測和基因長度測序讀長的歸一化。但是,3ʹ mRNA-seq方法可能會被受到轉錄本同聚區(homopolymeric regions0的影響,這會導致錯誤標籤;這種方法只能提供非常有限的異構體分析,這就會抵消它們較低測序深度帶來的任何成本收益,尤其是對於那些僅夠一次使用的樣本來說。

mRNAs的APA化會產生3ʹ UTR長度不等的異構體。對於一個特定的基因來說,它不僅產生了這個基因的多個亞型,而且由於3ʹUTR中存在著順式調控元件,這也會影響該轉錄本的調控。這種方法可以使用那些研究APA的研究者們更詳細地研究miRNA的調控作用,mRNA的穩定和定位,以及mRNA的翻譯。APA法指在富集轉錄本的3ʹ末端,從而提升信號與靈敏度,而前面提到的標籤測序法非常適合此目的。其它方法多聚腺苷酸位點測序(polyadenylation site sequencing,PAS-seq),這種方法可以將mRNA打斷為150bp左右的片段,並且使用oligo-dT標記的模板轉換來生成cDNA用於測序,其中的80%讀長就來源於3ʹUTR。TAIL-seq方法能不使用oligo-dT,在對RNA進行打斷之前,這種方法會剔除rRNA,並將3ʹ-RNA接頭連到的poly(A)的尾部。當片段化後,再加上5ʹ-RNA接頭就完成了RNA-seq文庫的製備。在RNA-蛋白分析方法中也能評估APA,例如紫外交聯免疫沉澱(cross- linking immunoprecipitation, CLIP)測序。

富集的RNA 5ʹ末端用於起始位點回貼(Enriching RNA 5ʹends for transcription start- site mapping)

使用富集7-甲基鳥苷5ʹ加帽RNA(7-methylguanosine 5ʹ-capped RNA)也可以進行DGE分析,這種方法可以用來鑑定啟動子和轉錄起始位點(TSSs)。現存有幾種方法都可以實現這個目的,但是這些方法很少作為常規手段來進行使用。在對基因表達的加帽分析(CAGE, cap analysis of gene expression),以及用於基因表達分析的啟動子的RNA注釋和定位(RAMPAGE, RNA annotation and mapping of promoters for analysis of gene expression)分析中,當使用隨機引物生成第一鏈cDNA後,mRNA 5ʹ的帽子結構就被生物素化,這就可以將5ʹ cDNA通過鏈黴親和素進行富集。CAGE使用II型限制性內切酶來生成短的cDNA標籤,這種酶會從5ʹ端的接頭下遊切割21-27p的核核苷酸。相比之下,RAMPAGE操作則使用模板轉換(template switching)來生成較長的cDNA,這個cDNAs隨後被富集起來,用於測序。單細胞標籤逆轉錄測序技術(single-cell-tagged reverse transcription sequencing, STRT-seq)能夠在單細胞水平上實現TSS的回貼(mapping)。STRT-seq技術使用生物素化的模板轉換oligos來生成cDNA,被磁珠捕獲後,就在5ʹ末端進行片段化,產生短的cDNA標籤。作為CAGE基礎的5ʹ末端的加帽技術是由日本理化所(Riken)開發的,這種技術用於早期功能基因組學實驗中,使全長cDNA克隆數量最大化。日本理化所主導的小鼠功能注釋(FANTOM, Functional Annotation of the Mouse)協會通過闡明了1300多個人類和小鼠原代細胞,組織和細胞系的TSS,這充分顯示了CAGE的強大。在最近一些方法比較中,CAGE也表示不俗。但是作者卻報導說,僅使用5ʹ末端測序產生的假陽性TSS峰也是最多的,他們建議使用正交方法進一步來確認陽性,例如DNase I的回貼或H3K4me3染色質免疫沉澱測序(ChIP-seq)。

使用唯一分子標識符來檢測PCR重複

RNA-seq數據通常具有較高的重複率(duplication rates),也就是說許多測序讀長會回貼到轉錄組的相同位置。與全基因組測序不同的是,在全基因組測序中,重複的讀長被以認為是PCR這一步中出現的技術偏倚導致的,它會被移除,而在RNA-seq中,這些重複的讀長則被認為是真正的生物學信號並被保留。在一個樣本中,數百萬個起始RNA分子也許代表了高表達的轉錄本,當對cDNA進行測序時,就會發現很多片段是相同的。因此,在比對(alignment)過程中,並不建議通過計算去除那些不必要的重複,因為這些重複中很多是真正的生物信號。當使用單端測序(single-end sequencing)時更是如此,因為一對片段中只要一端相同,就可以被認為是一個重複(duplicate),至於雙端測序(paired-end sequencing),兩端必須在同一位置時才能被認為是一個重複,但這種情況很少。但是,由於PCR偏倚,在製備cDNA文庫時,還會存在著某種程度上技術重複,並且PCR複製偏倚是一種質控問題,它有可能對RNA-seq實驗結果造成影響時,很難區分出這些技術重複與生物重複的程度。

現在已經提到將UMIs作為一種解釋擴增偏倚的方法。在擴增前將隨機UMIs添加到cDNA分子中,使得能夠確認PCR重複,並且可以在後續的數據分析中將其除去,同時保護真正的生物學重複,從而改善基因表達的量化和等位基因頻率估計的效果。當一對測序讀長被確認為一個技術重複時,它們應該包括相同的UMI,並且被回貼到轉錄組中相同的位置(一端或兩端,這取決於使用的是單端測序還是雙端測序)。

UMIs已經被證明能夠降低變異和錯誤發現率來提升RNA-seq中的DGE數據分析,並且這種方法在單細胞數據分析方面也有著重要作用,單細胞數據中的擴增偏倚可能更為嚴重。當試圖在RNA-seq數據中進行變異檢測(variant calling)時,UMIs也非常有用。雖然高表達的轉錄本可以產生適合這種變異檢測的高覆蓋率,尤其是包含了了這種重複時,但UMIs可以用於去他可能導致第二位基因頻率錯誤計算的擴增假象。UMIs正在成為單細胞RNA-seq(scRNA-seq)的文庫製備試劑盒中的標準,同時它也日益頻繁地用於常規RNA-seq。

提高降解RNA的分析

RNA-seq文庫製備方法的發展也改進了低質量或降解RNA的分析,例如從臨床相關獲得的那些用福馬林固定石蠟包埋(FFPE)塊存儲的樣本中的RNA。低質量的RNA會導致不均勻的基因覆蓋率,更高的DGE假陽性率和更高的重複率,它們與文庫的複雜性呈負相關。但是,文庫的製備方法已經被改良,改良後的方法能降低RNA降解的影響。這些方法可能在基於RNA-seq的診斷技術的發展中顯得尤為重要,例如將來有可能出現的類似於OncotypeDX(目前並不是測序分析)的診斷,這種試劑盒基於21個基因RNA的標籤來預測乳腺癌的復發。雖然現在有幾種方法可以使用,但是比較後發現兩種方法表現最好,即RNase H與RNA exome。我們前面提到,RNase H法使用核酸本科來降低RNA:DNA複合物中的rRNA,但是它卻能阻止mRNA的降解。RNA exome方法使用類似於外顯子測序(exome sequencing)那樣的方法,使用寡核苷酸探針來捕獲RNA-seq文庫分子。這兩種方法都能通過減少rRNA,同時不影響mRNA的手段來產生高質量和高度一致的基因表達數據。3ʹ末端標記測序技術與擴增子測序(在PCR擴增中能產生超過2萬個外顯子擴增子)方法也可以用於分析降低的RNA,但是這兩種方法並沒有RNase H方法使用廣泛。

設計更好的RNA-seq實驗

仔細設計DGE RNA-seq實驗對於獲取高質量和生物意義數據有著非常重要的意義。尤其是要考慮到複製的層次,測序深度以及單端還是雙端測序。

重複與實驗功效(replication and experimental power)

在一個實驗中,足夠的生物學重複(biological replicates)能夠捕獲不同樣本之間的生物學變異;在定量分析中的置信度依賴於測序深度與讀長長度。雖然RNA-seq比晶片表現了更低的技術偏倚,但是生物系統中固有的隨機變化都要求任何RNA-seq實驗要做生物學重複。使用額外的重複能夠確定異常樣本,在必要情況下,在進行生物學分析之前,移除這些異常樣本或降低這些異常樣本的權重。確定生物學重複需要考慮幾個因素,包括效應大小(effect size),組內變異,可接受的假陽性和假陰性閾值,以及最大樣本數目,有的時候還需要RNA-seq實驗設計工具或功效(power)計算工具的輔助。

在一個實驗中要想確定一個合適的生物學重複並非是一件簡單的事情。一項48個重複的酵母研究表明,當使用3個生物學重複時,計算樣本用於DGE分析的工具只能檢測出20-40%的差異表達基因。研究表明,至少應該使用6個生物學重複,這個數量要超過文獻中常用的3到4個生物重複的數量。最近的一項研究表明,4個生物學重複可能足夠的,但是研究指出,在確定合適的重複數目之前,需要做一個預實驗來確定生物樣本的方差。對於高度多樣化的樣本,例如來自癌症患者腫瘤的臨床組織,可能需要更多的重複,以便能以更高的置信度來確定基因的變化。

確定合適的讀取深度(Determining the optimal read depth)

一旦文製備好,就需要決定對它們進行多深的測序。讀取深度指的是,每個樣本獲得的測序讀長的目標數目。對於真核基因組中的常規RNA-seq DGE分析來說,一般認為每個樣本需要100萬-300萬條讀長(也就是我們常說的10M到30M數量)。但是,在多個物種中的實驗結果顯示當每個樣本的測序讀長數量為1M時,那麼這個數量級的測序讀長提供的轉錄本豐度信息與轉錄組中表達最高表達量的一半的轉錄本30M測序提供的豐度信息類似。如果實驗的重點是關注那些最高表達相對較大變化的基因,並且如果有足夠的生物學重複,那麼就可以使用較低深度的測序就能解決驅動實驗的假設。測序完成後,通過檢查讀長在樣本之間的分布以及檢查飽和曲線就能評估進一步的測序能夠增加實驗的靈敏度。隨著測序通量的增加,為了控制技術偏倚,可以將一個實驗的所有樣本都添加一個「混合」文庫中進行測序,這已經成了標準做法。一次測序所需要讀長總數則是樣本數乘以讀取深度;然後根據生成所需的讀長總數來對這個混合文庫進行多次測序。這種合併需要嚴格檢測每個樣本RNA-seq文庫的濃度,並假設每個文庫中的cDNA量相對均值(低方差),因此總的讀長數目就會平均地分布在每個樣本上。在進行一次昂貴的,多泳道(lane)測序之前,運行單個泳道以驗證樣本之間的低方差通常是值得的。

選擇參數:測序長度,單端測序或雙端測序

最終的測序參數包括測序長度,單端測序還是雙端測序。在許多測序應用中,測序讀長的長度對於數據的利用有著重要的影響,因此更長的讀長可以使測序的DNA覆蓋率更高。當使用RNA-seq來進行DGE分析時這種方法並不適用,其中重要的原因則是,確定每個讀長來源於轉錄組的哪個位置的能力有限。一旦一個讀長能夠明確其回貼位置,那麼較長的讀長在基於量化的分析中就不會再提供太多的價值。對於那些更定性的RNA-seq分析來說,例如特定異構體的鑑定,更長的讀長可能更有用。

單端測序與雙端測面臨的問題是類似的。在單端測序中,每個cDNA片段只有一個末端(3ʹ端或5ʹ端)用於產生測序讀長,但雙端測序則是一個片段產生2條讀長(一個是3ʹ端,一個是5ʹ端)。在那些需要儘可能高的核苷酸覆蓋率的分析實驗中,長讀長雙端測序可能更好。然後,DGE分析不需要對轉錄本片段的每個鹼基都進行測序,在DGE分析中,研究者只需要比對後,統計出那些回貼到轉錄本上的讀長數目即可。例如,通過比較測序讀長發現,「短」的50bp單端測序與「長」的100bp雙端測序所產生的DGE結果沒有區別。這是因為單端測序足以鑑定出大多數測序片段來源的基因。同樣的研究表明,使用短的單端測序降低了檢測出異構體的能力,因為跨越剪接連接的讀長較少。雙端測序還有助於消除讀長回貼的歧義,並對可變外顯子量化(alternative-exon quantification),融合轉錄本檢測和從頭開始(de novo)的轉錄本發現,尤其是處理那些沒有很好注釋的轉錄本來說,雙端測序更是首選。

在實際應用中,單端測序或雙端測序之間的選擇通常基於成本或研究者們可用的測序技術。在Illumina NovaSeq發布之前,在多數情況下,每M讀長的單端測序的成本要低於雙端測序,因此,在相同實驗成本的前提下,單端測序能夠實現更高的複製或讀長深度。

在Illumina NovaSeq發布之前,在大多數情況下,單端測序的每百萬次讀取的成本低於成對末端測序,因此允許以相同的實驗成本進行更高的複製或讀取深度。當選擇了更多的短單端測序讀長和產生更長的雙端測序讀長後,那麼增加讀取深度將對提高DGE實驗的靈敏度產生更大的影響。

植物生物技術Pbj 交流群

為了能更有效地幫助廣大的科研工作者獲取相關信息,植物生物技術Pbj特建立微信群,Plant Biotechnology Journal投稿以及文獻相關問題、公眾號發布內容及公眾號投稿問題都會集中在群內進行解答,同時鼓勵在群內交流學術、碰撞思維。為了保證群內良好的討論環境,請先添加小編微信,掃描二維碼添加,之後我們會及時邀請您進群。小提示:添加小編微信時及進群後請務必備註學校或單位+姓名,PI在結尾註明,我們會邀請您進入PI群

相關焦點

  • RNA-seq的十年(上),每人必讀!值得收藏!
    摘要在過去的十年中,RNA測序(RNA-seq)已經成為在全轉錄組範圍內分析差異基因表達和mRNAs差異剪接的重要工具。然而,隨著下一代測序技術的發展,RNA-seq技術也在不斷發展。現在,RNA-seq用於研究RNA生物學的許多方面,其中包括單細胞基因表達、翻譯(翻譯組,translatome)和RNA結構(結構組,structurome)。
  • Nature重磅綜述 |關於RNA-seq,你想知道的都在這
    )在過往十年裡逐漸成為全轉錄組水平分析差異基因表達和研究mRNA差異剪接必不可少的工具。混樣測序需要仔細測定每個RNA-seq文庫的濃度,並假定混合的不同樣品中cDNA的總量相差不大(低方差),因此讀取的總reads數才能均勻地分到各個樣品中。在進行昂貴的多通道混合測序之前,運行單個lane確認樣品之間cDNA總量相差不大是值得的預操作。選擇測序參數:reads長度和單端或雙端測序。最後需要確定的測序參數包括reads長度以及是生成單端還是雙端reads。
  • Nature重磅綜述:關於RNA-seq,你想知道的都在這
    )在過往十年裡逐漸成為全轉錄組水平分析差異基因表達和研究mRNA差異剪接必不可少的工具。混樣測序需要仔細測定每個RNA-seq文庫的濃度,並假定混合的不同樣品中cDNA的總量相差不大(低方差),因此讀取的總reads數才能均勻地分到各個樣品中。在進行昂貴的多通道混合測序之前,運行單個lane確認樣品之間cDNA總量相差不大是值得的預操作。選擇測序參數:reads長度和單端或雙端測序。最後需要確定的測序參數包括reads長度以及是生成單端還是雙端reads。
  • RNA-seq測序基本知識
    上次已經描述了RNA-seq的測序平臺(最全RNA-seq測序平臺簡介,不好意思遺漏國之重器BGI-seq測序平臺,在此更正),並且已經提出了一些典型的應用
  • RNA seq第十七講 | 全面而詳細!RNA-seq 數據分析最佳實戰
    一篇RNA-seq分析流程的綜述,全面而詳細!深度好文,可用來反覆閱讀。初學者用於把握RNA-seq真箇流程及各個流程選擇上的差異。已經開始學習者可用來查缺補漏和發現新的分析角度。背景:研究材料基因組信息已知,通過將RNA-seq獲得的序列比對到基因組上獲得轉錄信息;研究材料無基因組信息則從頭拼接reads為contigs後將reads比對到轉錄組。基因組注釋已知,基於注釋基因組進行轉錄組分析或發挖掘新的轉錄組及其調控通路。
  • (建議收藏!)
    科研過程中需要查閱大量的文獻資料以及要對試驗做一些預測,分析和處理,現將常用到的一些網站與大家分享,建議收藏,備用!
  • C-Myc 與RNA-seq分析
    說到主題,RNA-seq, 一個2008年出現的技術,基於solexa測序,完成轉錄本(可以mRNA,也可以是non-coding RNA等)定量。這個技術相較於以往所用的microarray優勢明顯,可以不依賴參考基因組,還可以發現新的轉錄本等,成本也在隨著測序成本的降低而在降低,而且隨著單細胞轉錄組的測序發展,更極大的加深了我們對體內生物學過程的理解。
  • 乾貨分享丨一文詳解常規RNA-seq與3'mRNAseq優勢與局限
    在過去的十年中, RNA-seq已經成為全轉錄組範圍內分析差異基因表達和mRNAs差異剪接的重要工具,被應用於研究RNA生物學的方方面面,包括基因表達
  • 【The Plant Cell 】玉米轉錄因子的RNA-seq和CHIP-seq聯合分析
    本研究採用RNA-seq和CHIP-seq分別從整個轉錄水平和全基因組水平研究Opaque2突變型玉米的表達情況並搜索O2在全基因組水平的DNA位點情況,聯合兩者分析可以揭示差異基因是否為O2所調控。qRT-PCR驗證結果與RNA-seq結果一致(選取40個差異表達基因,其中38個與RNA-seq結果一致)。1605個差異表達的基因有607個獲得GO功能注釋。這些差異基因與營養的儲存活性、N代謝、脅迫抵抗等有關。
  • RNA-seq從入門到自閉(Kallisto和Salmon)
    這是RNA-seq上遊分析的最後一站,seq數據定量。這一篇文章會介紹基於k-mer定量兩軟體:kallisto和salmon。
  • 人類血液樣本RNA-seq研究現狀
    血漿和血清之間是存在成分上的差異的。血漿(Plasma)一般無無凝血反應,符合體內的cell-free狀態;血清(Serum)一般有凝血反應,不含纖維蛋白原和凝血因子。不斷重複這個過程,可以重複上百次,到幾百次,就可以把上百個鹼基,甚至更多鹼基的序列讀出來,在大規模並行運行的時候,數以千萬計的簇被測序,該圖代表了Flowcell的一小部分。
  • RNA-seq數據分析最佳實踐調查
    例如,我們希望有70%到90%的常規RNA-seq讀圖可映射到人類基因組上(取決於所用的讀圖器)[ 15],而相當大一部分的讀取同樣能很好地映射到有限數量的相同區域(「多重映射讀取」)。當針對轉錄組映射讀段時,我們預計總映射百分比會略低,因為來自未注釋的抄本的讀段將丟失,並且由於跨落在同一個基因的不同抄本同工型共享的外顯子上的多圖譜讀段將顯著增加。
  • 超能餅乾|SnapATAC分析單細胞ATAC-seq數據(三)
    簡介在本教程中,我們將對PBMC的兩個scATAC-seq數據集(5K和10K)和一個scRNA-seq數據集進行整合分析。這三個數據集均來自10X genomics測序平臺產生的數據,可以直接在10x官網下載使用。
  • RNA-seq差異表達分析步驟
    數據分析開始於原始的測序reads,通常是FASTQ格式,但有時也可以使用其他格式。此步驟的輸出是一個序列比對文件,它列出了匹配上的reads及其在參考基因組中的匹配位置。除了下遊分析之外,也可以使用基因組瀏覽工具在基因組水平上進行可視化匹配上的reads。一旦reads被拼接到基因組上,這個拼接文件就可用於發現未知基因和可變剪接。基因相對於測序reads來說是非常大的。
  • 學徒跟著B站ATAC-seq視頻5天完成流程
    數據來說,大部分教程都推薦去除PCR重複,所以我們加上這個步驟:conda activate rnafor i in `ls *.raw.bam`doi=${i/.raw.bam/}echo " samtools index ${i}.raw.bam | bedtools bamtobed -i ${i}.raw.bam  > ${i}.raw.bed
  • RNA-seq提交到GEO資料庫背後的故事!
    打開FileZilla軟體,主機(H) 框填寫上圖中host對應的內容:ftp-private.ncbi.nlm.nih.gov用戶名(U)填寫:密碼填寫:其餘可不填。第二部分:SAMPLE樣品的詳細信息,包括樣品名稱、來源、器官、年齡、表達值數據和原始數據等,如果是ChIP-seq,還需要提供相關的抗體信息。
  • 新司機帶你學RNA-Seq數據分析
    transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks都是NATURE PROTOCOLS上閱讀量最大的文章。
  • 一個Seq2seq模型的Pytorch實現庫
    註:文末附【深度學習與自然語言處理】交流群介紹一個Seq2seq模型的實現tutorial,使用pytorch和torchtext實現。目前已經有2400個start,質量應該不錯。還給出了一些其他Seq2seq的實現倉庫:
  • Seq2seq強化,Pointer Network簡介
    想知道更多可以訪問:https://medium.com/datalogue/attention-in-keras-1892773a4f22在指針網絡中, 注意力更簡單:它不考慮輸入元素,而是在概率上指向它們。實際上,你得到了輸入的排列。