Nature重磅綜述 |關於RNA-seq,你想知道的都在這

2020-07-07 微生物組

編譯 |生信寶典,May

校對 |生信寶典

生信學習的正確姿勢(第三版)

NGS系列文章包括NGS基礎、轉錄組分析 (Nature重磅綜述|關於RNA-seq你想知道的全在這)、ChIP-seq分析 (ChIP-seq基本分析流程)、單細胞測序分析 (重磅綜述:三萬字長文讀懂單細胞RNA測序分析的最佳實踐教程 (原理、代碼和評述))、DNA甲基化分析、重測序分析、GEO數據挖掘(典型醫學設計實驗GEO數據分析 (step-by-step) - Limma差異分析、火山圖、功能富集)等內容。

最後2周 | 高級轉錄組分析和R語言數據可視化第十一期 (報名線上課還可免費參加線下課)

摘要

RNA測序(RNA-seq)在過往十年裡逐漸成為全轉錄組水平分析差異基因表達和研究mRNA差異剪接必不可少的工具。隨著二代測序技術 (NGS)的發展,RNA-seq的應用也越來越廣。現已經可以應用於很多RNA層面的研究,比如單細胞基因表達、RNA翻譯(translatome)和RNA結構組(structurome結構組學)。新的有意思的應用,如空間轉錄組學(spatialomics)也在積極研究中。通過結合新興的三代長讀長long-readdirect RNA-seq技術,以及更好的計算分析工具,RNA-seq幫助大家對RNA生物學的理解會越來越全面:從轉錄本在何時何地轉錄RNA摺疊以及分子互作發揮功能等。

前言

RNA測序(RNA-seq)自誕生起就應用於分子生物學,幫助理解各個層面的基因功能。現在的RNA-seq更常用於分析差異基因(DGE, differential gene expression),而從得到差異基因表達矩陣,該標準工作流程的基本分析步驟一直是沒有太大變化:

  • 始於溼實驗,提取RNA,富集mRNA或消除rRNA,合成cDNA和構建測序文庫。

  • 然後在高通量平臺(通常是Illumina)上進行測序,每個樣本測序reads深度為10-30 Million reads。

  • 最後一步是計算:比對/拼裝測序reads到轉錄本,計數與轉錄本比對上的reads數定量,樣本間過濾和標準化,樣本組間基因/轉錄本統計差異分析。

早期的RNA-seq實驗從細胞群(如來源於某個組織或器官的細胞)中得到DGE數據,並可以應用於很多物種,如玉米(Zea mays),擬南芥(Arabiodopsis thaliana),釀酒酵母(Saccharomyces cerevisae),鼠(Mus musculus)和人(Homo sapiens)。雖然RNA-seq這個詞通常包含很多不同的RNA相關的方法或生物應用,但DGE分析始終是它的主要應用(表1),並且是DGE研究的常規工具。

RNA-seq的廣泛應用促進了對許多生物層面的理解,如揭示了mRNA剪接的複雜性、非編碼RNA和增強子RNA調控基因表達的機制。RNA-seq的發展和進步一直離不開技術發展的支持(溼實驗方面和計算分析方面),且與先前的基於基因晶片的技術比起來,獲得的信息更多、偏好性更小。到目前為止,已從標準的RNA-seq流程中衍生出多達100種不同的應用。大部分應用都是基於Illumina short-read測序,但最近基於long-read RNA-seqdirect RNA sequencing (dRNA-seq)的方法可以幫助解決Illumina short-read技術處理不了的問題。

本文中,我們先熟悉'baseline'流程,用short-read RNA-seq技術分析DGE。先描述短讀長測序的文庫構建過程、實驗設計注意事項和計算分析流程,探究其應用如此廣泛的原因。然後描述單細胞轉錄組和空間轉錄組的發展和應用。我們會舉例說明RNA-seq在RNA生物學關鍵研究中的應用,包括轉錄和翻譯的動力學分析,RNA結構,RNA-RNA和RNA-蛋白質間相互作用等。最後我們小小地展望一下RNA-seq的未來,如單細胞和空間轉錄組是否也會是以後的常規分析,在什麼情況下long reads會替代short reads RNA-seq。不過篇幅有限,本文對RNA-seq分析還是有照顧不到的地方,比如典型的有非編碼轉錄組,原核轉錄組和表觀轉錄組。

圖一:short-read,long-read和direct RNA-seq技術和工作流程

Nature重磅綜述 |關於RNA-seq,你想知道的都在這

圖一:A

3種RNA測序方式的建庫方法概覽:short-read測序(黑色),long-read cDNA測序(綠色)和long-read direct RNA-seq(藍色)。根據不同的應用目的,文庫構建的複雜性和偏好性不同。short-read和long-read cDNA的建庫方案在很多步驟是一樣的,比如在所有建庫方案中接頭連接是共有的。三種方法都會受到樣本質量和文庫構建上下遊的計算問題影響。

Nature重磅綜述 |關於RNA-seq,你想知道的都在這

圖一:B

三種主要測序技術的比較。

  • Illumina workflow(左):

    建庫之後,單獨的cDNA分子在流動槽中構建測序簇,使用3』阻斷的螢光標記的核苷酸進行邊合成邊測序。在每一輪測序中,高速攝像機拍照捕獲當前激發的螢光,來判斷當前是哪個核苷酸合成進來,測序長度在50-500 bp

  • The Pacific Biosciences workflow(中):

    建庫之後,每個分子與固定在納米孔底部的聚合酶結合。然後是邊合成邊測序,測序長度可以高達50 kb

  • The Oxford Nanopore workflow(右):

    建庫後,將單個分子加載到流動槽中,在接頭連接過程中加上的分子馬達會與生物納米孔結合。馬達蛋白控制RNA鏈穿過生物納米孔,引起電流變化,從而推測出經過的鹼基序列,生成的測序reads大小為1-10 kb

Nature重磅綜述 |關於RNA-seq,你想知道的都在這

圖一:C

short-read,long-readdirect RNA-seq分析:

人體中,超過90%的基因(gene n)會發生可變剪接,並生成至少兩種不同的表達形式(轉錄本x,y)。相比於long-read測序可以直接測到每一種不同的轉錄本,從而獲得更全面的信息,short-read的測序在檢測轉錄本上受限於短reads比對的模糊性。在short-read cDNA測序中,有很多reads比對回兩個不同轉錄本共享的外顯子上導致無法確定其真實來源。跨越2個或多個外顯子的Junction reads可以改善轉錄異構體的分析,但當兩種轉錄異構體共享剪接斷點時就無能為力了。這些問題都增加了分析和解讀結果的複雜度。long-read cDNA方法能直接檢測全長轉錄異構體,從而移除或大幅減少檢測偏好,提高差異表達轉錄本分析的準確率。

而以上這些方法都依賴於cDNA轉換,這一過程抹去了有關RNA鹼基修飾的信息,而且也只能粗略估計多聚腺苷酸(poly(A))尾巴的長度,而direct RNA-seq可以直接分析全長轉錄本異構體、度量鹼基修飾(比如N6-甲基腺苷(M6A))和檢測poly(A)尾巴長度。

RNA-seq技術的進步

NCBI Short Read Archive (SRA)數據共享平臺中多於95%的數據來自於Illumina short-read測序技術(表2)。目前幾乎所有已發布的mRNA-seq數據都是short-read測序所得,所以我們認為這是RNA-seq技術的常規操作,接下來討論它的主要流程和限制。不過在轉錄異構體檢測的研究(圖一;表1)方面,不斷進步的long-read cDNA測序和dRNA-seq技術將向short-read測序技術的主導地位發起挑戰。

測序技術平臺優勢劣勢重要應用
short-read cDNAllumina, Ion Torrent①高通量,每次運行產生的reads數是long-read平臺的100-1000倍之多;②測序偏好和錯誤模式研究透徹(同聚物homopolymers對於Ion Torrent來說仍然是個問題);③可使用的方法和計算流程很多;④可用於降解了的RNA的分析樣品製備過程如反轉錄,PCR和片段選擇都會引入偏好性;轉錄異構體的檢測和定量受限;新轉錄本的鑑定基於轉錄本拼裝步驟幾乎所有的RNA-seq應用都是基於short-read cDNA測序:DGE (differential gene expression), WTA (whole- transcriptome analysis),小RNA,單細胞,空間轉錄組,新生轉錄本,翻譯組,RNA結構組和RNA-蛋白質相互作用分析等等。
long-read cDNAPacBio, ONT
①1–50kb的長reads可以檢測很多全長轉錄本 ②用於de novo轉錄組分析的計算方法簡化很多
①低-中通量,每個run獲得0.5 M-10 Million reads
②樣品製備過程如反轉錄,PCR和片段選擇(部分方法需要)都會引入偏好性③不太適合降解了的RNA
尤其適用於轉錄異構體的發現,無參轉錄組的de novo分析,融合轉錄本的發現,HL A (human leukocyte antigen)和MHC (major histocompatibility complex)等複雜轉錄本分析
Long-read RNAONT①1–50kb的長reads可以檢測很多全長轉錄本②用於de novo轉錄組分析的計算方法簡化很多 ③樣品製備不需要反轉錄或PCR,降低了偏好性 ④可以檢測RNA鹼基修飾 ⑤單分子測序直接估計poly(A)全長①通量低,每個run僅生產0.5 M-1 Million reads②樣品準備和測序過程偏好性不明確③不太適合降解了的RNA①尤其適用於轉錄異構體的發現,無參轉錄組的de novo分析,融合轉錄本的發現,MHC和HLA等複雜轉錄本分析 ②適用於檢測核糖核酸修飾

表1

short-read cDNA測序用於差異基因分析

short-read測序是檢測和定量轉錄組範圍基因表達的最常見方式,部分原因是因為它比表達晶片更便宜、更易於應用,但更主要的是它可以獲得全轉錄組水平高質量的表達數據。採用Illumina的short-read測序做DGE分析的核心步驟包括RNA提取,cDNA合成,接頭連接,PCR擴增,測序和數據分析(圖一)。由於mRNA片段化和基於beads的文庫純化過程中偏好150-200 bp的片段,導致這個方案最後獲得的cDNA片段都在200 bp以下。每個樣本平均測20-30 millionreads,對每個基因或轉錄本進行定量,再統計分析差異基因(參考RNA-seq數據分析部分)。short-read RNA-seq結果很穩定,對RNA-seq的short-read測序技術多次測試比較發現,其平臺內和平臺間的相關性都很好。然而在樣本準備和計算分析階段有一些步驟也會引入偏好性。這些限制會影響特定生物問題的解釋,比如正確地識別和定量一個基因的多個轉錄異構體。這一局限與研究特別長或特別多變的轉錄異構體尤其相關。如人的轉錄組中,50%的轉錄本長度大於2500 bp,轉錄本長度範圍在186 bp到109 kb。儘管short-read RNA-seq 可以對更長的轉錄本進行細緻的分析,但相應的方法很難高通量化用於全轉錄組範圍的分析。其它的偏好性和限制可能來自於RNA-seq數據分析的計算方法,比如怎麼處理在基因組上有多個匹配位置的序列。一個新的稱為合成長讀長測序 (synthetic long reads)可以進行全長mRNA測序和解決一部分存在的問題。在short-read RNA-seq建庫前利用唯一分子標識符(UMI)標記cDNA分子,從而解決短讀長問題做到測序全長mRNA。基於這個技術可以對長達4 kb的轉錄本異構體進行鑑定和定量。從根本上解決short-cDNA測序固有限制的最有效的方法還是long-read cDNA測序和dRNA-seq方法。

long-read cDNA 測序

儘管Illumina是目前主流的RNA-seq平臺,但Pacific Biosciences(PacBio)和Oxford Nanopore(ONT)能在完整的RNA分子反轉錄為cDNA後進行單分子長讀長測序。因為消除了short RNA-seq reads需要的組裝步驟,可以解決short reads測序相關的一些問題。例如:序列比對的模糊性降低,可以鑑定更長的轉錄本,這些有助於更好地檢測轉錄異構體的多樣性。同時還可以降低許多short-read RNA-seq計算工具引入的剪接位點檢測的高假陽性率。

基於PacBio技術的Iso-Seq能夠檢測長達15 kb的全長轉錄本cDNA reads,這有助於發現大量先前未注釋的轉錄本,並通過全長測序確認了早期基於跨物種同源序列的基因預測結果。在標準的Iso-Seq實驗流程中,模板置換逆轉錄酶可以將高質量RNA轉化為用來測序的全長cDNA。然後將得到的cDNA進行PCR擴增,並構建PacBio單分子實時(single-molecule, real-time,SMRT)文庫。因為短轉錄本可以很快地擴散到測序晶片的活性表面造成一定的測序偏好,建議選擇1至4 kb長度的轉錄本一起測序,以保證這一長度範圍的長短轉錄本有同等機率進行測序。同時PacBio測序對模板量需求很大,要求進行大體積PCR,需要優化反應體系降低過擴增的影響。PCR末端修復和PacBio SMRT接頭連接後,就可以進行long-read測序了;通過調整測序晶片的上樣條件可以進一步控制測序片段的大小選擇偏好。

ONT cDNA測序也可以測序全長轉錄本,而且適用於單細胞測序。同樣使用模板置換逆轉錄來製備全長cDNA,在加接頭製備測序文庫之前,可以自己決定是否進行PCR擴增。Direct cDNA測序可消除PCR偏差,獲得的測序結果質量更高 ;PCR擴增的cDNA文庫的測序產出(測序獲得的reads數)更高,適用於樣本中RNA含量較少的情況。而目前還未在ONT cDNA測序中發現PacBio測序存在的轉錄本長短選擇偏好。

這些long-read cDNA方法都受模板置換逆轉錄酶限制。這個酶可以把全長和截斷的RNA都轉換成cDNA。反轉錄酶只將5』-capped mRNA轉換成cDNA,這樣就降低了由於RNA降解、RNA斷裂導致的轉錄本截斷生成的cDNA和不完整的cDNA合成,從而提高數據質量。但是這些逆轉錄酶對ONT平臺的測序reads讀長有反作用

Long-read direct RNA 測序

正如上面所討論的,long-read和baseline short-read 平臺一樣,都需要在測序之前將mRNA轉化成cDNA。近期Oxford Nanopore展示他們的納米孔測序技術能直接測序RNA,也就是說,建庫過程中沒有修復、cDNA合成、PCR擴增這些過程,移除了這些操作過程的偏好並且保留了RNA上的表觀修飾信息,這一技術也稱為dRNA-seq。直接從RNA建庫需要兩步接頭連接。首先,帶有oligo(dT)懸臂的duplex adaptor與mRNA的PolyA尾巴退火連接。後續是一個可選的逆轉錄操作,用於提高測序通量(一般推薦做)。第二個連接操作就是添加連有分子馬達的測序接頭用於後續測序。隨後文庫加載入MinION,啟動3ʹpoly(A)尾巴向5ʹcap端的RNA測序。早期研究表明,dRNA-seq的測序長度在1000 bp左右,最大測序長度超過10 kb。與短讀長測序相比,長讀長測序可以改善轉錄異構體的檢測,估計PolyA尾巴的長度進行選擇性多腺苷酸化分析。Nanopolish-polya工具可以分析納米孔測序得到的數據,計算基因間或轉錄本間的poly(A)尾的長度。結果表明內含子保留的轉錄本相比於完全剪切的轉錄本具有稍長的PolyA尾巴。雖然dRNA-seq還處於起步階段,但是其能直接檢測RNA鹼基修飾的潛力有望在表觀轉錄組領域促進更新的發現。

長讀長測序與短讀長測序技術的比較

雖然長讀長測序技術在轉錄本分析方面比短讀長測序技術有一些明顯的優勢,但是也存在一些局限。跟成熟的短讀長技術平臺相比,長讀長測序技術的測序通量低很多,錯誤率更高。而長讀長測序技術的主要優勢即能測序更多的獨立轉錄本全長,依賴於高質量的RNA文庫。這些局限會影響那些特別依賴長讀長測序實驗的靈敏性和特異性。

當前長讀長測序方法的主要局限就是其通量低。在Illumina平臺上,一個RUN可以生成10^9-10^10條reads,而PacBio和ONT平臺上,一個RNA-seq RUN只能產生10^6-10^7 reads。這種低通量限制了應用長讀長測序的項目的大小(實驗樣本的數目),並降低了差異基因表達檢測的靈敏性。當然也不是所有的應用都需要很高的測序深度。比如如果研究者關注的是轉錄異構體的發現和鑑定,測序長度比測序深度更重要。測序1百萬個PacBio環形一致性序列 (circular consensus-sequencing, CCS) 可以保證長度大於1 kb的高表達基因測通,ONT測序技術也是如此。因此,測序深度主要影響低中表達的基因。低通量的局限性在研究功能基因組進行大規模差異基因分析時會更明顯。為了獲得足夠的以保證轉錄組表達變化檢測的準確性,需要對多個樣品組的多個生物學重複同時進行測序分析。在這些應用上,長讀長技術不太可能取代短讀長技術,除非它們的通量能提高2個數量級。隨著全長RNA-seq reads數目增加,轉錄本檢測的靈敏度將會達到Illumina平臺的水平,但有著更高的特異性。通過將Illumina 的短讀長RNA-Seq與PacBio的長讀長Iso-Seq結合 (並且可能還與ONT方法結合),在保留轉錄本定量質量的基礎上,可以增加RefSeq注釋的全長轉錄異構體檢測的數量、靈敏性和特異性。儘管當前長讀長RNA-seq方法實驗成本更高,但它們可以檢測短讀長方法所遺漏的轉錄異構體,尤其是那些難以測序但與臨床相關的區域,例如高度多態的人類主要組織相容性複合體MHC或雄激素受體。

長讀長測序平臺的第二個主要限制是其高錯誤率,比成熟的Illumina測序儀要高出一到兩個數量級。長讀長測序平臺上生成的數據還包含更多的插入-缺失錯誤。如果是做突變位點檢測這些錯誤率/錯誤形式會影響很大,但是對轉錄組分析影響並不是太大,只要能區分轉錄本和轉錄異構體即可。如果是應用於對錯誤率敏感的項目,也有一些辦法進行補救。PacBio SMRT測序平臺出現的典型測序錯誤是隨機錯誤,可以通過增加測序深度來進行CCS序列矯正解決。在測序過程中,cDNA的長度是人為選擇控制的,連接接頭後形成環形模板,每個分子可以被測序多次,從而產生長度範圍是10-60 kb的連續長序列,裡面包含了原始cDNA的多份拷貝。這些長序列經過計算拆分成為單個cDNA子讀長 (subreads),並比對在一起互相校正獲得一致性序列。插入的cDNA分子測序到的次數越多,校正後錯誤率越低;研究表明CCS可以將錯誤率降低到與短讀長相當甚至更低的水平。但是,把平臺的測序能力用於讀取相同的分子更加加劇了其測序通量低的問題,更少的獨立轉錄本會被測到。

長讀長RNA-seq方法的敏感性還受到其他幾個因素的影響。首先,用於建庫的RNA分子需要是全長轉錄本,但由於RNA提取、分離過程中會導致RNA斷裂或實驗過程中RNA降解,使得理想狀態並非總能實現。這種情況在短讀長RNA-seq中也會導致可控的3ʹ端偏好,但對定位於應用長讀長的RNA-seq分析全長轉錄組的研究者來說,即使是低水平的RNA降解,效果也會受限。因此,相關研究者需要在RNA提取後進行嚴格質控。其次,中位讀長長度也會受到文庫製備中的技術問題與技術偏好的限制,例如cDNA合成過程中的截斷或降解的mRNA反轉錄成的降解cDNA。最近研發的高效逆轉錄酶具有更好的鏈特異性和更均一的3』-5』轉錄本覆蓋,可能會改善這一過程。雖然還沒有廣泛使用,但是這些高效逆轉錄酶也提高了對結構穩定的RNAs(如tRNAs)的覆蓋檢測,這是其它在基於oligo-dT和全轉錄組分析 (WTA) 的方法中使用的逆轉錄酶很難達到的效果。第三,長讀長測序平臺固有的偏好(如長插入文庫在測序晶片上的更不容易進行測序)會降低更長轉錄本的覆蓋率。

長讀長測序 (不管是基於cDNA還是RNA) 因為讀長長,解決了短讀長測序方法用於轉錄異構體分析的短板。長讀長方法可以獲得從Poly(A)尾巴到5ʹ帽子的全長轉錄本讀長。因此,這些方法對轉錄本和轉錄異構體的分析不再依賴於短序列重構轉錄本或推測轉錄本的存在;而是每個測序到的reads都代表它所來源的RNA分子。基於全長cDNA測序或dRNA-seq的差異基因分析依賴於PacBio和ONT技術的通量提高。長讀長RNA-seq與深度短讀長RNA-seq技術結合的思路正在迅速被研究者用於更全面的分析,這非常類似於基因組組裝所採取的混合組裝方式。隨著研究的深入,長讀長和dRNA-seq方法將會揭示:即便在研究的很透徹的物種中,已經鑑定出的基因和轉錄本可能也只是冰山一角。隨著方法的成熟和測序通量的增加,基於長讀長的差異轉錄本分析將會成為常規研究。基於組裝的長讀長RNA-seq (synthetic long-read RNA-seq)或其它技術的發展對這個領域的影響還有待觀察。從目前來看,Illumina短讀長RNA-seq依然佔據了該領域的主導地位。後面我們只會集中討論短讀長測序。

改良RNA-seq建庫方法

RNA-seq方法源於早期的表達序列標籤 (expressed-sequence tag)和表達晶片技術,最初用於分析多聚腺苷酸化的轉錄本。但是,二代測序的應用發現了這些方法的局限性,雖然在表達晶片中並不明顯。因此,在RNA-seq技術首次發表後不久,許多文庫製備方法的改進相繼推出。例如,片段化RNA而非cDNA可以降低3'/5'偏好,鏈特異性文庫製備方法能夠更好的區分正鏈和負鏈轉錄的基因,這些改進都能獲得更準確的轉錄本豐度估計。片段化RNA和構建鏈特異性文庫很快成了大部分RNA-seq文庫製備試劑盒的標配。這裡我們簡要描述了RNA-seq方法的其它改進,以便研究者可以根據特定的生物學問題或樣本自身特徵進行選擇。這些改進包括不基於oligo-dT的RNA富集方法特異性富集3ʹ或5ʹ末端轉錄本的方法使用UMIs區分PCR duplicates的方法,以及針對降解的RNA構建文庫的方法。這些方法的組合(也包括dRNA-seq和後面提到的分析其它狀態的RNA的方法)允許研究者揭示由可變poly(A) (alternative poly(A), APA),或選擇性啟動子 (alternative promoter)和可變剪接 (alternative splicing)導致的轉錄組的複雜性。

Poly(A)富集的替代方法

大多數發表的RNA-seq數據都是基於oligo-dT方法富集包含poly(A)尾巴的轉錄本,定位於分析轉錄組上的蛋白質編碼區 (生信寶典注部分lncRNA也有poly(A)尾巴)。但是這種方法除了會導致3ʹ端偏好外,很多不含Poly-A尾巴的非編碼RNA,例如miRNA和增強子RNA不會被測到。完全不進行選擇而使用全部提取的RNA也不合適,因為這會導致高達95%的測序數據來源於rRNA。因此,研究者選擇將oligo-dT富集用於mRNA-seq,移除rRNA進行全轉錄組測序(WTA)。短鏈非編碼RNAs(如miRNA)既無法用oligo-dT方法富集,WTA測序中也很難覆蓋,因此對其研究需要特定的分離建庫方法,一般是切膠或磁珠分選後直接連接接頭 (sequential RNA ligation,通常構建出來都是鏈特異性文庫) (生信寶典註:這一點尤其要注意)。

WTA生成的RNA-seq數據包含編碼和一些非編碼RNA。WTA方法也適用於Poly-A尾巴與轉錄本其它部分分開了的降解了的樣品。移除rRNA有兩種方法,一種是將rRNAs從總RNA中分離出來(所謂的pull-out法),另一種是使用RNAse H酶降解rRNA。這兩種方法都需要使用序列特異性和物種特異性的、能與細胞質rRNA (5S rRNA,5.8S rRNA,18S rRNA和28S rRNA)和線粒體rRNA (12S rRNA和16S rRNA)互補的寡核苷酸探針。為了簡化人類、大鼠、小鼠或細菌 (16S和23S rRNA)樣本的處理,上述探針混合後再加入提取的總RNA中,與其中的rRNA雜交以便下一步的清除。其它高豐度的轉錄本,例如珠蛋白RNA (globin)或線粒體RNA也可以按照類似的方法去除。Pull-out方法中探針是帶有生物素的,然後使用鏈黴素包裹的磁珠從總RNA溶液中除去探針-rRNA複合物,剩餘的RNA用於建庫測序,試劑盒有Ribo-Zero (Illumina,USA) (生信寶典註:還是Illumina取名字霸氣)和RiboMinus (Thermo Fisher,USA)。RNAse H方法使用RNAse H (NEBNext RNA depletion(NEB,USA))和RiboErase (Kapa Biossystems,USA)降解oligo-DNA:RNA複合物。最近的比較表明,在RNA質量高的前提下,這兩種方法都可以將產出數據中rRNA的比例降低至20%以下。但是,研究還表示RNase H方法比pull-out法的穩定性要好。另外對應用不同試劑盒獲得的數據進行差異基因分析時要注意轉錄本長度的偏好性的影響。作者還描述了另外一種類似於RNase H的方法,效果也不錯但之前沒有報導過。ZapR方法是Takara Bio的專利技術,它使用一種酶來降解RNA-seq文庫中的rRNA片段。相比於oligo-dT RNA測序方法,rRNA移除建庫方法的一個局限是需要更高的測序深度,主要是因為文庫中還有一定的rRNA留存。

Oligo-dT和rRNA移除法都可以用於後續實驗的DGE分析,研究者們通常會延續實驗室一直使用的方法或最容易使用的方法。然而,對於這些方法的選擇需要根據情況做一些考量,尤其是那些易降解的樣本,如果採用WTA方法會檢測到更多的轉錄本,但是其實驗成本也高於oligo-dT方法。

富集RNA 3ʹ端用於Tag RNA-seq以及可變多聚腺苷酸分析 (Enriching RNA 3ʹends for Tag RNA- seq and alternative polyadenylation analysis)

標準的短讀長Illumina方法應用於高質量差異基因分析時需要對每個樣本測序1000萬到3000萬條(10M到30M條)reads。如果研究者只關注基因水平的表達,並且樣本數目比較多和生物重複比較多時,或者實驗樣品材料受限時,建議採用3ʹtag計數。由於測序集中在轉錄本的3ʹ末端,需要的測序深度會降低,就可以降低成本或同時測序更多樣本。富集3ʹ末端也可以用於檢測由於mRNA前體上發生的選擇性多聚腺苷酸化導致的單個轉錄本的poly(A)位點的變化

3ʹ mRNA-seq方法中每個轉錄本獲得一條測序片段 (tag read),通常是對其3』末端的測序。tag read的數目理論上與轉錄本的豐度是成正比的。標籤測序法 (tag-sequencing protocols),例如QuantSeq (Lexogen, Austria)通常比標準RNA-seq實驗流程更為簡單。標籤測序法採用隨機引物或帶有oligo-dT的引物進行PCR擴增分選出轉錄本的3』末端的同時加上接頭序列,優化掉了poly(A)富集、rRNA移除和接頭連接等步驟。這一方法可以在更低的測序深度條件下達到與標準RNA-seq相當的敏感性,因此可以混合更多樣本同時測序。因為不需要考慮外顯子連接檢測 (exon junction)和基因長度歸一化,這一方法的數據分析也簡化了(生信寶典註:其實也是需要考慮的,轉錄本末端或UTR區也會存在剪接,具體取決於測序讀長和特定基因的結構。不過如果使用STAR/BWA等有soft-clip機制的比對工具也可以不考慮。)。但是,3ʹ mRNA-seq方法可能會受到轉錄本序列相似區域 (homopolymeric region)導致的引物結合錯誤進而導致擴增出錯誤的片段的影響;也只能進行非常有限的轉錄異構體分析,這會抵消這一方法因為測序深度需求低帶來的高性價比,尤其是對於那些僅夠一次使用的樣本。

mRNAs的選擇性多腺苷酸化(APA)會產生3ʹ UTR長度不等的轉錄異構體。對於一個特定的基因來說,這不只是多轉錄出幾個異構體,而是3ʹUTR中存在的順式調控元件會影響轉錄本自身的調控。能夠研究APA的方法可以讓研究者們對miRNA的調控、mRNA的穩定性和定位、以及mRNA的翻譯有更多理解。APA法要求是富集轉錄本的3ʹ末端,從而提升檢測信號和靈敏度,而前面提到的3ʹ mRNA-seq標籤測序法則正合適。其它方法如多聚腺苷酸位點測序 (polyadenylation site sequencing, PAS-seq)法,首先將mRNA打斷為150 bp左右的片段,然後使用帶有oligo-dT的引物進行模板置換生成cDNA用於後續測序,其中的80%的測序序列來源於3ʹUTR。TAIL-seq則避免使用oligo-dT,RNA打斷前,先移除rRNA,然後在轉錄本poly(A)尾巴連接3ʹ接頭。片段化後,再加上5ʹ接頭就完成了文庫製備。在RNA-蛋白互作分析方法如交聯免疫沉澱 (cross-linking immunoprecipitation, CLIP)測序和dRNA-seq中也能評估APA。

富集RNA 5ʹ末端用於轉錄起始位點鑑定 (Enriching RNA 5ʹends for transcription start- site mapping)

富集5ʹ端RNA (7-methylguanosine 5ʹ-capped RNA)的測序的方法常用來鑑定啟動子和轉錄起始位點(TSSs),可以做為DGE分析的補充。有多種方法都可以實現這個操作,但很少作為常規使用。在CAGE (cap analysis of gene expression)RAMPAGE (RNA annotation and mapping of promoters for analysis of gene expression)方法中,使用隨機引物完成cDNA第一條鏈合成後,mRNA 5ʹ帽子結構上用生物素標記,然後使用鏈黴親和素富集5』 cDNA。CAGE使用II型限制性內切酶切割5ʹ端接頭下遊21-27 bp位置生成短cDNA序列。而RAMPAGE則使用模板置換 (template switching)來生成稍微長一些的cDNA,進行富集測序。單細胞標籤逆轉錄測序技術 (single-cell-tagged reverse transcription sequencing, STRT-seq)能夠在單細胞水平上鑑定TSS位點。這一方法使用生物素標記的模板置換寡核苷酸來合成cDNA,磁珠捕獲並在5』端片段化然後測序。CAGE應用到的5ʹ末端標記技術是由日本理化所 (Riken)開發用於在早期功能基因研究中最大化獲得全長cDNA的方法。日本理化所領導的小鼠功能注釋 (FANTOM, Functional Annotation of the Mouse)項目中使用CAGE技術鑑定了1300多個人類和小鼠原代細胞、組織和細胞系的TSSs (轉錄起始位點),這充分顯示了CAGE的強大。在最近的一個方法比較研究中,CAGE也表現最佳。但是作者同時也說到,僅使用5ʹ末端捕獲測序鑑定出的TSS位點假陽性比較多,建議結合其他獨立的方法進一步驗證,如DNase I測序或H3K4me3染色質免疫共沉澱測序 (ChIP-seq)。

使用唯一分子標識符來檢測PCR重複

RNA-seq數據通常有較高的重複率 (duplication rates),即許多測序序列會比對到轉錄組的相同位置。在全基因組測序中,比對到同一位置的序列被認為是PCR擴增引入的技術噪音,通常只保留1條用於後續分析;而在RNA-seq中,這些重複的序列則因為可能是真實的生物信號而被保留。高表達的轉錄本在樣本中可能有數百萬份RNA拷貝,當做為cDNA測序時,產生相同的片段也是合理的。因此,在比對 (alignment)過程中,不建議計算去除比對到同一位置的序列,因為它們代表了真正的生物信號。尤其是在使用單端測序 (single-end sequencing)時更是如此,因為一對片段只要一端序列相同就會被認為是一個重複 (duplicate);而雙端測序 (paired-end sequencing)中,片段化的兩端必須發生在同樣位置才會導致duplicate,而這個的發生概率比較低。但是,在製備cDNA文庫時,由於PCR的偏好性,還是會引入duplication reads;很難去評估PCR引入的重複reads和生物重複reads的比例並把其作為一個質控因素校正RNA-seq實驗的結果。

UMIs被認為是一個處理擴增偏好性的方法。在cDNA分子擴增前加入隨機UMIs可以用於識別並計算移除PCR引入的重複,而不影響到基因自身表達引入的重複,進而改善基因表達定量的結果和評估等位基因的轉錄。如果一對測序reads包含有相同的UMI並且比對到轉錄組的同樣位置,則被認為是技術引入的重複 (對單端測序來說,這裡的一對測序reads是測序生成的兩條序列;對雙端測序來說,一對測序reads指同時包含左端和右端的兩條測序序列)。

UMIs已經被證明能夠通過降低檢測到的基因表達變化波動和假陽性率改善RNA-seq差異基因的統計分析。因為單細胞數據的擴增偏好更嚴重,UMI的使用對單細胞數據結果可靠性至關重要。當使用RNA-seq數據進行變異檢測 (variant calling)時,UMIs也非常有用。高表達的轉錄本更容易達到適合變異檢測的高覆蓋率要求,尤其在考慮了重複reads時,而UMIs可用於移除PCR擴增引入的reads,從而校正等位基因頻率的計算。UMIs已成為單細胞RNA-seq (scRNA-seq)的文庫製備試劑盒的標配,也越來越多的用於常規RNA-seq。

改善降解了的RNA的分析

RNA-seq文庫製備方法的發展也促進了低質量或降解了的RNA的分析,例如從臨床獲得的福馬林固定石蠟包埋(FFPE)存儲的樣本中的RNA。低質量的RNA會導致不均勻的基因覆蓋,更高的DGE假陽性率和更高的重複率,與文庫的複雜性呈負相關。文庫製備方法優化的方向是儘量降低RNA降解的影響。這些方法在開發基於RNA-seq的診斷技術中尤為重要,如類似於基於21個基因RNA特徵來預測乳腺癌復發的OncotypeDX試劑盒(尚不基於測序)類似的檢測工具。雖然現在有幾種方法可以使用,但是比較研究顯示兩種方法表現最佳,即RNase H與RNA exome。如前所述,RNase H法使用核酸酶消化RNA:DNA複合物中的rRNA,但保留降解的mRNA用於後續測序。RNA exome方法使用寡核苷酸探針來捕獲RNA-seq文庫分子,非常類似於外顯子測序 (exome sequencing)使用的策略。這兩種方法應用簡單,並都能在保留降解的和片段化的mRNA的前提下降低混入的rRNA的影響,進而獲得高質量的和高穩定性的基因表達數據。3ʹ末端標記測序技術與擴增子測序(PCR擴增超過2萬個外顯子)方法也可以用於分析降解的RNA,但這兩種方法並沒有RNase H方法應用廣泛。

設計更好的RNA-seq實驗

好的DGE RNA-seq實驗設計對獲取高質量和有生物意義的數據是至關重要的。特別需要考慮的是生物重複的數目、測序深度、採用單端還是雙端測序。

生物重複與統計檢出力 (replication and experimental power)

實驗中必須包含足夠的生物學重複以捕獲組內樣品自身存在的生物差異。定量分析的可信度更多地取決於生物重複,而非測序深度或reads長度。儘管RNA-seq的技術穩定性高於微陣列平臺,但生物系統固有的隨機變異要求進行常規RNA-seq實驗必須要重複一次。額外的重複能夠幫助發現異常樣品;並且在後續分析前,如有必要時移除或降低異常樣品的權重。確定最佳重複數需要仔細考慮幾個因素,包括預期的最小變化幅度 (effect size)、組內變異、可接受的假陽性和假陰性率以及最大能用於實驗的樣本量,並且可以通過使用RNA-seq實驗設計工具或統計功效工具進行輔助設計。(http://www.biostathandbook.com/power.html )

樣品生物學重複數據選擇 1必要性 2需要多少重複?

確定實驗的正確重複數並不總是那麼容易。一項48個重複的酵母研究表明,當分析中僅包含3個重複時,許多用於DGE分析的工具僅檢測到20-40%的差異表達基因。該研究表明,至少應使用六個生物重複,這大大超過了RNA-seq文獻中通常報導的三個或四個重複。最近的一項研究表明,四個重複可能就足夠了,但它強調了測量生物學差異的必要性-例如,在確定出重複數之前先進行預實驗。對於高度多樣化的樣本(例如來自癌症患者腫瘤的臨床組織),可能需要進行更多重複才能檢測出高可信度的變化。

確定最佳測序深度

RNA-seq文庫構建好後,就需要確定測序深度了。測序深度是指每個樣品獲得的測序序列數量。對於真核基因組中的bulk RNA DGE實驗,通常需要每個樣品大約10–30百萬條測序reads。但是,多個物種的比較分析表明,對於最高表達的50%的基因來說,每個樣本只需要測序1百萬條 reads就可以獲得與測序3千萬條reads相似的表達定量結果。如果只關注最高表達的基因相對大的表達變化,並且有合適的生物學重複,那麼較少的測序就足以產生驅動後續實驗的假說。測序完成後,估計的測序深度可以通過檢查樣品之間reads的分布和繪製飽和度曲線驗證,並且飽和曲線還可以評估加測是否能提高檢測敏感性。隨著測序儀測序通量的增加,將一個實驗的所有樣品混合到一起同時上機測序(甚至在同一個lane裡面測序)是控制技術偏差的標準做法。總產出reads數是樣本數與每個樣本期望獲得的reads數的乘積;如果有必要,混合的文庫測序足夠多的次數以達到所需的總reads數。混樣測序需要仔細測定每個RNA-seq文庫的濃度,並假定混合的不同樣品中cDNA的總量相差不大(低方差),因此讀取的總reads數才能均勻地分到各個樣品中。在進行昂貴的多通道混合測序之前,運行單個lane確認樣品之間cDNA總量相差不大是值得的預操作。

選擇測序參數:reads長度和單端或雙端測序。

最後需要確定的測序參數包括reads長度以及是生成單端還是雙端reads。

在許多測序應用中,測序reads的長度對數據可用性有很大影響,更長的測序reads可以覆蓋更多的測序DNA。當使用RNA-seq鑑定DGE時,影響數據的可用性的重要因素是確定每個reads來自轉錄組中哪個基因的能力。一旦可以明確地確定reads位置,測序更長的reads在基於定量的分析中就沒必要了。對於更定加性的RNA-seq分析(例如鑑定特定isoforms),更長的reads可能會更有幫助。

單端測序與雙端測序的問題類似。在單端測序中,每個cDNA片段的一個末端(3′或5′)用於產生測序reads,而雙端測序中每個片段產生兩個測序reads(一個3′和一個5′)。在需要測序儘可能多核苷酸的實驗中,首選long-read paired-end測序。在DGE分析中,用戶只需要計算比對到轉錄本的reads數即可,故不需要對轉錄本片段的每個鹼基都進行測序。例如,將「短」的50 bp的單端測序與「長」的100 bp的雙端測序的DGE分析比較表明單端測序也可以獲得一致的結果。這是因為單端測序足以確定大多數測序片段來源的基因。相同的研究還表明,短的單端測序會降低檢測轉錄isoform的能力,更少的reads會跨越exon-exon junction。雙端測序還可以幫助消除序列比對 (read mapping)的歧義,適用於可變外顯子定量 (alternative-exon),融合轉錄本檢測和新轉錄本發現 ,尤其在注釋較差的轉錄組應用中效果明顯。

實際上,單端或雙端測序的選擇通常取決於成本或用戶可用的測序技術。在發布Illumina NovaSeq之前,在大多數情況下,單端測序每百萬條reads的成本要低於paired-end測序,因此在相同的實驗成本下,可以測序更多的重複或測序更深。如果需要在獲取大量較短的單端reads與生成較長和/或雙端的reads之間進行選擇,則測序深度的增加將對提高DGE檢測的敏感性更重要。

RNA-seq數據分析

在過去的十年中,用於分析RNA-seq以確定差異表達的計算方法的數量已成倍增加,即使對於簡單的RNA-seq DGE,在每個階段的分析實踐中也存在很大差異。而且,每個階段使用的方法的差異以及不同技術組合形成的分析流程都可能會對從數據得出的生物學結論產生重大影響。最優工具組合取決於研究的特定生物學問題以及可用的計算資源。儘管有多種衡量方式,但我們對工具和技術的評估落腳點在它們鑑定出的差異基因的準確性。為了完成這個評估,至少需要四個不同的分析階段(圖2;表2)。第一階段把測序平臺生成的原始測序數據比對到轉錄組。第二階段量化與每個基因或轉錄本來源的reads數量,構建表達矩陣。該過程可能包括1個或多個子過程如比對,組裝和定量,或者它也可以一個從讀取計數生成表達矩陣。通常有一個第三階段,包括過濾低表達的基因和至關重要的移除樣品間技術差異的標準化過程。DGE的最後階段是構建樣本分組和其它協變量的統計模型,計算差異表達置信度。

Nature重磅綜述 |關於RNA-seq,你想知道的都在這

圖2

第1階段-測序reads的比對和組裝

測序完成後,分析的起點是包含測序鹼基的FASTQ文件。最常見的第一步是將測序reads比對到已知的轉錄組(或注釋的基因組),將每個測序reads轉換為一個或多個基因組坐標。傳統上,該過程是通過幾個不同的比對工具(如TopHat,STAR或HISAT)完成的,其都依賴參考基因組的存在。由於測序的cDNA來自RNA,可能跨越外顯子邊界,因此與參考基因組(包含內含子和外顯子)比對時需要進行剪接比對,即允許reads中出現大片段gap。

如果沒有可用的包含已知外顯子邊界的高質量基因組注釋,或者如果希望將reads與轉錄本(而不是基因)相關聯,則需要在比對後執行轉錄組組裝步驟。諸如StringTie和SOAPdenovo-Trans之類的組裝工具使用比對reads的gap來推測外顯子邊界和可能的剪接位點。轉錄本重頭組裝特別適用於參考基因組注釋缺失或不完整的物種,或者對異常轉錄本感興趣(例如在腫瘤組織中)的研究。轉錄組組裝方法受益於雙端測序和/或更長的reads的使用,增加跨越splice junctions的可能性。但是,通常不需要從RNA-seq數據中從頭做轉錄組組裝來確定DGE (生信寶典註:無參分析組裝是必須的)。

最近,湧現了一些計算效率高的「alignment free」工具,例如Sailfish,Kallisto和Salmon,它們將測序reads直接與轉錄本關聯,而無需單獨的定量步驟。這些工具在定量高豐度(以及長度更長)的轉錄本方面表現出很好的性能。但是,它們在定量低豐度或短轉錄本方面不夠準確。(39個工具,120種組合深度評估 (轉錄組分析工具哪家強))

不同的比對工具如何分配ambiguous reads的策略會影響最後的表達估計。對於可能來自多個不同基因、假基因或轉錄本的多映射reads (multi-map),這些影響尤為明顯。對12種基因表達估計方法的比較顯示,某些比對方法低估了許多臨床相關基因的表達,這主要取決於對ambiguous reads的處理。在RNA-seq數據的計算分析中,對如何正確分配比對到多個位置的reads進行模型探索仍然是研究的一個重點領域。一種常見的做法是在定量前過濾掉這些reads,但這會導致結果產生偏差。其他方法包括生成包含合併映射重疊區域的「融合」表達特徵,以及計算每個基因的映射不確定性估計,以用於後續的置信度的計算。

第2階段-定量轉錄本豐度

將reads比對到基因組或轉錄組後,下一步就是將它們分配給基因或轉錄本,獲得表達矩陣。不同的比較研究表明,定量過程中採用的方法對最終結果的影響最大,甚至比比對工具影響更大。單個基因(即該基因的所有轉錄亞型)的定量是基於轉錄組注釋計算與已知基因重疊的reads數。但是,把短reads分配到特定isoforms則需要統計模型估計,尤其是很多reads不跨越剪接點,並且不能明確分配給特定isoform時。即使在僅研究基因水平差異表達的情況下,定量isoform的差異也會獲得更準確的結果,尤其是基因在不同條件下主要表達不同長度的isoform時。例如,如果某個基因的一個isoform在一個樣品組中的長度是另一樣品組中的isoforms的一半,但表達速率是後者的兩倍,則純基於基因的定量將無法檢測到這一表達差異。

常用的定量工具包括RSEM,CuffLinks,MMSeq和HTSeq,以及上述的無比對直接定量工具。基於reads計數的工具(例如HTSeq或featureCounts)通常會丟棄許多比對的序列,包括那些具有多個匹配位置或比對到多個表達特徵的reads。這可以在隨後的分析中消除同源和重疊的轉錄本。RSEM使用期望最大化模型來分配模糊的reads,而無參考的比對方法(例如Kallisto)則將這些reads用於後續的定量,這可能會導致結果偏差。轉錄本豐度估計可以轉換成等效的read計數,能完成這一轉換的部分工具依賴tximport包。量化步驟結束後會得到一個合併的表達矩陣,每個表達特徵(基因或轉錄本)各佔一行,每個樣品各佔一列,中間的值是實際讀數 (reads count)或估計的表達豐度。

階段3-過濾和標準化

通常,基因或轉錄本的reads count需要進行過濾和標準化,以移除測序深度、表達模式和技術偏差的影響。過濾去除在所有樣本中都低豐度表達的基因是很直接的方式,並且已經證明可以改善對真正差異表達基因的檢測。標準化表達矩陣的方法要複雜一些。簡單的轉換可以校正豐度,降低GC含量和測序深度的影響。如今人們已經認識到諸如早期應用的RPKM之類的方法是不夠的,並已被能夠校正樣本之間更細微差異的方法所替代,例如四分位數或中位數歸一化。(什麼?你做的差異基因方法不合適?)

比較研究表明,normalization方法的選擇可能對最終結果和生物學結論有重要影響。大多數基於計算的標準化方法依賴於兩個關鍵假設:首先,大多數基因的表達水平在生物重複中變化不大;第二,不同的樣本組總的mRNA水平沒有顯著差異。而當這些基本假設不成立時,就需要仔細考慮是否以及如何執行標準化了。例如,如果一組特定的基因在一個樣品組中高表達,而相同的基因加上另一組基因在另一個樣品組中表達,那麼簡單地標準化測序深度是不合適的,因為在第二個樣本組中相同數目的reads會分給更多數目的基因。標準化方法如edgeR所使用的的M-值的加權截尾均值 (trimmed mean of M-values , TMM)可以處理這一情況。確定合適的標準化方法是困難的;一種選擇是嘗試使用多種方法進行分析,然後比較結果的一致性。如果結果對標準化方法高度敏感,則應進一步探索數據以確定差異的來源。必須注意,這一比較不會被用於選擇與原始假設吻合的結果的歸一化方法。

解決此類問題的一種方法是使用spike-in對照RNA-即在文庫製備過程中引入預定濃度的外源RNA序列。RNA-seq常用的spike-in有 External RNA Controls Consortium mix (ERCCs),spike-in RNA variants (SIRVs)和sequencing spike-ins (Sequins)。由於spike-in的RNA濃度是預先知道的,並且濃度與產生的reads的數量直接相關,因此可以校準樣品中轉錄本的表達水平。有人認為,如果沒有spike-in對照,則不能正確地分析總體表達變化較大的項目。然而,在實踐中,可能難以始終如一地以預設水平摻入spike-ins ,並且它們在標準化基因水平上的reads計數時比在轉錄本水平上更可靠,因為單個isoform可以在樣品中以顯著不同的濃度表達。目前,儘管已發表的RNA-seq DGE實驗中spike-in對照並未得到廣泛使用,但隨著單細胞實驗的開展這一狀況可能會改變,因為單細胞RNA-seq中spike-in應用廣泛,當然前提是這個技術能進一步優化達到穩定的水平。

階段4-差異表達分析

獲得表達矩陣後,就可以構建統計模型評估哪些轉錄本發生了顯著的表達改變。有幾個常用工具可以完成此任務;一些基於基因水平的表達計數,其它的基於轉錄本水平的表達計數。基因水平的工具通常依賴於比對的reads計數,並使用廣義線性模型來進行複雜實驗設計的評估。這些工具包括EdgeR,DESeq2和limma + voom等工具,這些工具計算效率高並且彼此之間結果穩定性好。評估差異isoforms表達的工具,例如CuffDiff,MMSEQ和Ballgown,往往需要更多的計算資源,並且結果的變化也更大。但是,在差異表達工具應用之前的操作(即關於比對、定量、過濾和標準化)對最終結果的影響更大

Nature重磅綜述 |關於RNA-seq,你想知道的都在這

表2

其它非bulk RNA分析

來自組織和/或細胞群體的RNA-seq徹底革新了我們對生物學的理解,但是它無法簡單地用於解析特定的細胞類型,並且不能保留空間信息,這些對於理解生物系統的複雜性都是至關重要的。使用戶能夠處理非bulk RNA的方法與標準RNA-seq protocols非常相似,但是可以解決的問題卻截然不同。單細胞測序已經揭示了在過去我們認為研究透徹的疾病中存在著未知的細胞類型,例如發現肺離子細胞 (ionocyte cells),這可能與囊性纖維化的病理學機制有關。空間解析度的RNA-seq對實體組織中細胞間相互作用也有了新的發現,例如揭示成年心臟組織中存在一小部分胎兒標誌物基因表達的細胞群體。在可預見的將來,Bulk RNA-seq將仍然是佔主導地位且有價值的工具。但是,單細胞實驗和分析方法正在被研究人員迅速採用,並且隨著空間RNA-seq方法的成熟,它們也有可能成為常規RNA-seq工具的一部分。兩種方法都將提高我們探究多細胞生物複雜性的能力,並且可能都需要與bulk RNA-seq方法結合使用。在這裡,我們簡要介紹了主要的單細胞和空間分辨轉錄組方法,它們與bulk RNA-seq的區別以及用戶需要考慮的新問題。

Nature重磅綜述 |關於RNA-seq,你想知道的都在這

圖3

單細胞分析

scRNA-seq最早於2009年報導,方法是在含有裂解緩衝液的Eppendorf管中分離單個卵母細胞。其在新生物學問題的應用,以及可用的實驗和計算方法發展之快以至於最新的綜述也迅速過時了。每種scRNA-seq方法都需要解離實體組織,分離單個細胞(使用非常不同的方法),並對其RNA進行標記和擴增以進行測序,並且所有步驟都脫胎於bulk RNA-seq protocols。(單細胞轉錄組教程匯總)

機械分解和collagenase及DNase的酶解在單細胞懸浮液中產生的活細胞比例最高,但是這一比例具有高度組織特異性,最好根據經驗確定,並且要非常小心。一旦製備了單細胞懸液,就可以通過各種方法分離單個細胞(圖3a);由於大多數實驗室都可以使用流式細胞儀,因此最容易獲得的方法是將細胞直接分選到含有裂解緩衝液的微量滴定板中。對於更高通量的實驗,存在多種用於分離細胞的技術,但需要構建或購買特定的單細胞儀器。單個細胞可以在微流體晶片中進行物理捕獲,或按照泊松分布模型加載到納米孔設備中,也可以通過基於液滴的微流控技術(例如在Drop-Seq,InDrop中)分離單細胞並與後續反應試劑包裹在一個液滴中,或者採用原位序列條形碼標記(例如單細胞組合索引RNA測序(sci-RNA-seq)和基於分池連接的轉錄組測序(split-pool ligation-based transcriptome sequencing, SPLiT-seq))。單細胞分離後會被裂解釋放RNA到溶液中以進行cDNA合成,並用於RNA-seq文庫製備。通常在文庫製備過程中會使用PCR擴增單個細胞的RNA。這一步擴增會引入PCR偏差,需要使用UMI進行校正。儘管由於逆轉錄過程符合Poisson採樣分布,但只有10–20%的轉錄本會被逆轉錄,限制了轉錄本檢測的敏感性,不過各種方法都可以生成可用的數據。在溼實驗室之外,計算方法也在迅速發展,並且最近出現了關於scRNA-seq實驗的設計指南。方法學的飛速發展意味著scRNA-seq方法的技術會快速過時。儘管如此,Ziegenhain等人提供了scRNA-seq方法的綜述,強調了UMI在數據分析中的重要性,並展示了所比較的的六種方法中哪一種最敏感。但是,他們的研究不包括被廣泛採用的10X Genomics技術。

用戶選擇scRNA-seq方法時應考慮的主要因素包括他們是否需要測序全長轉錄本,測序更多細胞(廣度)或每個細胞測序更深獲得更多轉錄本(深度)和實驗預算之間的權衡。全長scRNA-seq方法通常具有較低的通量,因為每個細胞需要獨立處理直到獲得最終的scRNA-seq庫。然而,這一方法允許用戶研究可變剪接和等位基因特異性表達。非全長檢測方法只測序轉錄本的3』或5』末端,這在檢測isoforms表達時會受限,但是由於在單個細胞cDNA合成後可以pool到一起,因此可以分析的細胞數量要高出2-3個數量級。單細胞測序的廣度是指同時測序的細胞、組織或樣品的數量,而深度是指給定數量的測序reads可分析覆蓋多少轉錄本。儘管實驗中能測序的細胞數量是由選擇的方法決定的,但它確實具有一定的靈活性,隨著所分析的細胞數量的增加,增加的測序成本通常會限制轉錄組測序的深度。因此,可以根據廣度和深度這兩個維度來評估不同的scRNA-seq系統。通常,基於X孔板 (plate-based)的方法或微流控方法通常捕獲最少的細胞,但每個細胞檢測更多的基因,而基於液滴的系統可用於分析最大數量的細胞,如有的項目一次分析超過一百萬個細胞。

scRNA-seq的發展正在推動大規模的細胞圖譜項目,以期確定生物體或組織中所有細胞類型。Human Cell AtlasNIH Brain Initiative項目分別對人體和大腦中存在的所有細胞類型進行測序。The Human Cell Atlas旨在在第一階段對3千萬至1億個細胞進行測序,並且隨著技術的發展,其廣度和深度將不斷增加。該項目的最新成果包括發現肺離子細胞 (ionocyte cells),以及發現兒童和成人的腎臟癌起源於不同細胞類型。但是,研究者應該意識到scRNA-seq技術幾乎可以應用於任何生物體。最近,對擬南芥根細胞原生質體的單細胞分析表明,即使植物細胞堅硬的細胞壁都不是分離單細胞並且進行測序的障礙。scRNA-seq正在迅速成為生物學家工具箱的標配,並可能在10年內像今天的bulk RNA-seq一樣廣泛使用。

空間分辨的RNA-seq方法

當前的bulk和scRNA-seq方法為用戶提供了有關組織或細胞群體的高度詳細的數據,但都沒有保留細胞的空間位置信息,這降低了確定細胞所處環境與基因表達之間關係的能力。實現空間轉錄組學研究方法的兩個技術是「空間編碼」 (spatial encoding)和「原位轉錄組學」 (in situ transcriptomics)。空間編碼方法在RNA-seq文庫製備過程中記錄空間信息,方法是分離空間固定的細胞 (spatially restricted cells)(例如通過雷射捕獲顯微切割(LCM)),或根據分離前的位置加入條形碼編碼 (從組織切片中捕獲mRNA)。原位轉錄組學方法是在組織切片內的細胞進行RNA進測序或RNA成像獲得表達數據。我們推薦對此感興趣的讀者閱讀最近的相關綜述以獲得更多了解。

LCM配合RNA-seq已成功從組織切片中分離和測序單個細胞或特定區域。儘管需要專用設備,但LCM在許多機構中廣泛可用。儘管它可以實現高空間解析度,但是卻很費力,因此很難做大規模。在Spatial Transcriptomics(美國10X Genomics公司)和Slide-seq方法中,採用寡核苷酸晶片 (oligo- arrayed microarray slides)和布滿寡核苷酸的凝珠 (densely packed oligo-coated beads) 直接從冷凍組織切片中捕獲RNA進行測序。寡核苷酸包含spatial barcode,UMI和oligo-dT引物,可唯一識別每個轉錄本及其位置。測序reads比對回玻片坐標獲得空間基因表達信息。已經證明,Spatial Transcriptomics可用於多種物種的組織,包括小鼠腦和人乳腺癌組織、人心臟組織和擬南芥花序組織。Slide-seq是一項最新開發的技術,已顯示可用於小鼠大腦的冷凍切片分析。這些直接的mRNA捕獲方法不需要專門的設備,具有相對簡單的分析方法,並且可能大規模應用於許多組織。但是,有兩個重要的問題有待解決。首先,該技術只能應用於新鮮的冷凍組織。其次,解析度受到晶片大小和寡核苷酸凝珠間距的限制;當前應用的晶片大小分別為6.5×7 mm和3×3 mm,限制了可以檢測的組織切片的大小。Spatial Transcriptomics的凝珠直徑為100 µm,間隔為100 µm,這意味著它們不夠小或不夠密,以致無法實現單細胞解析度。Slide-seq的凝珠 (beads)小得多,直徑僅為10 μm,並且堆積緻密,提供了十倍的空間解析度,大約一半的beads可以獲得單個細胞數據。計算整合分析組織消化分離後scRNA-seq與空間編碼數據可以提高解析度,但是還需要隨著技術的發展這才能成為常規的RNA-seq工具。

能替代上述空間分辨RNA-seq方法的技術包括原位測序基於成像的單分子螢光原位雜交技術。與RNA-seq方法相比,這些方法產生的轉錄組譜更窄(能檢測的轉錄本更少),但可直接檢測RNA,而靶向方法則可分析低豐度轉錄本。同時,它們提供有關組織結構和微環境的信息,並可生成亞細胞數據。雖然取得了很多進展,但基於成像的方法的主要局限性是對高解析度或超高解析度顯微鏡與自動流控相結合的需求,以及成像所花費的時間可能長達數小時,甚至數天。相較於測序成本以快於摩爾定律預測的速度下降,讓基於成像的系統能進行高通量分析處理的機會卻很有限。

目前,上述所有提到的空間轉錄組學方法都受到無法生成深度轉錄組數據、細胞解析度和/或成本(時間和/或金錢)非常高的限制,但是相關方法正在迅速改進,並且已經應用於臨床樣品。用於空間組轉錄組學分析的特定計算方法開始出現。此外,原位RNA測序和基於成像的方法的進步已使獲得10^3至10^5個細胞的轉錄組數據成為可能,這於基於液滴的單細胞方法可獲得的細胞量相似。未來的發展可能會使空間轉錄組學可以被更廣泛的用戶使用。但是,大多數用戶可能不太需要真正的單細胞或亞細胞解析度。這樣,對檢測更多轉錄本的需求和對廣泛的組織或樣品的適用性可能會推動這些技術在特定領域的發展。如果可以克服空間轉錄組技術的這些局限性,那麼它可能會被廣泛採用。

非穩定狀態RNA的分析

DGE研究使用RNA-seq來測量穩態mRNA水平,這是通過平衡mRNA轉錄、加工和降解的速率來維持的。但是,RNA-seq也可用於研究轉錄和翻譯的過程和動態變化,這些研究為基因表達研究提供了新的視角。

捕獲新生RNA測量活躍轉錄

基因表達實質上是一個動態過程,DGE分析無法檢測複雜轉錄響應過程中的細微和快速變化,也不能鑑定不穩定的非編碼RNA(例如增強子RNA)。RNA-seq可用於定位TSS並定量正在轉錄的新生RNA,從而能夠研究RNA動力學。但是,與DGE分析相比,新生RNA的研究具有挑戰性,因為它們的半衰期短且豐度低。因此,了解RNA動力學的重要性催生了多種分析新生RNA研究方法。這些方法揭示了啟動子的不同轉錄程度,轉錄激活狀態的RNA聚合酶II(Pol II)在啟動子近端的停留是基因表達調控的關鍵步驟,新生RNA可以直接調節轉錄,並且它的序列和結構影響轉錄延伸、暫停和停滯 (stalling),以及染色體修飾酶和增強子RNAs的結合。旨在區分新轉錄的RNA和其他RNA的新生RNA-seq方法可以大致分為三類:run-on方法基於Pol II免疫沉澱(IP)的方法代謝標記方法(圖4)。

Nature重磅綜述 |關於RNA-seq,你想知道的都在這

圖4

Run-on方法依賴於轉錄時摻入核苷酸類似物,用於從總RNA中富集新生RNA,並可以測量RNA瞬時轉錄(圖4a)。Global run-on sequencing(GRO-seq)和precision nuclear run-on sequencing(PRO-seq)通過在轉錄過程中分別將5-溴尿苷5′-三磷酸(BrU)或生物素標記的核苷酸摻入新生RNA中來實現這一目標。在添加外源生物素標記的核苷酸並恢復轉錄之前,分離細胞核並洗去內源核苷酸。測序免疫沉澱或親和層析富集的新生轉錄本可以確定轉錄組範圍內活性轉錄的RNA聚合酶的位置和活性。取決於轉錄時摻入的標記核苷酸的數量,GRO-seq只能達到10-50 bp的解析度,這降低了TSS定位的精度。PRO-seq可實現單鹼基解析度的定位,因為在生物素核苷酸摻入後轉錄會停止,從而可以確定摻入位點。Run-on方法在概念上很簡單-僅將摻入修飾了的核苷酸的RNA分子富集用於測序,但實際上,背景非新生RNA的存在會增加所需的讀取深度。這些方法的使用揭示了在啟動子上發散或雙向轉錄起始的程度,並確定了增強子RNA在調節基因表達中的作用。通過結合對5′-帽RNA的特異性富集,GRO-cap,PRO-cap或小的5′-帽RNA測序(START-seq)提高了檢測轉錄起始的敏感性和特異性和捕獲可能在轉錄過程中被加工去除的RNA,減少轉錄後加帽的RNA產生的背景信號。

Pol II IP方法,例如native elongating transcription sequencing (NET-seq) 和native elongating transcript sequencing for mammalian chromatin (mNET-seq),使用anti-FLAG (for FLAG-tagged Pol II) 或其它結合Pol II C末端功能域(CTD)的各種抗體拉下Pol II相關的RNA。儘管非新生的Pol II結合的RNA和背景mRNA會導致更高的測序深度並混淆分析,但富集測序與這些染色質複合物相關的新生RNA可用於繪製TSS位點。NET-seq可能特異性較低,與Pol II強相關的任何RNA都可能汙染新生RNA的富集,NET-seq數據中存在的tRNA和小核仁RNA可以說明這一點。在mNET-seq中使用的多種CTD抗體揭示了CTD修飾調控轉錄的機制,檢測RNA加工中間體並能夠將特定Pol II的新生RNA定位於TSS。然而,這些能力是以更複雜的實驗為代價的,需要更多的細胞和更高的總體測序成本。

用核苷酸類似物4-硫尿苷(4 sU)進行代謝標記 (metabolic pulse-labelling)可以鑑定新生的RNA(圖4c)。但是,在需要較長標記時間的方法中,大多數轉錄本都會被標記,限制其靈敏度。通過特異地靶向RNA的3′末端(即最接近RNA聚合酶的新轉錄的RNA),瞬時轉錄組測序(TT-seq)和硫醇(SH)-連接的烷基化RNA代謝測序(SLAMseq)減少5』RNA的信號。TT-seq將標記時間限制為5分鐘,以便僅標記新轉錄本的3′末端,並且在生物素親和純化之前增加RNA片段化步驟以富集標記的RNA。SLAM-seq整合了3′mRNA-seq文庫製備(儘管它也可以使用其他文庫製備方法,例如miRNA文庫),只測序標記了的新轉錄的RNA,而不是整個轉錄本。另外,在SLAM-seq中,在RNA提取後加入碘乙醯胺,用於烷基化整合到新生的RNA中的4 sU殘基。這一修飾誘導了逆轉錄依賴的胸腺嘧啶至胞嘧啶(T> C)核苷酸轉換,在測序分析中會被檢測為「突變」,從而直接鑑定出4 sU整合位點。但是,低整合率意味著只有少數4 sU位點被轉換為了胞嘧啶,限制檢測敏感性。TUC-seqTimeLapse-seq這兩種方法也使用T> C突變分析,但不富集3』末端。他們已用於探索細胞幹擾後的轉錄響應和測量RNA半衰期。

用於新生RNA分析的方法尚未直接做過比較。檢測新生RNA的測序方法都受到非特異性背景和/或降解的RNA混入的負面影響,使得測序需要更高的深度。通過僅測序RNA 3′末端,PRO-seq,TT-seq和SLAM-seq中非新生RNA的影響會被降低,但是幾乎沒有證據表明任何一種方法會優於其他方法。親和層析捕獲比較費力,並且需要比代謝標記法更高的起始RNA,但是確定標記 (pulse-labelling)所需的時間很複雜,標記時間短時後續用於分析的RNA也會少,限制了檢測敏感性。近來組織特異性RNA標記技術和用於「突變」分析的新計算方法的發展,可能會促使用戶對新生RNA和其他RNA的檢測從生化(基於生物素的)富集轉換為生信富集。新生RNA檢測方法的進一步發展以及它們與其他方法(例如空間轉錄組或RNA–RNA和RNA–蛋白質相互作用方法)的結合,將使我們對轉錄過程有更深入的了解。

核糖體圖譜定量活性轉錄

RNA-seq的主要重點在於分析樣品中現存的mRNA的種類和數量,但是mRNA的存在並不直接對應於蛋白質的產生。兩種方法-多聚核糖體圖譜(polysomal profiling)和Ribo-seq技術允許我們跳出轉錄研究翻譯組。核糖體翻譯mRNA是受到高度調控的,蛋白質水平主要由翻譯活性決定。Polysomal profiling和Ribo-seq幫助研究一個轉錄本上結合了多少核糖體及它們在轉錄本上的分布規律(圖5)。這允許我們推斷在特定時間或細胞狀態下哪些轉錄本正在活躍翻譯。兩種方法均假設mRNA上的核糖體密度與蛋白質合成水平相關。樣品比較分析發現在發育過程中或翻譯失調相關疾病中,如纖維化,阮病毒病或癌症,處理前後隨著時間推移的核糖體動力學。

Nature重磅綜述 |關於RNA-seq,你想知道的都在這

圖5

Polysome profiling多核糖體分析使用蔗糖梯度超速離心法將多個核糖體結合的mRNA (polysomal fraction)與單個或無核糖體結合的mRNA (monosomal fraction)分離分別用於RNA-seq文庫製備(圖5a)。在polysomal fraction比monosomal fraction中檢測到更高豐度的mRNAs翻譯活性更高。該方法不僅可以推斷單個mRNA的翻譯狀態,還可以生成核糖體佔有率和密度的高解析度圖譜(儘管它無法確定核糖體的位置)。後續也對原始方法進行了一些改進。例如,使用非線性蔗糖梯度改善了在不同濃度蔗糖溶液臨界濃度處多聚核糖體mRNA的收集;應用Smart-seq文庫製備方法可以檢測低至10 ng的多聚核糖體mRNA;使用更高解析度的蔗糖梯度和深度測序允許檢測轉錄本異構體特異性翻譯。然而,多核糖體譜分析只能產生相對低解析度的翻譯譜,並且是需要專門設備,限制了其廣泛使用。

Ribo-seq基於RNA印記,最初是在酵母中開發。它使用環己醯胺抑制翻譯延伸進而導致核糖體停滯在mRNA上。用RNase I消化mRNA會留下核糖體保護的20–30個核苷酸印記,用於後續構建RNA-seq文庫(圖5b)。Ribo-seq可以獲得高解析度翻譯譜,同時檢測單個轉錄本上核糖體豐度和定位。能夠獲得多聚核糖體分析無法檢測到的核糖體在轉錄本上位置的分布,意味著可以檢測到影響蛋白質表達調控的翻譯暫停事件 (translation pausing)。Ribo-seq技術的優化包括緩衝液和酶的優化,可以更清楚地揭示Ribo-seq數據的3 bp周期性,以及barcode和UMI的使用可以確定單分子事件。儘管最近開發了用於尋找開放閱讀框,用於差異或isoforms水平翻譯分析和用於研究密碼子偏好性的特定工具,但標準RNA-seq工具仍可用於計算分析。Ribo-seq的主要局限性在於依賴超速離心和由於核酸酶批次間活性的差異需要憑經驗確定消化條件。

前面提到的方法不能區分翻譯起始、延伸和終止的信號,但是對Ribo-seq的改進使得可以對翻譯動力學進行進一步研究。定量翻譯起始測序(QTI-seq)通過化學「凍結」富集起始核糖體,同時從相關mRNA中去除延伸核糖體來定位翻譯起始位點 (生信寶典註:原文寫的是maps transcription initiation sites,應該是筆誤)。在組裝成熟核糖體之前,Translation complex profile sequencing (TCP-seq)通過富集與成熟核糖體RNA組裝前的40S核糖體小亞基結合的RNA來定位翻譯起始位點。同時,由於這種方法保留了核糖體的完整性,因此也可以分析和比較80S核糖體部分,從而獲得更完整的翻譯動力學分析(圖5b)。

所有的翻譯組方法在概念上都是相似的;他們假設mRNA核糖體密度與蛋白質合成水平相關。儘管它們的樣品製備方案不同,但是都需要大量的起始細胞。最終,可能需要將它們與RNA-seq結合以了解基因表達水平,並與蛋白質組學結合以確定蛋白質水平,才能全面了解mRNA翻譯。如果想詳細了解翻譯組分析,文中也推薦了其它綜述。

超越基因表達分析

RNA在其他生物分子和生物過程(例如剪接和翻譯)的調控中起著重要作用,這些過程涉及RNA與各種蛋白質和/或其他RNA分子的相互作用。RNA-seq可用於探究分子內和分子間RNA-RNA相互作用(RRI),或RNA與蛋白質的互作,從而可以更深入地了解轉錄和翻譯過程(圖6)。為互作組 (interactome)分析而開發的各種方法都有一個共同點:富集相互作用的RNA。一些方法利用了天然的生物相互作用,另一些方法則在目標分子之間發生瞬時結合或共價結合。大多數使用抗體,親和層析或探針雜交來富集用於測序的RNA。在這裡,我們簡要介紹基於RNA-seq的結構組 (structurome)和互作組 (interactome)。

Nature重磅綜述 |關於RNA-seq,你想知道的都在這

圖6

通過分子內RNA相互作用探測RNA結構

核糖體RNA和tRNA構成細胞的大部分RNA。它們與其他有特定結構的非編碼RNA一起在基因調控到翻譯的多種細胞過程發揮作用。用於解析RNA結構的方法主要有兩種,分別是基於核酶的方法化學探針法。核糖核酸酶消化法於1965年首次用於確定(tRNA-Ala)RNA結構。在隨後的40年中開發了化學方法,例如基於引物延伸化學分析進行選擇性2′-羥基乙醯化法(SHAPE),可以在鹼基對解析度下確定tRNA-Asp的結構。但是,只有將各種核酶法和化學法與RNA-seq結合使用,才能進行全轉錄組範圍而非單個RNA水平的結構分析,這會加深我們關於RNA對結構組複雜性和重要性的理解。在這裡,我們著眼於核酶法和化學探針法之間的主要差異(圖6a)。請閱讀Strobedl的綜述做更全面的了解。

核酶法,例如RNA結構並行分析法(PARS, parallel analysis of RNA-structure)和片段測序(FRAG-seq, fragmentation sequencing),使用可以消化單鏈RNA(ssRNA)或雙鏈RNA(dsRNA)的核酶。核酸酶消化後剩餘的RNA用作RNA-seq文庫製備。隨後通過對所得RNA-seq數據進行計算分析,確定結構化(雙鏈)和非結構化(單鏈)區域。核酸酶簡單易用並允許對ssRNA和dsRNA進行研究,但由於核酸酶消化的隨機性,它們的解析度比化學法要低。此外,核酶的大體型使得它們不能進入細胞,進而不適用於體內研究。

化學映射方法使用與RNA分子反應的化學探針標記結構化或非結構化核苷酸。這些標記可阻止逆轉錄或導致cDNA誤整合 (micincorporation),進而可通過對RNA-seq reads進行測序和分析以獲得結構組學結果。SHAPE測序(SHAPE–seq)通過與RNA骨架的核-2′-羥基反應來標記未配對的ssRNA,髮夾環中的鹼基堆積會降低標記效率。Structure–seq和硫酸二甲酯測序(DMS-seq, dimethyl sulfate )用DMS標記腺嘌呤和胞嘧啶殘基,阻斷了逆轉錄,使得能夠通過分析所得的截斷cDNA推斷出RNA結構。SHAPE和突變圖譜分析(SHAPE–MaP)和DMS突變圖譜分析(DMS–MaPseq)都優化了實驗條件提高逆轉錄酶的合成能力並防止cDNA截斷。相反,化學標記會導致誤摻入事件,然後使用RNA-seq數據分析這些「突變」以揭示RNA結構。化學探針是小分子,可以在體內研究更具生物學意義的結構體;由於細胞內環境的動態變化,數據的變異度也會高一些。化學法還可以用於進行新生RNA的結構分析,並揭示共轉錄RNA摺疊的順序。

核酸酶和逆轉錄阻斷法通常產生短RNA片段,並且僅檢測單個消化位點或化學標記,而誤摻入和突變檢測方法每條測序reads可能檢測到多個化學標記位點。這些方法都不是沒有偏好的, 逆轉錄阻斷效率不會達到100%,誘導突變的化學標記可能會阻斷cDNA的合成,這兩個因素都會影響數據的分析解釋。Spike-in對照可能會提高結構組分析的質量,但尚未得到廣泛使用。SHAPE方法的比較揭示了僅在體內實驗中明顯的效率差異,強調了比較此類複雜方法時需要特殊注意。

這些方法揭示了RNA結構在基因和蛋白質調控機制中的新作用。例如,對DMS數據的分析發現,RNA結構可以調節APA,並可能減緩催化活性區域的翻譯,從而為蛋白質摺疊提供更多時間減少錯誤摺疊事件。可能需要結合使用多種結構RNA-seq方法才能獲得完整的結構組圖譜。隨著該領域研究的深入,我們可能會發現RNA結構與發育或疾病狀態之間的聯繫。最近的結果表明異常RNA結構在重複擴增導致的疾病中可能有調控作用。最終,結構組分析可以促使開發靶向結構清晰的RNA的小分子,從而開闢疾病治療藥物開發的新領域。

探索RNA–RNA分子間互作 (RRI)

分子間RRI在轉錄後調控中起重要作用,例如miRNA靶向3』UTR。已經開發的用於研究分子間RRI的工具,可用於靶向和全轉錄組的分析。這些方法有共同的操作流程,其中RNA分子在斷裂和就近自連之前先進行交聯固定互作狀態(圖6b)。通過不同方法生成的大多數(但不是全部)嵌合cDNA源自穩定鹼基配對(即相互作用)的RNA分子之間的連接。靶向方法,例如CLASH (crosslinking, ligation and sequencing of hybrids),RIA-seq(RNA interactome analysis and sequencing),RAP-RNA(RNA antisense purification followed by RNA sequencing)可以生成單個RNA的深度相互作用圖譜。CLASH可使用IP富集法分析特定蛋白質複合物介導的RRI,而RIA–seq使用反義寡核苷酸pull down與靶標RNA相互作用的RNA。兩種方法都不能區分直接和間接RRI,這使生物學解釋變得複雜。為了提高RRI分析的解析度,RAP–RNA使用psoralen和其他交聯劑,然後用反義寡核苷酸捕獲RNA,並通過高通量RNA-seq檢測直接和間接RRI。儘管該方法確實允許進行更特異的分析,但它需要準備多個文庫(每種交聯劑一個)。

全轉錄組方法與靶向方法基本相似:相互作用的RNA在體內進行交聯並富集。富集通過減少連接反應中攜帶的非相互作用RNA的量來提高特異性,可以通過2D凝膠純化富集(如PARIS,psoralen analysis of RNA interactions and structures法中)或使用生物素親和層析富集( 如SPLASH,sequencing of psoralen crosslinked, ligated and selected hybrids),或通過RNase R消化去除未交聯的RNA(如LIGR-seq,ligation of interacting RNA followed by RNA- seq)。連接後,去交聯,然後進行RNA-seq文庫製備和測序。PARIS方法產生最大數目的相互作用,但每個樣品需要7500萬條測序reads,比其他RRI方法要多很多,並且是DGE分析平均測序深度的兩倍以上。

整合RNA互作數據分析可以同時對多種相互作用進行探索,並揭示了不同種類RNA的RRI分布的變異。總的來講,90%的RRI有mRNA參與。近一半有miRNA或長鏈非編碼RNA參與,並且大多數互作都靶向mRNA。這些數據整合比較分析揭示了特定RNA種類在不同方法中存在很大偏好性,這導致方法之間幾乎沒有檢測到共有的互作。因此,要完整了解RRI,可能需要使用不止一種方法。但是,RRI方法存在一些局限性。也許最具挑戰性的是RRI是動態的,並且受結構構象和其他分子間相互作用的影響,如果沒有重複,結果就很難解釋。分子內相互作用為分子間RRI分析增加了噪音,這要求將高度結構化的RNA(例如rRNA)過濾並去除。其他問題包括RNA提取過程中的相互作用破壞,需要穩定的交聯方法,但最常用的RRI交聯試劑 psoralen和4′-氨基-甲基三氧雜沙侖(AMT)-僅能低效交聯嘧啶,降低了方法的敏感性。此外,鄰近連接步驟效率低下,並且可能同時連接相互作用和非相互作用的RNA,從而進一步降低了靈敏度。

研究RNA與蛋白質的相互作用。

ChIP-seq已成為探索DNA-蛋白質相互作用的必不可少的工具。一種類似的IP方法可以用於研究RNA與蛋白質的相互作用。RNA與蛋白質的相互作用方法也依靠IP,利用一種針對感興趣的蛋白的抗體來捕獲其結合的RNA進行分析(最初是結合微陣列晶片使用)(圖6c)。各種RNA與蛋白質相互作用方法之間最明顯的區別是互作的RNA和蛋白質是否進行交聯以及如何交聯:有些方法避免交聯(直接IP),另一些方法則使用甲醛進行交聯,而另一些方法則使用紫外線(UV)進行交聯。.最簡單的方法是RIP-seq( RNA

immunoprecipitation and sequencing ),通常但並非總是使用細胞內未加改造的蛋白的抗體富集,並且不需要RNA片段化處理。其操作簡單使得該方法易於採用。RIP-seq可以獲得有生物意義的分析結果,但是有兩個大的缺點。首先,用於保持RNA與蛋白質相互作用的溫和洗滌條件意味著相對高水平的非特異性結合片段也會得以富集。第二,RNA片段化步驟的缺失降低了結合位點的解析度。因此,RIP-seq結果高度可變,並取決於RNA-蛋白質結合的天然穩定性。使用甲醛交聯在RNA及其相互作用的蛋白質之間產生可逆的共價鍵可以提高穩定性並減少非特異性RNA的pull down,但是甲醛也會產生蛋白質-蛋白質交聯。可以通過與0.1%甲醛進行輕度交聯(比用於ChIP–seq研究的低10倍)來緩和這種影響,這在在多個蛋白質靶標上獲得了高質量的結果。

在CLIP中引入的254-nm UV交聯是一項至關重要的改進,它提高了RNA-蛋白質相互作用分析方法的特異性和結合位點鑑定的解析度。UV交聯會在蛋白質和RNA的相互作用位點之間建立共價鍵,但至關重要的是,不會導致互作蛋白的交聯。這樣可以穩定RNA與蛋白質的結合,從而允許使用之前會破壞RNA-蛋白互作的更嚴格的富集操作,減少背景信號。隨後,CLIP protocol已成為許多方法開發的基礎。單核苷酸解析度CLIP(iCLIP)將UMI納入文庫製備中以去除PCR重複。同時它還利用交聯核苷酸上cDNA合成過程中普遍存在的未成熟終止的優勢,通過截斷的cDNA擴增獲得單核苷酸解析度的交聯位點的定量檢測圖譜。PAR-CLIP(Photoactivatable- ribonucleoside-enhanced CLIP)通過使用4 sU和356-nm UV交聯獲得單核苷酸解析度的RNA-蛋白互作圖譜。4 sU在細胞培養過程中被整合進入內源性RNA,而356 nm的紫外線照射僅在4 sU插入位點產生交聯(獲得高特異性)。在所得序列數據中檢測反轉錄誘導的T>C替換可實現鹼基對解析度的檢測解析,並可區分交聯片段與非交聯片段,從而進一步降低背景信號。對CLIP的最新改進提高了它的效率和敏感性。紅外CLIP(irCLIP)採用紅外凝膠可視化和基於beads的純化功能取代了放射性同位素檢測。這些改變使得試驗操作更簡單,而且僅需20,000個細胞 (iCLIP通常需要1-2百萬個細胞)就可以進行RNA-蛋白質互作分析。eCLIP (enhanced CLIP)去掉了RNA-蛋白質複合物的質控和可視化過程,將樣品barcode與RNA adaptor結合在一起,使多個樣品可以更早地混合,並用beads代替凝膠進行片段富集。這些更改旨在簡化用戶的操作,作為ENCODE項目的一部分,已經針對近200種蛋白質進行了eCLIP實驗。但是,irCLIP和eCLIP目前均未得到廣泛採用,部分原因是eCLIP和irCLIP敏感性的某些提高可能是由於特異性的降低所致;支持這一結論的是,這兩種方法檢測到的PTBP1結合位點處結合基序和調控的外顯子富集度降低。由於大量公開可用的數據為計算分析提供了新的資源,因此重點考慮CLIP數據的質量控制,過濾,鑑定結合位點 (peak calling)和標準化所採用的方法,這些都會影響數據的生物學解釋。對此感興趣的讀者建議繼續閱讀推薦的綜述。

某些RRI方法和所有的RNA-蛋白質的互作檢測依賴於IP富集,因此僅能應用於有比較好的結合抗體的蛋白質的分析,而且非特異性抗體結合仍然是一個問題-儘管不只限於該領域。RNA結構也影響RNA與蛋白質的相互作用;一些蛋白質識別特定的RNA二級結構或與這些結構競爭結合RNA,這使體外的發現用於研究體內生物調控變得複雜。此外,RRI和RNA-蛋白質相互作用方法通常檢測的是特定轉錄本或特定位置互作的平均值。實驗方法、計算方法和單分子測序的進一步發展可能有助於解析這些內部的生物差異。

結論

Wang,Gerstein和Snyder在他們的預測中認為:RNA-seq將「給真核轉錄組分析帶來革命性變革」。但是,即使他們也可能對技術拓展應用到如此之多的RNA層面感到驚訝。今天,我們可以分析RNA生物學的許多方面,這對功能基因組的理解,研究發育以及引起癌症和其他疾病的分子失調都是必不可少的。儘管生物學發現階段還遠遠沒有結束,但臨床已經在使用基於RNA-seq的檢測試驗。單細胞測序已成為許多實驗室的標配,空間單細胞組學分析隨著方法的進一步發展也很可能會遵循類似的發展路徑。對大部分的研究者而言,長讀長測序方法有可能取代Illumina的短讀長RNA-seq作為默認的研究方法。為了使這種情況發生,就增加通量和降低錯誤率方面,長讀長測序技術還需要進行重大改進。如果長讀長測序變得與短讀長測序一樣便宜可靠,那麼除了對RNA降解的樣品之外,鑑定mRNA isoforms都會首選長讀長測序。考慮到這一點,任何關於RNA-seq在未來十年內發展的預測都可能會過於保守。

轉錄組研究

  • 39個轉錄組分析工具,120種組合評估(轉錄組分析工具哪家強-導讀版)

  • 39個轉錄組分析工具,120種組合評估(轉錄組分析工具大比拼 (完整翻譯版))

  • 無參轉錄組分析工具評估和流程展示

  • 120分的轉錄組試題(第一份答案)

  • 120分的轉錄組試題(第二份答案)

  • 120分的轉錄組試題(第三份答案)

  • DESeq2差異基因分析和批次效應移除

  • 美女教授帶你從統計學視角看轉錄組分析

  • 整合QC質控結果的利器——MultiQC

  • 自從用了這個神器,大規模RNA-seq數據挖掘我也可以

  • NGS基礎 - FASTQ格式解釋和質量評估

  • NGS基礎 - 高通量測序原理

  • NGS基礎 - 參考基因組和基因注釋文件

  • NGS基礎 - GTF/GFF文件格式解讀和轉換

  • NGS基礎 - 測序原始數據下載

  • Illumina測序儀比較和各種測序應用模式圖,助力了解高通量測序

  • 生信分析過程中這些常見文件的格式以及查看方式你都知道嗎?

  • 本地安裝UCSC基因組瀏覽器

  • 測序數據可視化 (一)

  • IGV基因組瀏覽器可視化高通量測序數據

  • 高通量數據分析必備-基因組瀏覽器使用介紹 - 1

  • 高通量數據分析必備-基因組瀏覽器使用介紹 - 2

  • 高通量數據分析必備-基因組瀏覽器使用介紹 - 3

  • 測序文章數據上傳找哪裡

  • GO、GSEA富集分析一網打進

  • GSEA富集分析 - 界面操作

  • 無需寫代碼的高顏值富集分析神器

  • 去東方,最好用的在線GO富集分析工具

  • 沒錢買KEGG怎麼辦?REACTOME開源通路更強大

  • 超簡便的國產lncRNA預測工具LGC

  • 我想做信號通路分析,但我就是不想學編程

  • 一個逆天的small RNA-seq數據挖掘神器

  • 一文掌握GSEA,超詳細教程

  • 這個只需一步就可做富集分析的網站還未發表就被CNS等引用超過350次

  • 什麼,你算出的P-value看上去像齊天大聖變的廟?

  • 單基因GSEA怎麼做?

  • 贈你一隻金色的眼 - 富集分析和表達數據可視化

  • NCB|心咽發育多樣化的單細胞轉錄軌跡分析

  • 用了這麼多年的PCA可視化竟然是錯的!!!

  • 如何火眼金睛鑑定那些單細胞轉錄組中的混雜因素

單細胞系列教程

  • 收藏 北大生信平臺" 單細胞分析、染色質分析" 視頻和PPT分享

  • Science: 小鼠腎臟單細胞轉錄組+突變分析揭示腎病潛在的細胞靶標

  • Science:通過單細胞轉錄組測序揭示玉米減數分裂進程 | 很好的單細胞分析案例

  • Nature 首次對阿爾茨海默病進行單細胞轉錄組分析|詳細解讀

  • Cell 深度 一套普遍適用於各類單細胞測序數據集的錨定整合方案

  • 骨髓基質在正常和白血病個體中的細胞圖譜 Cell,Nature聯袂解析

  • 癌中之王:基質微環境塑造胰腺癌瘤內結構|Cell

  • Nature系列 整合單細胞轉錄組學和質譜流式確定類風溼性關節炎滑膜組織中的炎症細胞狀態 詳細解讀

  • 10X單細胞測序分析軟體:Cell ranger,從拆庫到定量

  • Hemberg-lab單細胞轉錄組數據分析(一)- 引言

  • Hemberg-lab單細胞轉錄組數據分析(二)- 實驗平臺

  • Hemberg-lab單細胞轉錄組數據分析(三)- 原始數據質控

  • Hemberg-lab單細胞轉錄組數據分析(四)- 文庫拆分和細胞鑑定

  • Hemberg-lab單細胞轉錄組數據分析(五)- STAR, Kallisto定量

  • Hemberg-lab單細胞轉錄組數據分析(六)- 構建表達矩陣,UMI介紹

  • Hemberg-lab單細胞轉錄組數據分析(七)- 導入10X和SmartSeq2數據Tabula Muris

  • Hemberg-lab單細胞轉錄組數據分析(八)- Scater包輸入導入和存儲

  • Hemberg-lab單細胞轉錄組數據分析(九)- Scater包單細胞過濾

  • Hemberg-lab單細胞轉錄組數據分析(十)- Scater基因評估和過濾

  • Hemberg-lab單細胞轉錄組數據分析(十一)- Scater單細胞表達譜PCA可視化

  • Hemberg-lab單細胞轉錄組數據分析(十二)- Scater單細胞表達譜tSNE可視化

  • 如何火眼金睛鑑定那些單細胞轉錄組中的混雜因素

  • 什麼?你做的差異基因方法不合適?

  • 單細胞分群後,怎麼找到Marker基因定義每一類群?

  • 在線平臺如何做單細胞測序分析全套?有它so easy!

  • 植物單細胞轉錄組的春天來了,還不上車?Science, PC, PP, MP, bioRxiv各一個

  • 三人成虎,概率卻不足十分之五?

  • 一文掌握GSEA,超詳細教程

  • 這個只需一步就可做富集分析的網站還未發表就被CNS等引用超過350次

  • 什麼,你算出的P-value看上去像齊天大聖變的廟?

  • GO、GSEA富集分析一網打進

  • GSEA富集分析 - 界面操作

  • 無需寫代碼的高顏值富集分析神器

  • 去東方,最好用的在線GO富集分析工具

  • 跨物種單細胞分析發現胰腺導管癌中一類有免疫原性的抗原呈遞成纖維細胞

  • NCB|心咽發育多樣化的單細胞轉錄軌跡分析

  • 七龍珠|召喚一份單細胞資料庫匯總

  • 用了這麼多年的PCA可視化竟然是錯的!!!

  • 單細胞預測Doublets軟體包匯總-過渡態細胞是真的嗎?

  • Seurat亮點之細胞周期評分和回歸

ChIP-seq專題

  • ChIP-seq基本分析流程

  • 從Richard Young教授的系列研究看超級增強子發現背後的故事 (附超級增強子鑑定代碼)

  • 表觀遺傳小白逆襲之道:從這 19 個視頻開始吧!

  • Bedtools使用簡介

  • 2018 升級版Motif資料庫Jaspar

  • MotifStack:多motif序列比較和可視化

  • 一文教會你查找基因的啟動子、UTR、TSS等區域以及預測轉錄因子結合位點

  • AnimalTFDB 3.0 動物轉錄因子注釋和預測的綜合資源庫

  • Cell重磅綜述:關於人類轉錄因子,你想知道的都在這

Stark R, Grzelak M, Hadfield J. RNA sequencing: t

he teenage years. Nat

Rev Genet. 2019 Jul 24. doi: 10.1038

10000+:菌群分析 寶寶與貓狗 梅毒狂想曲 提DNA發Nature Cell專刊 腸道指揮大腦

系列教程:微生物組入門 Biostar 微生物組 宏基因組

專業技能:學術圖表 高分文章 生信寶典 不可或缺的人

一文讀懂:宏基因組 寄生蟲益處 進化樹

點擊報名參加培訓

相關焦點

  • C-Myc 與RNA-seq分析
    Okay,扯的有點遠,大家看題目,我除了寫了RNA-seq,還寫了C-Myc,這可是一個非常有名的基因,做癌症生物學的人知道它與增殖信號相關,做幹細胞的人知道這是yamanaka在製作小鼠iPS所選用的四個轉錄因子之一,這個基因被研究的也很早,目前依舊火熱中。
  • Nature綜述彙編:關於可變剪接,你想知道的都在這!
    Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown. Nat Protoc 2016, 11(9):1650-1667.[49] Sharon D, Tilgner H, Grubert F, Snyder M.
  • 解讀單細胞RNA-seq技術
    但是現在,時代已經變了,新的單細胞RNA-seq方法,可以分析大量的細胞及它們的命運。我們都參加過大型生日派對:在擁擠的房間裡,與許多人聊天、吃飯和慶祝。但是,試想你並不知道壽星是誰,只是像一個局外者看待這個派對。你可能會覺得整個事件看起來與其他的生日派對沒有什麼不同。然而,派對上的每個人都在壽星的生活故事裡擔當獨特的角色。
  • Nature重磅:5篇最新高分子材料綜述
    而催化劑高效的催化作用對於單體的合成、選擇性聚合反應的促進以及廢棄材料的循環利用都具有十分重要的意義。因此可持續聚合物材料具有很好的應用前景。  牛津大學的Charlotte K.Williams等人對利用可再生資源製備的可持續性聚合物做出了詳細的綜述。利用可再生資源生產的聚合物,其性能十分優越,但生產過程仍存在諸多挑戰,例如成本高,耐用性不足等問題。
  • 科研乾貨丨外泌體資料庫你知道多少?
    也許你在擔心自己的課題不適合做外泌體,莫慌!實際上外泌體是一個非常特殊的對象,它並不是終極的一個分子或蛋白,它是一個單位,而這一單位是細胞與細胞之間溝通方式的最主要形式,因此你可以想像,幾乎所有生物醫藥研究領域,你都可以全新的,從外泌體的角度進行挖掘!今天小醫就給大家介紹幾個外泌體研究中常用的資料庫!
  • 研究探討RNA-seq數據分析方法
    高通量RNA測序(RNA-seq)有望描繪出轉錄組的整體圖像,實現樣本內所有基因及其亞型的完整注釋和定量。
  • 單細胞RNA計數新技術Smart-seq3
    這一研究成果於2020年5月4日在線發表在國際學術期刊《自然-生物技術》上。 研究人員開發了Smart-seq3,它結合全長轉錄組覆蓋和5'獨特分子識別RNA計數策略,該策略可實現對每個細胞數千個RNA分子進行計算機模擬重建。在計數和重建的分子中,有60%可以直接分配給等位基因來源;而30-50%可以分配給特定的同種型。
  • RNA-seq 檢測變異之 GATK 最佳實踐流程
    RNA-seq 序列比對對 RNA-seq 產出的數據進行變異檢測分析,與常規重測序的主要區別就在序列比對這一步,因為 RNA-seq 的數據是來自轉錄本的
  • RNA-seq的標準化方法的不完全整理
    在RNA-seq標準化這個領域也是如此,目前用的最多也就是, RPKM/FPKM, TPM,但是注意,有些時候一個方法出現的多,單純是因為公司沒有修改他們的分析流程。為了方便理解,假設目前你在一次測序中(即剔除批次效應)檢測了一個物種的3個樣本,A,B,C,這個物種有三個基因G1,G2,G3, 基因長度分別為100, 500, 1000.
  • 生物標記技術實現高復用的單細胞RNA-seq
    生物標記技術實現高復用的單細胞RNA-seq 作者:小柯機器人 發布時間:2019/12/24 14:40:23 美國加州理工學院Lior Pachter課題組開發了一種利用DNA寡核苷酸標記細胞蛋白技術
  • 環狀RNA(circRNA)資料庫大匯總,快來看看有沒有你需要的!
    說起環狀 RNA, 現在大家都是家喻戶曉了
  • The Scientist:從晶片到RNA-seq的轉型之路
    RNA-seq主要是將RNA轉化為cDNA文庫,然後進行直接測序。雖然處理原始數據比較麻煩,但RNA-seq能夠做得到晶片做不到的事。RNA-seq可以揭示未知的轉錄本、基因融合和遺傳多態性,而晶片只能檢出明確的已知目標。在測序深度足夠的情況下,RNA-seq在高豐度和低豐度轉錄本檢測中都比晶片有效。
  • Circular RNA的產生機制、功能及RNA-seq數據鑑定方法
    CircRNA的各種潛在功能機制示意圖(圖片來源:Li et al.因為circRNA不含有poly A尾巴,所以circRNA主要富集在沒有ploy A尾巴的RNA中,建議使用poly (A)- RNA-seq技術或 用RNase R降解線性RNA後的poly (A)- RNA-seq技術(具體如下圖A所示)。傳統的poly (A)+ RNA-seq技術主要富集了線性的RNA;而ribo- RNA-seq技術,主要只去除了核糖體RNA(rRNA)。
  • RNA-seq的3的差異分析R包你選擇哪個
    很多課題組導師都認為做一個RNA-seq項目就能發CNS啦,就跟這兩年大家以為做一個單細胞轉錄組項目就可以發CNS的堅信程度是一模一樣的!直到現在(2020),基於高通量測序技術的RNA-Seq方法仍然是轉錄組學研究中必不可少的工具。截止到(2016)已經普遍接受的是,標準化預處理步驟可以顯著提高分析質量,特別是對於差異基因表達分析而言。
  • 3步教你構建RNAseq文庫
    RNAseq文庫,也稱全轉錄組散彈槍測序文庫,提供細胞進程的快照,使研究人員能夠獲得有關轉錄組在環境變化、疾病期間或藥物應用後的變化的信息。RNAseq文庫還允許檢測mRNA剪接變體和SNPs。RNAseq文庫幾乎取代了微陣列,因為微陣列需要一個已知的模板。
  • Nature Methods發布重磅結果:新測序技術——Ribose-seq
    為此,喬治亞理工學院和科羅拉多大學的科學家們開發了一種新測序技術,Ribose-seq。該技術可以鑑定和分析插入基因組DNA的核糖核苷酸,適用於包括人類在內的多種生物。這一成果發表在一月二十六日的Nature Methods雜誌上。研究人員利用這一技術在釀酒酵母的細胞核和線粒體DNA中,繪製了核糖核苷酸的完全圖譜,鑑定了核糖核苷酸插入的「熱點」區域。
  • QB期刊 |RNA-seq數據計算方法大匯總
    為了回答各種生物問題,十年來不同領域的研究者已為第二代RNA-seq數據分析提出了超過2000種計算與分析方法。該綜述文章從四個層面(樣本,基因,轉錄本,和外顯子)對RNA-seq數據的分析方法進行了總結,旨在歸納看似不同的方法背後共通的統計假設和模型。
  • 【Nature子刊】史上最大單細胞RNA測序項目!首次發現膠質母細胞瘤...
    要想更深入地了解癌症是如何開始、發展和獲得對治療的抵抗力的,部分取決於對癌症幹細胞生物學的更深入探索。膠質母細胞瘤是最常見的成人原發性腦癌,對膠質母細胞瘤的幹細胞生物學的研究是有限的。最近,一項研究發現了一種源自單一癌細胞類型的癌細胞結構,這種結構可以用來減緩癌細胞的生長。
  • 泛腫瘤單細胞RNA-seq可鑑定導致細胞異質性的常見程序
    泛腫瘤單細胞RNA-seq可鑑定導致細胞異質性的常見程序 作者:小柯機器人 發布時間:2020/11/4 16:45:44 以色列魏茨曼科學研究所的Itay Tirosh團隊利用泛腫瘤單細胞RNA-seq鑑定出導致細胞異質性的常見程序
  • Nature分享:如何寫好綜述論文?
    綜述類論文是科學家的重要資源。它們可以提供一個領域的歷史背景,以及關於該領域未來發展的個人看法。同時,撰寫這類文章可以為自己的研究提供靈感,還可以做一些寫作練習。不過,很少有科學家接受過如何寫綜述類論文的訓練,或者不知道一篇優秀的綜述文章是怎樣構成的。