單細胞測序技術自2009年問世,2013年被Nature Methods評為年度技術以來,越來越多地被應用在科研領域。
2015年以來,10X Genomics、Drop-seq、Micro-well、Split-seq等技術的出現,徹底降低了單細胞測序的成本門檻。
自此,單細胞測序技術被廣泛應用於基礎科研和臨床研究。單細胞在許多領域都佔有一席之地,對於癌症早期的診斷、追蹤以及個體化治療具有重要意義。
一.基本原理
單細胞測序首先不是僅僅對一個細胞進行測序,而是說該項技術能對單一細胞的基因組或轉錄組進行測序,可以理解為單細胞水平上的測序。
在介紹基本原理之前先讓我們嘗試著回答一下:為什麼要進行單細胞測序?換個姿勢來問就是,單細胞測序技術能解決什麼傳統方法解決不了的問題?
世界上沒有兩片相同的葉子,對於多細胞生物來說細胞與細胞之間是存在差異的,很多時候是基因組、轉錄組上的失之毫釐,功能上的差之千裡。
比如在腫瘤組織中,腫塊中心的細胞與腫塊周圍的細胞,原發灶與轉移灶的細胞,其基因組與轉錄組等遺傳信息是存在差異的,這也就導致不同腫瘤細胞表現出免疫特性、生長速度、侵襲能力等表型方面的差異,最終導致對不同抗腫瘤藥物的敏感性不同或放療敏感性的差異。
那麼我們怎樣來研究這種遺傳信息的異質性呢?傳統的測序方法是在多細胞水平上進行的,這種大家一起「吃大鍋飯」的形式,使其丟失了異質性的信息,而單細胞測序可以完美的解決這個問題。給大家更形象的舉個例子:
Western blot 檢測
這三種樣本雖然存在這麼大的差異,但是通過western blot檢測的時候我們得出的結論是:該基因在不同組織中的表達基本一致。上圖所展示的異質性信息就被完全的忽略掉了。
和western blot相似的是,傳統測序方法所展示的信息也是在多細胞水平上的平均信息,而單細胞水平上的測序則完全可以反應同一個細胞群裡不同細胞的基因組和轉錄組狀況。
單細胞測序技術的出現,使得從混雜的樣品中篩選出異質性信息的難題得以解決,該技術的成熟使用也必將引領生命科學研究向前邁進一大步。
那麼單細胞測序又是如何實現的呢?我們以單細胞RNA-seq作為例子,簡單的來介紹一下該技術得以實現的原理:
1、將單細胞分離出來,單獨構建測序文庫,並進行測序。這種思路通量極低而且成本極高,如前文所說燒掉很多錢就測數十個細胞,而往往這數十個細胞還不足以反應真實的科學問題。所以我們著重介紹第二種方案。
2、基於標籤(barcode)的單細胞識別。它的核心思想是:在對每個細胞的mRNA測序前做逆轉錄時,為其加上獨一無二的標籤序列。這樣即便是混合起來測序,我們也可以把攜帶相同標籤序列(barcode)的RNA片段視為來自同一個細胞。通過這種策略,我們可以通過一次建庫,測得上萬個單細胞的信息(如下圖所示)。
單細胞測序帶給大家哪些福利?就拿大家比較關注的single cell RNA-seq來說吧:
1、在傳統的研究方法中,我們往往根據標記基因和細胞形態來區分不同細胞類型,而這種方法無可厚非的存在很多爭議。而單細胞測序技術可以更精準無偏倚的來對細胞進行分群。尤其是對免疫學,腫瘤學,遺傳學的研究將會帶來巨大影響。
2、分析稀有的細胞,特別是特定時空環境下的細胞。比如從環境中取樣的微生物等。
3、臨床上,對體外受精胚胎進行植入前的篩查。
4、基於循環腫瘤細胞(circulating tumor cells)進行癌症診斷,大力推進新型的循環腫瘤細胞檢測技術。特別是惡性腫瘤患者治療前後的循環腫瘤細胞類型和數量的變化具有重要的預後提示價值。
5、已經通過傳統的測序方法進行大規模測序,希望以此挖掘數據衝擊重量級期刊的小夥伴們請注意,單細胞測序在高分期刊的發表已成井噴之勢,幾年之後技術必將更加成熟
二.要實現單細胞轉錄組測序,需要解決2個難題:
1.PCR偏差:單個細胞含有約10pg total RNA,而約80%以上信息為rRNA,從單細胞RNA到文庫意味著核酸的擴增量要達到百萬倍以上。而在這個高的擴增量不引入PCR偏差一直是個較大的問題。
我們可以想一下,如果兩個樣本基因表達量是相同的,但擴增效率A是99%,B是97%,在擴增30個循環後,兩者在擴增後的表達就有了1.84(0.99^30/0.97^30)倍的差異。而當我們分析差異基因的時候如果選1.5倍作為差異基因的標準,那麼本來沒有差異的基因也會出現差異。
2.去除rRNA:rRNA(核糖體RNA)在total RNA佔比一般在80%以上,如果不加區分地進行逆轉錄,再擴增、建庫很可能測序得到的絕大部分序列都是rRNA的序列,但是一般情況下,如果你更關心mRNA等編碼基因的序列,rRNA序列不能給我們帶來有效的信息,可以說它是無用的。
下面分別介紹單細胞轉錄組的三個擴增技術:
SMART擴增技術:
SMART擴增技術最核心的技術,就是設計了2個特殊的引物。再配合用MMLV逆轉錄酶進行逆轉錄。
特殊引物1由中間PolyT序列加上一段通用序列及3』末端兩個簡併鹼基構成,但在PolyT的3』端倒數第二個鹼基是A、C、G而非T的簡併鹼基,而倒數第一個為簡併鹼基,這樣做的好處是讓它正好結合在mRNA的3』端連到Poly(A)尾巴的這個連接處,而不會結合到mRNA的別的地方。這樣就保證了逆轉錄的起始位置正好是mRNA的3』端的序列終止位置。MMLV逆轉錄酶,這個酶有個特點,就是它在轉錄到mRNA的5』端末端的時侯,會在新合成的cDNA的3』末端,多加出幾個C鹼基來。
特殊引物2由一段通用序列及它的3』端是3個非脫氧的G鹼基構成,也就是核糖核酸的、RNA的G鹼基,而不是DNA的G鹼基,這個引物可以與剛才新合成的cDNA的3』端的那幾個C鹼基發生互補雜交,然後引導這個MMLV酶再次發揮聚合作用,以剛才那條新合成的cDNA為模板,複製的結果,就是得到雙鏈的cDNA。
這個雙鏈cDNA,兩端都已經接好了我們人工設計的PCR引物序列,然後,就加入常規的PCR引物,進行常規的PCR擴增,常規PCR擴增,得到大量DNA。然後可以象常規的DNA建庫那樣,超聲打斷、建庫、上機測序了。
通過SMART技術得到的主要是mRNA信息,LncRNA信息大部分會丟失,SMART技術對於RNA的質量要求較高,如果RNA出現降解會導致mRNA 5』端信息丟失。通用引物技術能保證擴增的均一性,但PCR引入的突變不能夠分析出來。
10×genomics技術:
首先再凝膠微珠上種上特定的DNA片段,DNA片段由三部分組成:Barcode、UMI、PolyT組成。Barcode是16個鹼基的長度。一共有400萬種Barcode,一個微珠是對應於一種Barcode,通過這400萬種Barcode,可以把凝膠微珠給區分開。UMI是一段隨機序列,也就是說每一個DNA分子,都有自己的UMI序列。10個鹼基長的UMI,有100萬種序列的變化(4^10 = 1,048,576),UMI的作用是為了區分哪些哪些reads是來自於一個原始cDNA分子,區分基因片段重複還是duplication及區分是真實的SNP位點還是PCR產生的突變。通過10×genomics儀器將單個細胞與單個凝膠微珠通過油相混在一起,形成油包水的小微滴,接下來把細胞膜破掉,讓細胞當中的mRNA游離出來。游離出來的mRNA與小液滴中的水相混合,也就是和逆轉錄酶、結合在凝膠微珠上的核酸引物、以及dNTP底物相接觸。
接著,發生逆轉錄反應。mRNA與凝膠微珠上帶標籤的DNA分子相結合,在逆轉錄酶的作用下,逆轉錄出cDNA來。把這個乳濁液當中所有的水相抽出來,也就是把所有帶了標籤的cDNA分子都抽出來,再把這些cDNA分子都加上接頭,經過PCR擴增,做成illumina的測序文庫,放到Illumina的測序儀上進行測序。測序完成之後,進行數據分析。
10×genomics技術一次可以同時得到大量大細胞數據,但只能得到mRNA信息,LncRNA大部分信息丟失,UMI技術能很好去除認為分析引入duplication及PCR引入SNP位點。同樣對RNA質量要求高,降解同樣會引起5』端信息丟失。
Anydeplete 技術
Anydeplete技術首先通過隨機引物進行一鏈合成,一鏈合成引入核苷酸類似物,用於酶切打斷,二鏈合成同樣引入核苷酸類似物用於保證鏈特異性。然後兩端加上接頭,接頭一條鏈也帶有核苷酸類似物,用於酶切降解。當形成單鏈文庫後,設計特異性引物與rRNA形成文庫結合,一輪退火延伸,rRNA文庫形成雙鏈結構。Reverse adaptor上帶有特異的酶切位點,當形成雙鏈結構酶切位點被識別,切去接頭,這樣rRNA形成的文庫不帶有完整的接頭,而其他文庫帶有完整接頭,通過PCR擴增富積既能得到想要的信息,包含mRNA及LncRNA信息。同樣Anydeplete技術與10×genomics技術一樣,包含分子標籤,可分析duplication及PCR產生突變位點。
Anydeplete技術能夠用於降解性樣本,保證5』端及3』端信息的完整,能同時得到mRNA及LncRNA信息,如果只希望得到mRNA信息,Anydeplete技術則會引起一部分數據浪費。
參考:
1.https://www.sohu.com/a/332085879_811044