這是單細胞數據分析的大框架,要說難點都難,今天我們就來談談目前單細胞數據解讀(挖掘)的一些挑戰。主要參考文章:
Eleven grand challenges in single-cell
data science ,Lähnemann et al. Genome Biology (2020) 21:31
原文:https://doi.org/10.1186/s13059-020-1926-6
高通量技術是伴隨著人類信息化進程而來的,當我們把鏡頭聚集到單個細胞的水平,我們得到精度的同時也得到了大量的數據。在同時代背景下,人類社會的數據精度也在擴展,隨之而生的是大數據以及數據科學的概念,於是,我們不難聯想到:單細胞數據科學(single-cell data science ,SCDS)。
大數據的四大特點幾乎都在單細胞數據中體現了:
1、海量性
2、多樣性
3、高速性
4、易變性
單細胞的海量性不僅體現在單次捕獲的細胞數和基因數上,而是每天不同的實驗室產生對單細胞不同的刻畫,不同器官,不同物種,不同技術層面。。
多樣性翻譯到單細胞這就是不同的模態:
它的數據多樣性不僅有表徵豐度的矩陣數據,還有空間數據(空間轉錄組等),結構數據。多樣性更體現在對細胞類型的刻畫上,到目前為止,我們知道的細胞類型遠小我們更夠測出來的細胞類型,導致我們從一個側面觀察到他了(通常是RNA),但是無法窺探全貌,所以往往不能再我們現有的細胞圖譜上找到它的位置。高速和易變就不多說了,目前有不少文章發出來就是一個資料庫,往往有一個新的技術頭號玩家完了,二號基本沒機會了。
目前大部分單細胞轉錄組技術是拿一個barcode來標記細胞,再拿一段小的序列標記mRNA(UMI)。如果只是測RNA這樣確實可以,但是如果想要同時測蛋白呢,就需要另一套序列來標記蛋白,不同的蛋白簇標記可能不一樣。這就有了這樣一套技術需求:
先說單細胞轉錄組的。
Challenge I: Handling sparsity in single-cell RNA sequencing數據稀疏對大部分數據科學家來說都不是陌生的問題,只要測的對象(細胞)較多,而每個對象的屬性(轉錄本)又較多,這個現象總會存在。在單細胞中通常和dropout聯繫在一起。這個單詞說的就是測不準。在表示豐度(轉錄本,基因,探針等)的矩陣中,對象和屬性都很多,每增加一個只有少量屬性值的對象,就會帶來大量的零值。而零值是不好解釋的:
可能是真的沒有,袋子裡就沒有紅球,沒抓到
可能是袋子裡是有的,人類的手氣不夠好
所以,零值該如何處理呢?這是挑戰之一。
第一反應應該是填補它:基因是相互調控的,所以我根據其他基因的表達情況來填補。這仍是在發展中的技術。
大部分的科學家都在找差異。最簡單的方法是兩個數據的時候大小比較就可以了,兩組數據假設檢驗,基於假設檢驗可以做三組的(方差分析)。當然,基於當代數據科學的發展找出數據之間的差異的方法是很多了,在Rna數據中最經典的差異基因計算方法要數 edger了。但是,單細胞的差異如何刻畫?樣本不同,組織不同,細胞類型不同,這些只看表達量可以衡量與否以及如何衡量。
其實找差異,換句話說是如何穩健地描述細胞間的異質性?在目前的大部分文章是給一張細胞圖譜(tsne/umap),言下之意分群即差異:
我們測了一堆barcode,到底是什麼細胞呢?我們需要鑑定它,這就像我們在動物園看到一朵花,很好奇這是什麼花一樣。自然的想法就是看看花的字典中有沒有和這個一樣的,能查到我們就認識了。
目前常見的查字典的方法是這樣的:
說到底是根據細胞中基因向量的表達模式匹配到一起。這個問題應該分兩個方面來看:
數據集之間的mapping算法
reference 怎麼樣
其中mapping算法是目前學術主要的工作內容,用各種算法來學習reference 的特徵以把它映射到新的數據集中。這樣結果就分為兩個:
首先的是,我們希望儘可能的映射的上,因為人類懼怕未知(unkown)。但是,我提醒大家儘可能關注未知,那裡也許有更大的世界。
為了和已知世界構建聯繫,目前大部分還是用已知的細胞類型的marker來mapping:
在這裡,我更願意提醒在坐的各位,注意構建良好的reference,我們現在看到的格式有:
表達譜
特徵基因表達譜
特徵基因
數學模型
可視化的資料庫
這些reference忽略了一個關鍵的信息:細胞的分化過程。
這個圖很容易讓人想起,宏基因的生物層級結構:
我認為如果我們的細胞圖譜不能夠反應細胞分化層級關係,至少是不完整的。一張張umap圖,反應的只是數量關係,而且往往有沒有說明它的解析度水平(resolution)。
Challenge IV: Generalizing trajectory inference緊承上文,在單細胞轉錄是數據分析中有一個新穎的分析點:trajectory inference (TI)。這便是人類在單細胞水平上試圖刻畫細胞分化關係的努力。2019年出現了不少於60種TI的方法,數量之多也反映了人類在這方面的蒼白以及後浪們的巨大空間:
大部分的TI算法是基於概率模型以及圖空間的,說到底不過是一種排序過程。遺憾的是排序這個概念在單細胞數據分析中還很少提及。在上個世紀的生態學中,學者為了刻畫某一地方的物種分布情況,開發出來一套排序方法。單個細胞在人體的分布和演化,未嘗不可以類比回生態學中。生態學已經發展出一套表述物種
的方法。一塊森林單個物種的的檢測,物種間的演化關係,物種的多樣性,如此等等的概念,使得任何一個讀發育和腫瘤異質性的人都會產生聯想。
大部分的排序是基於豐度的,也有基於RNA速率和SNP變化的,可以得到如下的關係:
但是不同的TI方法得的結果之間還有很大的gap,令人沮喪的是,有時候甚至是相反的。
奇怪的是,現在的人們似乎沒有把inference的TI刻畫清楚,導致兩者往往是分開執行的,結果也會有出入。
結合以上兩個挑戰,我認為單細胞數據分析需要是一個包含層級結構的/穩定的inference資料庫。
Challenge V: Finding patterns in spatially resolved measurements人類對空間並不陌生,大到以光年計的宇宙空間,小到電子圍繞質子運動的原子。醫學院的老師應該不會對空間單細胞技術感到陌生,特別是醫學影像已經快要獨立成新的一門學科的現在。但是,當我們給每個細胞一個空間坐標的時候,想要描繪它,除了看圖,也更加複雜了。
我們知道,對一個細胞來講最重要的就三條:
在多細胞發育的早期,位置決定了它們將來成為那些組織器官,在後來的歲月中,位置決定它們的形狀與功能。不對啊,不應該是基因的差異化表達決定的嗎?那麼,我問:基因為什麼會差異化表達?是不是因為轉錄調控?而是什麼導致的調控?是不是外界的響應?而又是說明決定了它對外界的感知?是不是它所在的位置?
明顯的例子,免疫細胞:
就像我們說一個人的位置,不是僅僅指它的經緯度一樣,當我們說細胞的空間信息的時候,也不僅僅指它的XY軸坐標。
空間會開發我們的想像力,而星辰和大海都是需要船票的,而這張船票就是數據科學。
接下來,我們說說單細胞基因組方面的挑戰吧。
對一個生物體來講,每個細胞都有全能性的啊,基因組不都是一樣的嗎?沒有了差異還分析什麼?哪還有什麼數據分析的挑戰呢?
但是,有機體的每一次細胞分裂,基因組都可以通過突變事件改變,從點突變,短插入和缺失,到大規模的拷貝數變異和複雜的結構變異。這些往往是要命的。
與轉錄組定量不同,基因組的分析往往是結構方面,而這本身就是一種挑戰。
我們可以區分三種情況:
(i)等位基因比例不平衡,即。,包含雜合突變的基因座,其中兩個等位基因之一的優先放大導致讀數失真;
(ii)等位基因缺失,即,包含雜合突變的基因座,其中只有一個等位基因被擴增和測序;
(iii)位點丟失,位點丟失是指等位基因在一個位點的擴增完全失敗,導致對基因組的某個位置沒有任何觀察。
主要的挑戰是在單細胞水平上:
拿CVN來說吧,如果有CNV事件,你不一定檢測到,檢測到了,不一定能夠識別出來,識別出來了,不一定能描述它的影響,知道了它的影響,在不同時間組織中同樣的CNV事件,不一定能夠很好地比較它們。
Challenge VII: Scaling phylogenetic models to many cells and many sites即使有完美的數據,腫瘤進化的系統發育模型仍然面臨計算的挑戰,這主要是由:
在癌症研究中被測序的細胞數量不斷增加
每個基因組可查詢的位點越來越多
Challenge VIII: Integrating multiple types of variation into phylogenetic models下遊的分析——如描述瘤內異質性和推斷其進化歷史——受到單細胞中不可靠的變異檢測的影響。然而,變異calling的質量越高,在腫瘤演化的數學模型中對所有類型的可用信號建模就越重要:從snv(相對於較小的插入和缺失)到大的結構變異和CNVs。反過來,這應該增加結果樹的解析度和可靠性。
對於CNVs的系統發育推斷,主要的挑戰是:
(i)確定正確的突變譜
(ii)計算這些譜之間的現實轉移概率。
Challenge IX: Inferring population genetic parameters of tumor heterogeneity by model integration腫瘤異質性是腫瘤細胞群體在時間和空間上進化的結果。微環境因素,如進入血管系統、免疫細胞浸潤等,在原發腫瘤的區域、主腫瘤與轉移灶之間以及不同的時間點都有很大差異。這對不同的腫瘤細胞施加了不同的選擇性壓力,推動了腫瘤亞克隆的形成,從而決定了疾病進展(包括轉移潛力)、患者預後和對治療的敏感性。然而,甚至關於結果動力的基本問題仍然沒有答案。
定量描述腫瘤相互演化過程和評估不同的可能模式(如轉移性播種方式),需要估計個體變異和突變組合,以及變異,細胞出生,和細胞死亡在生命過程的積累。這些參數決定了個體細胞在其微環境中潛在的適應性景觀,進而決定了癌症進展的進化動力學。
一個主要的挑戰將是將這與從其他測量中獲得的單細胞的空間位置相結合。這將有助於確定來自同一亞克隆的細胞是否位於同一位置,轉移是否經常由同一亞克隆發生,單個轉移是由單個亞克隆發生還是由多個亞克隆發生。利用來自同一腫瘤和遠處轉移的多個區域樣本的研究已經為研究這些問題鋪平了道路。然而,只有單細胞空間解析度才能在特定位置識別特定的個體基因型,並得出精確的結論。
單細胞將有可能更詳細地確定特定於亞克隆的模型參數及其變異性。例如,增殖率、突變率和死亡率可以通過測量每個亞克隆的有絲分裂和凋亡細胞的數量,或者通過整合不同時間點的亞克隆豐度譜來獲得。對這些基本參數的良好估計將極大地有利於癌症中陽性和陰性選擇的檢測,並提高亞克隆適應度估計對亞克隆耐藥性的預測(從而提高預期的治療成功)。
Challenge X: Integration of single-cell data across samples, experiments, and types of measurement生物過程是複雜和動態的,在細胞和生物體之間各不相同。為了綜合分析這些過程,需要從多個實驗中獲得不同類型的測量值並進行整合。根據實際的研究問題,這些實驗可以是不同的時間點、組織或有機體。對於它們的集成,我們需要靈活但嚴格的統計和計算框架
所有這些進一步加劇了單細胞數據集成中最重要的挑戰:以一種生物學上有意義並支持預期分析的方式連接來自不同來源的數據。描述不同來源的數據如何關聯的mapping將隨著樣本數量、時間點和測量類型的增加而增加複雜性。
無論哪種測量類型的組合可用,大多數測量所需要的物質的數量都將是微小的,這取決於單個細胞的數量以及特定細胞群中可用的有限數量的細胞。這意味著一個總體的主題將會持續存在:像訓練模型或相互映射數量這樣的分析將會因為缺少整個視圖(樣本、時間點或度量類型)而受到影響。因此,跨實驗和不同測量類型的數據集成將進一步加劇缺失數據的挑戰。
Challenge XI: Validating and benchmarking analysis tools for single-cell measurements隨著sc-seq和其他單細胞技術的進步,越來越多的分析工具可供研究人員使用,更多的工具正在開發中,並將在不久的將來發布。因此,對數據集和方法的需求,支持系統的基準和評估這些工具變得越來越緊迫。
為了有用和可靠,算法和管道應該能夠通過以下質量控制測試:
評估工具的性能需要基準數據集與已知的真相。這些數據應該包括已知基因組組成和群體結構的細胞群,換句話說,克隆和等位基因的頻率是已知的。
(i)模擬數據集並驗證它們捕獲真實數據的重要特徵
(ii)為真實數據集擬合基礎模型
(iii)商定綜合評價指標。
理想情況下,這樣的基準框架在最初的發布之後仍然是動態的——允許在提出新方法時對方法進行持續的比較,並且可以輕鬆地將其擴展到方法開發的全新領域。