單細胞數據科學的十一個重大挑戰

2021-01-13 單細胞天地

這是單細胞數據分析的大框架,要說難點都難,今天我們就來談談目前單細胞數據解讀(挖掘)的一些挑戰。主要參考文章:

Eleven grand challenges in single-cell
data science ,Lähnemann et al. Genome Biology (2020) 21:31

原文:https://doi.org/10.1186/s13059-020-1926-6

高通量技術是伴隨著人類信息化進程而來的,當我們把鏡頭聚集到單個細胞的水平,我們得到精度的同時也得到了大量的數據。在同時代背景下,人類社會的數據精度也在擴展,隨之而生的是大數據以及數據科學的概念,於是,我們不難聯想到:單細胞數據科學(single-cell data science ,SCDS)。

大數據的四大特點幾乎都在單細胞數據中體現了:

1、海量性
2、多樣性
3、高速性
4、易變性

單細胞的海量性不僅體現在單次捕獲的細胞數和基因數上,而是每天不同的實驗室產生對單細胞不同的刻畫,不同器官,不同物種,不同技術層面。。

多樣性翻譯到單細胞這就是不同的模態:


它的數據多樣性不僅有表徵豐度的矩陣數據,還有空間數據(空間轉錄組等),結構數據。多樣性更體現在對細胞類型的刻畫上,到目前為止,我們知道的細胞類型遠小我們更夠測出來的細胞類型,導致我們從一個側面觀察到他了(通常是RNA),但是無法窺探全貌,所以往往不能再我們現有的細胞圖譜上找到它的位置。高速和易變就不多說了,目前有不少文章發出來就是一個資料庫,往往有一個新的技術頭號玩家完了,二號基本沒機會了。

目前大部分單細胞轉錄組技術是拿一個barcode來標記細胞,再拿一段小的序列標記mRNA(UMI)。如果只是測RNA這樣確實可以,但是如果想要同時測蛋白呢,就需要另一套序列來標記蛋白,不同的蛋白簇標記可能不一樣。這就有了這樣一套技術需求:


先說單細胞轉錄組的。

Challenge I: Handling sparsity in single-cell RNA sequencing

數據稀疏對大部分數據科學家來說都不是陌生的問題,只要測的對象(細胞)較多,而每個對象的屬性(轉錄本)又較多,這個現象總會存在。在單細胞中通常和dropout聯繫在一起。這個單詞說的就是測不準。在表示豐度(轉錄本,基因,探針等)的矩陣中,對象和屬性都很多,每增加一個只有少量屬性值的對象,就會帶來大量的零值。而零值是不好解釋的:

可能是真的沒有,袋子裡就沒有紅球,沒抓到

可能是袋子裡是有的,人類的手氣不夠好

所以,零值該如何處理呢?這是挑戰之一。

第一反應應該是填補它:基因是相互調控的,所以我根據其他基因的表達情況來填補。這仍是在發展中的技術。


Challenge II: Defining flexible statistical frameworks for discovering complex differential patterns in gene expression

大部分的科學家都在找差異。最簡單的方法是兩個數據的時候大小比較就可以了,兩組數據假設檢驗,基於假設檢驗可以做三組的(方差分析)。當然,基於當代數據科學的發展找出數據之間的差異的方法是很多了,在Rna數據中最經典的差異基因計算方法要數 edger了。但是,單細胞的差異如何刻畫?樣本不同,組織不同,細胞類型不同,這些只看表達量可以衡量與否以及如何衡量。

其實找差異,換句話說是如何穩健地描述細胞間的異質性?在目前的大部分文章是給一張細胞圖譜(tsne/umap),言下之意分群即差異:


Challenge III: Mapping single cells to a reference atlas

我們測了一堆barcode,到底是什麼細胞呢?我們需要鑑定它,這就像我們在動物園看到一朵花,很好奇這是什麼花一樣。自然的想法就是看看花的字典中有沒有和這個一樣的,能查到我們就認識了。

目前常見的查字典的方法是這樣的:


說到底是根據細胞中基因向量的表達模式匹配到一起。這個問題應該分兩個方面來看:

數據集之間的mapping算法

reference 怎麼樣

其中mapping算法是目前學術主要的工作內容,用各種算法來學習reference 的特徵以把它映射到新的數據集中。這樣結果就分為兩個:

首先的是,我們希望儘可能的映射的上,因為人類懼怕未知(unkown)。但是,我提醒大家儘可能關注未知,那裡也許有更大的世界。

為了和已知世界構建聯繫,目前大部分還是用已知的細胞類型的marker來mapping:


在這裡,我更願意提醒在坐的各位,注意構建良好的reference,我們現在看到的格式有:

表達譜

特徵基因表達譜

特徵基因

數學模型

可視化的資料庫


這些reference忽略了一個關鍵的信息:細胞的分化過程。




這個圖很容易讓人想起,宏基因的生物層級結構:


我認為如果我們的細胞圖譜不能夠反應細胞分化層級關係,至少是不完整的。一張張umap圖,反應的只是數量關係,而且往往有沒有說明它的解析度水平(resolution)。

Challenge IV: Generalizing trajectory inference

緊承上文,在單細胞轉錄是數據分析中有一個新穎的分析點:trajectory inference (TI)。這便是人類在單細胞水平上試圖刻畫細胞分化關係的努力。2019年出現了不少於60種TI的方法,數量之多也反映了人類在這方面的蒼白以及後浪們的巨大空間:


大部分的TI算法是基於概率模型以及圖空間的,說到底不過是一種排序過程。遺憾的是排序這個概念在單細胞數據分析中還很少提及。在上個世紀的生態學中,學者為了刻畫某一地方的物種分布情況,開發出來一套排序方法。單個細胞在人體的分布和演化,未嘗不可以類比回生態學中。生態學已經發展出一套表述物種

的方法。一塊森林單個物種的的檢測,物種間的演化關係,物種的多樣性,如此等等的概念,使得任何一個讀發育和腫瘤異質性的人都會產生聯想。

大部分的排序是基於豐度的,也有基於RNA速率和SNP變化的,可以得到如下的關係:


但是不同的TI方法得的結果之間還有很大的gap,令人沮喪的是,有時候甚至是相反的。

奇怪的是,現在的人們似乎沒有把inference的TI刻畫清楚,導致兩者往往是分開執行的,結果也會有出入。

結合以上兩個挑戰,我認為單細胞數據分析需要是一個包含層級結構的/穩定的inference資料庫。

Challenge V: Finding patterns in spatially resolved measurements

人類對空間並不陌生,大到以光年計的宇宙空間,小到電子圍繞質子運動的原子。醫學院的老師應該不會對空間單細胞技術感到陌生,特別是醫學影像已經快要獨立成新的一門學科的現在。但是,當我們給每個細胞一個空間坐標的時候,想要描繪它,除了看圖,也更加複雜了。

我們知道,對一個細胞來講最重要的就三條:

在多細胞發育的早期,位置決定了它們將來成為那些組織器官,在後來的歲月中,位置決定它們的形狀與功能。不對啊,不應該是基因的差異化表達決定的嗎?那麼,我問:基因為什麼會差異化表達?是不是因為轉錄調控?而是什麼導致的調控?是不是外界的響應?而又是說明決定了它對外界的感知?是不是它所在的位置?

明顯的例子,免疫細胞:


就像我們說一個人的位置,不是僅僅指它的經緯度一樣,當我們說細胞的空間信息的時候,也不僅僅指它的XY軸坐標。

空間會開發我們的想像力,而星辰和大海都是需要船票的,而這張船票就是數據科學。

接下來,我們說說單細胞基因組方面的挑戰吧。

對一個生物體來講,每個細胞都有全能性的啊,基因組不都是一樣的嗎?沒有了差異還分析什麼?哪還有什麼數據分析的挑戰呢?

但是,有機體的每一次細胞分裂,基因組都可以通過突變事件改變,從點突變,短插入和缺失,到大規模的拷貝數變異和複雜的結構變異。這些往往是要命的。


Challenge VI: Dealing with errors and missing data in the identification of variation from single-cell DNA sequencing data

與轉錄組定量不同,基因組的分析往往是結構方面,而這本身就是一種挑戰。

我們可以區分三種情況:

(i)等位基因比例不平衡,即。,包含雜合突變的基因座,其中兩個等位基因之一的優先放大導致讀數失真;

(ii)等位基因缺失,即,包含雜合突變的基因座,其中只有一個等位基因被擴增和測序;

(iii)位點丟失,位點丟失是指等位基因在一個位點的擴增完全失敗,導致對基因組的某個位置沒有任何觀察。

主要的挑戰是在單細胞水平上:

拿CVN來說吧,如果有CNV事件,你不一定檢測到,檢測到了,不一定能夠識別出來,識別出來了,不一定能描述它的影響,知道了它的影響,在不同時間組織中同樣的CNV事件,不一定能夠很好地比較它們。

Challenge VII: Scaling phylogenetic models to many cells and many sites

即使有完美的數據,腫瘤進化的系統發育模型仍然面臨計算的挑戰,這主要是由:

在癌症研究中被測序的細胞數量不斷增加

每個基因組可查詢的位點越來越多

Challenge VIII: Integrating multiple types of variation into phylogenetic models

下遊的分析——如描述瘤內異質性和推斷其進化歷史——受到單細胞中不可靠的變異檢測的影響。然而,變異calling的質量越高,在腫瘤演化的數學模型中對所有類型的可用信號建模就越重要:從snv(相對於較小的插入和缺失)到大的結構變異和CNVs。反過來,這應該增加結果樹的解析度和可靠性。

對於CNVs的系統發育推斷,主要的挑戰是:

(i)確定正確的突變譜

(ii)計算這些譜之間的現實轉移概率。

Challenge IX: Inferring population genetic parameters of tumor heterogeneity by model integration

腫瘤異質性是腫瘤細胞群體在時間和空間上進化的結果。微環境因素,如進入血管系統、免疫細胞浸潤等,在原發腫瘤的區域、主腫瘤與轉移灶之間以及不同的時間點都有很大差異。這對不同的腫瘤細胞施加了不同的選擇性壓力,推動了腫瘤亞克隆的形成,從而決定了疾病進展(包括轉移潛力)、患者預後和對治療的敏感性。然而,甚至關於結果動力的基本問題仍然沒有答案。

定量描述腫瘤相互演化過程和評估不同的可能模式(如轉移性播種方式),需要估計個體變異和突變組合,以及變異,細胞出生,和細胞死亡在生命過程的積累。這些參數決定了個體細胞在其微環境中潛在的適應性景觀,進而決定了癌症進展的進化動力學。

一個主要的挑戰將是將這與從其他測量中獲得的單細胞的空間位置相結合。這將有助於確定來自同一亞克隆的細胞是否位於同一位置,轉移是否經常由同一亞克隆發生,單個轉移是由單個亞克隆發生還是由多個亞克隆發生。利用來自同一腫瘤和遠處轉移的多個區域樣本的研究已經為研究這些問題鋪平了道路。然而,只有單細胞空間解析度才能在特定位置識別特定的個體基因型,並得出精確的結論。

單細胞將有可能更詳細地確定特定於亞克隆的模型參數及其變異性。例如,增殖率、突變率和死亡率可以通過測量每個亞克隆的有絲分裂和凋亡細胞的數量,或者通過整合不同時間點的亞克隆豐度譜來獲得。對這些基本參數的良好估計將極大地有利於癌症中陽性和陰性選擇的檢測,並提高亞克隆適應度估計對亞克隆耐藥性的預測(從而提高預期的治療成功)。

Challenge X: Integration of single-cell data across samples, experiments, and types of measurement

生物過程是複雜和動態的,在細胞和生物體之間各不相同。為了綜合分析這些過程,需要從多個實驗中獲得不同類型的測量值並進行整合。根據實際的研究問題,這些實驗可以是不同的時間點、組織或有機體。對於它們的集成,我們需要靈活但嚴格的統計和計算框架



所有這些進一步加劇了單細胞數據集成中最重要的挑戰:以一種生物學上有意義並支持預期分析的方式連接來自不同來源的數據。描述不同來源的數據如何關聯的mapping將隨著樣本數量、時間點和測量類型的增加而增加複雜性。

無論哪種測量類型的組合可用,大多數測量所需要的物質的數量都將是微小的,這取決於單個細胞的數量以及特定細胞群中可用的有限數量的細胞。這意味著一個總體的主題將會持續存在:像訓練模型或相互映射數量這樣的分析將會因為缺少整個視圖(樣本、時間點或度量類型)而受到影響。因此,跨實驗和不同測量類型的數據集成將進一步加劇缺失數據的挑戰。

Challenge XI: Validating and benchmarking analysis tools for single-cell measurements

隨著sc-seq和其他單細胞技術的進步,越來越多的分析工具可供研究人員使用,更多的工具正在開發中,並將在不久的將來發布。因此,對數據集和方法的需求,支持系統的基準和評估這些工具變得越來越緊迫。

為了有用和可靠,算法和管道應該能夠通過以下質量控制測試:

評估工具的性能需要基準數據集與已知的真相。這些數據應該包括已知基因組組成和群體結構的細胞群,換句話說,克隆和等位基因的頻率是已知的。

(i)模擬數據集並驗證它們捕獲真實數據的重要特徵

(ii)為真實數據集擬合基礎模型

(iii)商定綜合評價指標。

理想情況下,這樣的基準框架在最初的發布之後仍然是動態的——允許在提出新方法時對方法進行持續的比較,並且可以輕鬆地將其擴展到方法開發的全新領域。

相關焦點

  • 單細胞質譜分析: 新型「武器」助力生命科學研究 ——訪中國科學...
    其研發的單細胞質譜分析平臺實現了單個神經元化學成分及代謝物的即時分析,將目前神經細胞成份分析的研究推向了活細胞及單細胞水平。也因其在單細胞質譜研究方面的成果,黃光明教授在2018年獲得了由中國質譜學會設立並頒發的「質譜青年獎」(該獎項的設立是為了鼓勵和表彰青年學者在質譜領域取得重大創新性的研究成果)。
  • 單細胞數據挖掘與課題設計實戰課程
    本課程設計了一門單細胞數據挖掘與課題設計課程,專門針對單細胞轉錄組測序數據進行「數據挖掘方法、代碼與思路分享」,並針對單細胞領域課題設計提供詳細的建議。 目前單細胞公共樣本超過3萬例,涵蓋人、小鼠、斑馬魚等常見模式生物,包含血液、正常組織以及罕見組織(如腦、神經系統)等樣本。在各類腫瘤、疾病、不同治療方案等領域更是積累了大量的公共數據,且數據增長趨勢顯著,單細胞測序數據的挖掘目前還是處於剛剛起步的狀態,利用成熟的公共數據進行有意義的挖掘,是用資源取得最優項目及產出的正確思路。
  • 【學術前沿】張世華課題組提出解決單細胞轉錄組數據高度缺失及...
    因此,如何從高度稀疏的單細胞轉錄組數據中精確地恢復這些缺失的信號,從而促進下遊生物信息挖掘,是單細胞轉錄組數據分析面臨的重要挑戰。類似地,在單細胞轉錄組數據中,由於細胞種群和共表達基因的存在,數據矩陣也趨向於低秩矩陣,那麼低秩填補策略可能適用於單細胞數據的填補問題。單細胞數據的一大特點是存在很大的異質性,課題組成員敏銳地洞察到這一數據特徵對於單細胞數據填補的重要性,決定從細胞子群的角度來解決單細胞轉錄組數據的drop-out問題。
  • 高歌團隊發布單細胞轉錄組數據檢索新方法和參考資料庫
    若能有效利用現有的單細胞數據進行檢索與推斷,研究者便能更好地進行新測序單細胞的注釋,以及綜合多數據集的研究。然而,精確的單細胞轉錄組數據檢索和注釋需要克服兩個挑戰:一、數據集之間的批次效應(batch effect)會顯著影響細胞檢索的可靠性;二、目前缺少跨物種和平臺、具有高質量注釋的單細胞轉錄組資料庫。
  • 研究揭示整合單細胞數據集Harmony
    研究揭示整合單細胞數據集Harmony 作者:小柯機器人 發布時間:2019/11/19 12:23:39 美國布萊根婦女醫院和哈佛醫學院Soumya Raychaudhuri研究組揭示了快速
  • 邀您體驗CLC單細胞數據分析模塊
    單細胞測序技術作為一種高解析度的技術,可以在單細胞水平快速構建組織或器官的分子圖譜,了解基因調控機制,從而探索早期胚胎發育、組織及器官形成、免疫機制和腫瘤發生等分子機理。當然,對於高噪音、高維度的單細胞測序數據,同樣需要特定的分析流程進行處理。
  • 單細胞數據結構| 果殼中的宇宙
    我是樓下單細胞天地的鄰居:周運來就是我。今天很突然,是我的生日。同樣突然的是老大拉我進菜鳥團的後臺群,安排寫一寫單細胞相關的文章。今後一段時間,會不時出沒了啦~初次見面聊點什麼好呢?其實單細胞大家已經很熟悉了,一如我們經常仰望的星空。那麼,就聊一聊單細胞的數據結構,介紹個對象吧^_^在我們涉足單細胞數據分析不久之後就會發現,我們在和一套新的理念打交道。
  • 單細胞多組學技術的深度解析
    一,單細胞多組學技術的誕生單細胞測序技術的進步使人們能夠以前所未有的解析度和規模研究多細胞生物的基因調控程序。單細胞多組學工具的開發則是邁向了解生物系統內部工作的又一重大步驟。單細胞技術發展的最初努力集中在單細胞RNA測序上,它可以剖析轉錄組異質性,揭示給定複雜組織中以前未知的細胞類型或細胞狀態。
  • 單細胞數據分析神器——Seurat
    在2015年至2017年,甚至對某細胞群體或組織進行單細胞測序,解析其細胞成分就能發一篇CNS級別的文章。近兩三年,單細胞技術從最開始的基因組,轉錄組測序,發展成現在的單細胞DNA甲基化,單細胞ATAC-seq等等。測序手段也從早期的10X Genomics、 Drop-seq等,發展為現在的多種多樣個性化的方法。研究內容更不僅僅局限於解析細胞群體的成分,而是向研究細胞功能和生物學特性發展。
  • 「天眼時評」圍繞「十一個堅持」推進全面依法治省丨論深入學習...
    省委常委會召開會議傳達學習貫徹習近平總書記在會上的重要講話精神,明確要求要認真學習領會習近平法治思想,緊緊圍繞「十一個堅持」,吃透基本精神、把握核心要義、明確工作要求,進一步在學懂弄通做實上下功夫,在深化消化轉化上見成效。中央全面依法治國工作會議最重大的成果,就是確立了習近平法治思想。
  • 將單細胞大數據用於藥物研發,「百奧智匯」完成A+輪融資
    所募集資金將用於「百奧智匯」進一步擴大和加速單細胞大數據及單細胞數據分析平臺在創新藥物研發領域的轉化應用,推進其單細胞大數據和分析系統在藥物新靶標挖掘、生物免疫學驗證、抗體開發、生物標誌物發現、基礎科研及臨床研究等方面建立起市場優勢;同時進一步擴大國內外商業化布局。
  • ...科學問題重點專項「肝膽胰腫瘤單細胞精準捕獲及高分辨單分子...
    秉持「理工醫交叉融合、醫教研協同創新、生命科學與醫學一體化發展」理念的科大新醫學實踐迎來又一新突破。由中國科大附一院執行院長、肝膽外科專家劉連新教授牽頭,國家重點研發計劃變革性技術關鍵科學問題重點專項「肝膽胰腫瘤單細胞精準捕獲及高分辨單分子分析」日前獲批,近日,項目啟動會暨項目實施方案論證會在中國科大附一院南區召開。
  • 新一代單細胞itChIP技術解析早期胚胎細胞命運決定機制
    同時,通過整合單細胞轉錄組和單細胞ChIP-seq數據,研究者揭示了心臟幹細胞向心肌和內皮細胞分化過程中細胞類型特異性增強子對細胞命運決定的調控機制。多細胞生物體由具有相同基因組的不同細胞類型組成,在器官組織發育過程中,細胞狀態和細胞命運決定的機制一直是領域普遍關心的問題。 無論在發育過程還是疾病狀態下,表觀遺傳因素(不改變DNA序列的情況下)在細胞命運決定中起著指導性作用。
  • 從單細胞窺探生命奧秘
    近日,美國洛克菲勒大學助理教授曹俊越因其在高通量單細胞測序技術以及發育生物學方面的成就,成為《科學》和SciLifeLab頒發的2020年度青年科學家獎特等獎全球唯一得主。11月20日,《科學》刊登了其獲獎短文,描述了有助於研究生命產生奧秘的4項高通量單細胞測序技術。
  • BIOPIC張澤民課題組在Nature Communications發表單細胞轉錄組數據...
    )、生命科學學院、北京未來基因診斷高精尖創新中心(ICG)張澤民教授課題組聯合百奧智匯,在期刊Nature Communications發表題為「SciBet as a portable and fast single cell type identifier」的生物信息方法學論文,正式發布了基於單細胞轉錄組數據進行快速有監督細胞類型注釋的新工具SciBet。
  • 多組分時空分析:走進單細胞的「社會」—新聞—科學網
    自2014年起,在國家自然科學基金重大項目「單細胞多組分時空分析」支持下,中國科學家在有關單細胞生物學的重大科學問題上取得了一系列進展。 沒有兩個細胞是完全相同的 如果把細胞環境比作一個社會,每個細胞就是一個獨立的人。
  • 2018中國生命科學領域重大研究進展
    近年來,現代生命科學與生物技術取得一系列重要進展和重大突破,並正在加速向應用領域滲透,在解決人類發展面臨的環境、資源和健康等重大問題方面展現出廣闊的應用前景。   隨著大數據技術的快速發展,生命科學研究正向基於數據的科學發現範式轉變。
  • 單細胞數據上傳GEO操作指南
    最近很多老師的單細胞文章都紛紛開始投稿,卻被文章發表前的臨門一腳——GEO數據上傳難住了,今天我們就來一起學習下單細胞數據上傳GEO的具體操作步驟吧~跟著這份操作指南,上傳從此不再犯難!利用這個資料庫,我們可以公開共享自己的實驗測序數據,也可以檢索到其他文章上傳的數據。很多文章在正式見刊前會要求將數據上傳到GEO資料庫中,具體如何操作呢?
  • 2018單細胞測序應用領域突破性成果盤點
    T細胞類群及亞群間潛在的狀態轉換關係,這對於肺癌和結直腸癌的診斷和治療具有重大意義。研究成果已經陸續Online,為我們後續使用單細胞測序開展研究提供了豐富的數據資源。  1./)分享他們的數據,通過該資料庫,全世界的科研學者可以探究這些數據,探究他們與基因、細胞類型或者疾病存在的關聯。
  • 生命科學領域的「超存」挑戰:數據如何存儲100年
    基因庫建設對於社會發展具有重要意義,而基因庫的背後承載的是海量的數據存儲。2019年是國家基因庫建成的第3周年,現已具備88PB數據存儲能力、691萬億次/秒計算能力。截至目前,國家基因庫支持著國內外600多個項目,那麼在技術上如何同時滿足這些業務的需要?基因庫數據有哪些不同的特徵?基因數據在數據存儲、數據保護和數據遷移上面臨著哪些技術挑戰?