單細胞數據科學的十一個重大挑戰

2021-02-15 單細胞天地

這是單細胞數據分析的大框架,要說難點都難,今天我們就來談談目前單細胞數據解讀(挖掘)的一些挑戰。主要參考文章:

Eleven grand challenges in single-cell
data science ,Lähnemann et al. Genome Biology (2020) 21:31

原文:https://doi.org/10.1186/s13059-020-1926-6

高通量技術是伴隨著人類信息化進程而來的,當我們把鏡頭聚集到單個細胞的水平,我們得到精度的同時也得到了大量的數據。在同時代背景下,人類社會的數據精度也在擴展,隨之而生的是大數據以及數據科學的概念,於是,我們不難聯想到:單細胞數據科學(single-cell data science ,SCDS)。

大數據的四大特點幾乎都在單細胞數據中體現了:

1、海量性
2、多樣性
3、高速性
4、易變性

單細胞的海量性不僅體現在單次捕獲的細胞數和基因數上,而是每天不同的實驗室產生對單細胞不同的刻畫,不同器官,不同物種,不同技術層面。。

多樣性翻譯到單細胞這就是不同的模態:


它的數據多樣性不僅有表徵豐度的矩陣數據,還有空間數據(空間轉錄組等),結構數據。多樣性更體現在對細胞類型的刻畫上,到目前為止,我們知道的細胞類型遠小我們更夠測出來的細胞類型,導致我們從一個側面觀察到他了(通常是RNA),但是無法窺探全貌,所以往往不能再我們現有的細胞圖譜上找到它的位置。高速和易變就不多說了,目前有不少文章發出來就是一個資料庫,往往有一個新的技術頭號玩家完了,二號基本沒機會了。

目前大部分單細胞轉錄組技術是拿一個barcode來標記細胞,再拿一段小的序列標記mRNA(UMI)。如果只是測RNA這樣確實可以,但是如果想要同時測蛋白呢,就需要另一套序列來標記蛋白,不同的蛋白簇標記可能不一樣。這就有了這樣一套技術需求:


先說單細胞轉錄組的。

Challenge I: Handling sparsity in single-cell RNA sequencing

數據稀疏對大部分數據科學家來說都不是陌生的問題,只要測的對象(細胞)較多,而每個對象的屬性(轉錄本)又較多,這個現象總會存在。在單細胞中通常和dropout聯繫在一起。這個單詞說的就是測不準。在表示豐度(轉錄本,基因,探針等)的矩陣中,對象和屬性都很多,每增加一個只有少量屬性值的對象,就會帶來大量的零值。而零值是不好解釋的:

可能是真的沒有,袋子裡就沒有紅球,沒抓到

可能是袋子裡是有的,人類的手氣不夠好

所以,零值該如何處理呢?這是挑戰之一。

第一反應應該是填補它:基因是相互調控的,所以我根據其他基因的表達情況來填補。這仍是在發展中的技術。


Challenge II: Defining flexible statistical frameworks for discovering complex differential patterns in gene expression

大部分的科學家都在找差異。最簡單的方法是兩個數據的時候大小比較就可以了,兩組數據假設檢驗,基於假設檢驗可以做三組的(方差分析)。當然,基於當代數據科學的發展找出數據之間的差異的方法是很多了,在Rna數據中最經典的差異基因計算方法要數 edger了。但是,單細胞的差異如何刻畫?樣本不同,組織不同,細胞類型不同,這些只看表達量可以衡量與否以及如何衡量。

其實找差異,換句話說是如何穩健地描述細胞間的異質性?在目前的大部分文章是給一張細胞圖譜(tsne/umap),言下之意分群即差異:


Challenge III: Mapping single cells to a reference atlas

我們測了一堆barcode,到底是什麼細胞呢?我們需要鑑定它,這就像我們在動物園看到一朵花,很好奇這是什麼花一樣。自然的想法就是看看花的字典中有沒有和這個一樣的,能查到我們就認識了。

目前常見的查字典的方法是這樣的:


說到底是根據細胞中基因向量的表達模式匹配到一起。這個問題應該分兩個方面來看:

數據集之間的mapping算法

reference 怎麼樣

其中mapping算法是目前學術主要的工作內容,用各種算法來學習reference 的特徵以把它映射到新的數據集中。這樣結果就分為兩個:

首先的是,我們希望儘可能的映射的上,因為人類懼怕未知(unkown)。但是,我提醒大家儘可能關注未知,那裡也許有更大的世界。

為了和已知世界構建聯繫,目前大部分還是用已知的細胞類型的marker來mapping:


在這裡,我更願意提醒在坐的各位,注意構建良好的reference,我們現在看到的格式有:

表達譜

特徵基因表達譜

特徵基因

數學模型

可視化的資料庫


這些reference忽略了一個關鍵的信息:細胞的分化過程。



這個圖很容易讓人想起,宏基因的生物層級結構:


我認為如果我們的細胞圖譜不能夠反應細胞分化層級關係,至少是不完整的。一張張umap圖,反應的只是數量關係,而且往往有沒有說明它的解析度水平(resolution)。

Challenge IV: Generalizing trajectory inference

緊承上文,在單細胞轉錄是數據分析中有一個新穎的分析點:trajectory inference (TI)。這便是人類在單細胞水平上試圖刻畫細胞分化關係的努力。2019年出現了不少於60種TI的方法,數量之多也反映了人類在這方面的蒼白以及後浪們的巨大空間:


大部分的TI算法是基於概率模型以及圖空間的,說到底不過是一種排序過程。遺憾的是排序這個概念在單細胞數據分析中還很少提及。在上個世紀的生態學中,學者為了刻畫某一地方的物種分布情況,開發出來一套排序方法。單個細胞在人體的分布和演化,未嘗不可以類比回生態學中。生態學已經發展出一套表述物種

的方法。一塊森林單個物種的的檢測,物種間的演化關係,物種的多樣性,如此等等的概念,使得任何一個讀發育和腫瘤異質性的人都會產生聯想。

大部分的排序是基於豐度的,也有基於RNA速率和SNP變化的,可以得到如下的關係:


但是不同的TI方法得的結果之間還有很大的gap,令人沮喪的是,有時候甚至是相反的。

奇怪的是,現在的人們似乎沒有把inference的TI刻畫清楚,導致兩者往往是分開執行的,結果也會有出入。

結合以上兩個挑戰,我認為單細胞數據分析需要是一個包含層級結構的/穩定的inference資料庫。

Challenge V: Finding patterns in spatially resolved measurements

人類對空間並不陌生,大到以光年計的宇宙空間,小到電子圍繞質子運動的原子。醫學院的老師應該不會對空間單細胞技術感到陌生,特別是醫學影像已經快要獨立成新的一門學科的現在。但是,當我們給每個細胞一個空間坐標的時候,想要描繪它,除了看圖,也更加複雜了。

我們知道,對一個細胞來講最重要的就三條:

在多細胞發育的早期,位置決定了它們將來成為那些組織器官,在後來的歲月中,位置決定它們的形狀與功能。不對啊,不應該是基因的差異化表達決定的嗎?那麼,我問:基因為什麼會差異化表達?是不是因為轉錄調控?而是什麼導致的調控?是不是外界的響應?而又是說明決定了它對外界的感知?是不是它所在的位置?

明顯的例子,免疫細胞:


就像我們說一個人的位置,不是僅僅指它的經緯度一樣,當我們說細胞的空間信息的時候,也不僅僅指它的XY軸坐標。

空間會開發我們的想像力,而星辰和大海都是需要船票的,而這張船票就是數據科學。

接下來,我們說說單細胞基因組方面的挑戰吧。

對一個生物體來講,每個細胞都有全能性的啊,基因組不都是一樣的嗎?沒有了差異還分析什麼?哪還有什麼數據分析的挑戰呢?

但是,有機體的每一次細胞分裂,基因組都可以通過突變事件改變,從點突變,短插入和缺失,到大規模的拷貝數變異和複雜的結構變異。這些往往是要命的。


Challenge VI: Dealing with errors and missing data in the identification of variation from single-cell DNA sequencing data

與轉錄組定量不同,基因組的分析往往是結構方面,而這本身就是一種挑戰。

我們可以區分三種情況:

(i)等位基因比例不平衡,即。,包含雜合突變的基因座,其中兩個等位基因之一的優先放大導致讀數失真;

(ii)等位基因缺失,即,包含雜合突變的基因座,其中只有一個等位基因被擴增和測序;

(iii)位點丟失,位點丟失是指等位基因在一個位點的擴增完全失敗,導致對基因組的某個位置沒有任何觀察。

主要的挑戰是在單細胞水平上:

拿CVN來說吧,如果有CNV事件,你不一定檢測到,檢測到了,不一定能夠識別出來,識別出來了,不一定能描述它的影響,知道了它的影響,在不同時間組織中同樣的CNV事件,不一定能夠很好地比較它們。

Challenge VII: Scaling phylogenetic models to many cells and many sites

即使有完美的數據,腫瘤進化的系統發育模型仍然面臨計算的挑戰,這主要是由:

在癌症研究中被測序的細胞數量不斷增加

每個基因組可查詢的位點越來越多

Challenge VIII: Integrating multiple types of variation into phylogenetic models

下遊的分析——如描述瘤內異質性和推斷其進化歷史——受到單細胞中不可靠的變異檢測的影響。然而,變異calling的質量越高,在腫瘤演化的數學模型中對所有類型的可用信號建模就越重要:從snv(相對於較小的插入和缺失)到大的結構變異和CNVs。反過來,這應該增加結果樹的解析度和可靠性。

對於CNVs的系統發育推斷,主要的挑戰是:

(i)確定正確的突變譜

(ii)計算這些譜之間的現實轉移概率。

Challenge IX: Inferring population genetic parameters of tumor heterogeneity by model integration

腫瘤異質性是腫瘤細胞群體在時間和空間上進化的結果。微環境因素,如進入血管系統、免疫細胞浸潤等,在原發腫瘤的區域、主腫瘤與轉移灶之間以及不同的時間點都有很大差異。這對不同的腫瘤細胞施加了不同的選擇性壓力,推動了腫瘤亞克隆的形成,從而決定了疾病進展(包括轉移潛力)、患者預後和對治療的敏感性。然而,甚至關於結果動力的基本問題仍然沒有答案。

定量描述腫瘤相互演化過程和評估不同的可能模式(如轉移性播種方式),需要估計個體變異和突變組合,以及變異,細胞出生,和細胞死亡在生命過程的積累。這些參數決定了個體細胞在其微環境中潛在的適應性景觀,進而決定了癌症進展的進化動力學。

一個主要的挑戰將是將這與從其他測量中獲得的單細胞的空間位置相結合。這將有助於確定來自同一亞克隆的細胞是否位於同一位置,轉移是否經常由同一亞克隆發生,單個轉移是由單個亞克隆發生還是由多個亞克隆發生。利用來自同一腫瘤和遠處轉移的多個區域樣本的研究已經為研究這些問題鋪平了道路。然而,只有單細胞空間解析度才能在特定位置識別特定的個體基因型,並得出精確的結論。

單細胞將有可能更詳細地確定特定於亞克隆的模型參數及其變異性。例如,增殖率、突變率和死亡率可以通過測量每個亞克隆的有絲分裂和凋亡細胞的數量,或者通過整合不同時間點的亞克隆豐度譜來獲得。對這些基本參數的良好估計將極大地有利於癌症中陽性和陰性選擇的檢測,並提高亞克隆適應度估計對亞克隆耐藥性的預測(從而提高預期的治療成功)。

Challenge X: Integration of single-cell data across samples, experiments, and types of measurement

生物過程是複雜和動態的,在細胞和生物體之間各不相同。為了綜合分析這些過程,需要從多個實驗中獲得不同類型的測量值並進行整合。根據實際的研究問題,這些實驗可以是不同的時間點、組織或有機體。對於它們的集成,我們需要靈活但嚴格的統計和計算框架



所有這些進一步加劇了單細胞數據集成中最重要的挑戰:以一種生物學上有意義並支持預期分析的方式連接來自不同來源的數據。描述不同來源的數據如何關聯的mapping將隨著樣本數量、時間點和測量類型的增加而增加複雜性。

無論哪種測量類型的組合可用,大多數測量所需要的物質的數量都將是微小的,這取決於單個細胞的數量以及特定細胞群中可用的有限數量的細胞。這意味著一個總體的主題將會持續存在:像訓練模型或相互映射數量這樣的分析將會因為缺少整個視圖(樣本、時間點或度量類型)而受到影響。因此,跨實驗和不同測量類型的數據集成將進一步加劇缺失數據的挑戰。

Challenge XI: Validating and benchmarking analysis tools for single-cell measurements

隨著sc-seq和其他單細胞技術的進步,越來越多的分析工具可供研究人員使用,更多的工具正在開發中,並將在不久的將來發布。因此,對數據集和方法的需求,支持系統的基準和評估這些工具變得越來越緊迫。

為了有用和可靠,算法和管道應該能夠通過以下質量控制測試:

評估工具的性能需要基準數據集與已知的真相。這些數據應該包括已知基因組組成和群體結構的細胞群,換句話說,克隆和等位基因的頻率是已知的。

(i)模擬數據集並驗證它們捕獲真實數據的重要特徵

(ii)為真實數據集擬合基礎模型

(iii)商定綜合評價指標。

理想情況下,這樣的基準框架在最初的發布之後仍然是動態的——允許在提出新方法時對方法進行持續的比較,並且可以輕鬆地將其擴展到方法開發的全新領域。

相關焦點

  • 美國地質調查局「整合科學」面臨的重大挑戰
    研討會從近70個潛在的重大挑戰中篩選出4個「全局性(overarching)重大挑戰」 :自然資源安全、來自現有和新生威脅的社會風險、智能基礎設施的開發和針對變化中景觀的預測科學(重大挑戰之一自然資源安全內容見下表,其他三大挑戰內容見《地質調查動態》2017年第18期)。
  • ...張世華課題組提出解決單細胞轉錄組數據高度缺失及稀疏的新方法
    因此,如何從高度稀疏的單細胞轉錄組數據中精確地恢復這些缺失的信號,從而促進下遊生物信息挖掘,是單細胞轉錄組數據分析面臨的重要挑戰。類似地,在單細胞轉錄組數據中,由於細胞種群和共表達基因的存在,數據矩陣也趨向於低秩矩陣,那麼低秩填補策略可能適用於單細胞數據的填補問題。單細胞數據的一大特點是存在很大的異質性,課題組成員敏銳地洞察到這一數據特徵對於單細胞數據填補的重要性,決定從細胞子群的角度來解決單細胞轉錄組數據的drop-out問題。
  • 高歌團隊發布單細胞轉錄組數據檢索新方法和參考資料庫
    若能有效利用現有的單細胞數據進行檢索與推斷,研究者便能更好地進行新測序單細胞的注釋,以及綜合多數據集的研究。然而,精確的單細胞轉錄組數據檢索和注釋需要克服兩個挑戰:一、數據集之間的批次效應(batch effect)會顯著影響細胞檢索的可靠性;二、目前缺少跨物種和平臺、具有高質量注釋的單細胞轉錄組資料庫。
  • 單細胞全基因組測序重大進展,新方法更加高效簡便!
    廈門大學化學化工學院楊朝勇教授課題組在單細胞全基因組測序研究方面取得進展,相關成果以「Digital-WGS: Automated, highly efficient whole-genome sequencing of single cells by digital microfluidics」為題發表於《Science Advances
  • 國家微生物中心精品課:徐健 單細胞技術在微生物組研究中的應用
    國家微生物科學數據中心特別邀請我國微生物組學技術及大數據領域十位名師,推出網絡系列精品課程,本期邀請中科院青島生物能源與過程研究所徐健研究員分享《單細胞技術在微生物組研究中的應用》。本課程從菌群單細胞分析歷史研究,單細胞分析機遇和挑戰等角度講解單細胞技術在微生物組研究中的應用,包括解析拉曼光譜,拉曼組推斷細胞表型/功能。歡迎大家登陸國家微生物科學數據中心網站(http://nmdc.cn/video)觀看學習。
  • 國內權威數據專家、學者福州論道「數據科學研究的挑戰與機遇」
    研討會現場 東南網記者張立慶攝東南網11月22日訊(本網記者 張立慶)21日-22日,「數據科學研究的挑戰與機遇」研討會在福州外語外貿學院舉行,來自北京大學、中國科學院大學、復旦大學、浙江大學等國內15所高校的數據領域權威專家、學者匯聚福州,
  • 精於數據處理:自動化單細胞分析軟體——CeleScope
    你是否還在為單細胞數據分析而發愁?是否還在為重新學習各種分析軟體而苦惱?今天給大家介紹一個單細胞數據分析軟體——CeleScope™,簡單易上手,結果準確可靠,讓你的研究更進一步!CeleScope™是一系列用於分析新格元GEXSCOPE®單細胞測序數據的生物信息流程。可從二代測序下機的原始fastq數據開始處理,包含數據拆分、比對、定量、生成表達矩陣、分群等功能。
  • 《科學》:充滿差異的單細胞蛋白表達
    科學家們在研究單細胞生物體的「噪音」時發現,即使是基因完全相同的細胞其行為也是完全不同的。測量不同生物體內的蛋白表達噪音可以幫助科學家們了解生命的演化和功能。 哈佛大學化學與生物化學系謝曉亮小組最新的研究成果將該領域帶入了一個新的高度。
  • 我國在腦科學領域獲重大突破 解析人腦前額葉皮層
    4月12日從科技部獲悉,在973計劃的支持下,我國科學家在腦科學領域取得重大突破,首次繪製了人腦前額葉發育的單細胞圖譜並揭示神經幹細胞的重要作用。在腦科學領域取得重大突破人腦前額葉皮層是人類大腦高級功能的關鍵組成部分,參與記憶形成、短期儲存以及調取功能、語言功能、情緒調節等功能。前額葉皮層的細胞組成是其形成神經網絡和執行豐富功能的生物學基礎。但是人腦前額葉皮層由哪些細胞構成,這些細胞是如何在胚胎發育過程中產生的,這些關鍵科學問題之前研究較少。
  • 國內十餘家企業聚集,單細胞技術實現產業化還要多久?
    單細胞測序即從單個細胞水平上對基因組進行測序,把基因測序應用到單個細胞層面,從而識別細胞的類型、功能,特定細胞健康或狀態的變化、變異。而常規的基於NGS的基因檢測,都是在大量細胞宏觀水平上,對整個細胞群進行遺傳分析。近年來,單細胞測序相關研究與日俱增,截止到2019年,Pubmed中已發表1338篇科學文獻。
  • 單細胞文章快訊202012期
    單細胞轉錄組學,通過對T細胞受體基因進行配對測序和高維單細胞空間分析來追蹤單個T細胞克隆的能力都是與免疫腫瘤學特別相關的領域。多維生物標誌物信號對於指導每個癌症患者的臨床決策將越來越重要。高維單細胞技術很可能提供在免疫腫瘤學中產生這種臨床相關特徵所需的解析度和豐富的數據。
  • 變革科學範式,應對全球挑戰
    近年來,科學範式的變革逐步成為科技界討論的熱點問題;同時,如何應對全球性挑戰,比如氣候變化、自然災害、重大疾病、社會經濟體系治理等等,也亟待找到有效的解決方案。然而,這兩方面的討論基本上相互獨立:前一方面的討論涉及比較籠統的趨勢判斷,後一方面的討論則側重於具體要解決的問題。
  • 一周內教會您單細胞測序數據挖掘分析和課題設計 2020年8月10-14日線上
    贈送視頻供回放使用、建群做後續答疑、線下復聽免費科學學習為了讓更多的研究者了解單細胞測序數據挖掘的常用套路以及單細胞常用數據分析軟體的使用特舉辦單細胞測序數據挖掘與課題設計學習班。1、了解單細胞測序基本概念及原理2、了解單細胞測序分析的常用軟體3、掌握單細胞測序數據的下載方法4、掌握單細胞測序數據的研究思路5、學會R語言基本語法和繪圖技巧6、學會用R代碼進行單細胞轉錄組分析並作圖7、熟悉CNS雜誌單細胞轉錄組文章思路8、熟悉零成本的單細胞相關課題設計思路
  • 單細胞測序技術原理
    自此,單細胞測序技術被廣泛應用於基礎科研和臨床研究。單細胞在許多領域都佔有一席之地,對於癌症早期的診斷、追蹤以及個體化治療具有重要意義。 和western blot相似的是,傳統測序方法所展示的信息也是在多細胞水平上的平均信息,而單細胞水平上的測序則完全可以反應同一個細胞群裡不同細胞的基因組和轉錄組狀況。 單細胞測序技術的出現,使得從混雜的樣品中篩選出異質性信息的難題得以解決,該技術的成熟使用也必將引領生命科學研究向前邁進一大步。
  • R : Shiny|搭建單細胞數據分析雲平臺
    前言shiny官網(https://shiny.rstudio.com/)在R for data science這本書中,作者提出數據分析的一個流程,在數據轉換、可視化以及建模之後,來到數據分析的新階段:與別人分享我們的數據。
  • 單細胞文章快訊,篩選了10篇
    充滿腦脊液(CSF)的軟膜中的癌細胞面臨著巨大的微環境挑戰,包括炎症和稀少的微量營養素。為了研究這些軟腦膜轉移瘤(LM)中的癌細胞克服這些限制的機制,我們對5名LM患者的CSF進行了單細胞RNA測序。我們發現,腦脊液中的癌細胞,而不是巨噬細胞,表達鐵結合蛋白Lipocalin-2(Lcn2)及其受體SCL22A17。這些巨噬細胞產生炎性細胞因子,誘導癌細胞Lcn2表達,但本身不產生Lcn2。
  • 單細胞文章快訊
    為了更好地了解這些過程,我們在這裡生成了一個橫跨Mus musculus壽命的單細胞轉錄圖譜,其中包括來自23個組織和器官的數據。我們發現細胞特異性的變化發生在多種細胞類型和器官之間,以及不同器官的細胞組成中與年齡有關的變化。利用單細胞轉錄數據,我們評估了衰老等不同老化標誌的細胞類型特異性表現,基因組不穩定性和免疫系統的變化。
  • 單細胞解析度下的蚊子細胞免疫
    單細胞解析度下的蚊子細胞免疫 作者:小柯機器人 發布時間:2020/8/28 16:34:32 英國惠康桑格研究所Oliver Billker和美國國立衛生研究院Carolina Barillas-Mury
  • 單細胞轉錄多樣性是發育潛能的標誌
    單細胞轉錄多樣性是發育潛能的標誌 作者:小柯機器人 發布時間:2020/1/29 16:40:07 美國史丹福大學Aaron M. Newman研究團隊發現,單細胞轉錄多樣性是發育潛能的標誌。
  • 深海發現不怕熱的單細胞生物,120℃還能生存!
    該國際研究小組包括3位美國羅得島大學海洋學研究生院科學家,其中海洋學教授阿瑟·斯皮瓦克(Arthur Spivack)稱,地球表面的水沸點為100攝氏度,然而我們發現溫度達到120攝氏度的深海沉積物中也存在單細胞微生物。該研究結果是基於2016年為期兩個月的海洋考察數據,並於2020年12月發表在《科學》上。