自從大約400年前羅伯特·胡克(Robert Hooke)發現細胞以來,識別多細胞生物中的細胞類型並了解它們之間的關係一直是生物學研究的一個主要目標【1】。歷史上,用來定義、發現細胞類型的方法有:通過顯微鏡觀察來定義、根據細胞在生物體內的位置定義、根據細胞在體內或體外的功能定義、根據細胞發育和進化史來定義,以及根據表達在細胞表面少量分子標記物來定義。
單細胞RNA轉錄組測序(scRNA-seq)已經產生了豐富的測序數據,是一個用於發現和推定新細胞類型並完善現有細胞分類的高維度信息來源。儘管已有許多可用的計算分析工具,但根據scRNA-seq數據對細胞類型(或細胞狀態)的注釋在很大程度上仍然取決於人工識別細胞聚類中的標記基因。而人工對於單細胞數據的注釋既費力又費時,已經成為以人類細胞圖譜計劃(The Human Cell Atlas)【2】為代表的高通量單細胞測序項目的一個主要瓶頸。
能否讓計算機來幫助定義細胞類型並且注釋數據?如果一個機器學習模型可以學習細胞類型在單細胞測序數據中的生物學特徵(例如,標記基因),機器學習是不是能夠比人工分析在定義大規模數據集的細胞類型方面做得更好?如果是這樣,機器學習模型應該要學到在轉錄組層面區分不同細胞類型的本質特徵。當相同類型的細胞被聚類算法分成了多個簇(cluster),機器學習因為學習不到區分這些細胞簇的特徵,而在區分這些簇的時候發生「混淆」,機器學習的準確率就會比較低。那麼,就可以認為這些計算機也無法區分的細胞簇應該屬於「相同細胞類型」。
如何利用機器學習在很少的人工幹預的情況下將每種細胞類型聚類到一起呢?可以從一個過度聚類的狀態(任意一個細胞簇都只屬於一個細胞類型,但兩個細胞簇可能屬於同一個細胞類型)開始,利用機器學習的」混淆」來合併屬於相同細胞類型的細胞簇。
2020年5月18日,英國威康桑格研究所(Wellcome Sanger Institute)Sarah Teichman(英國科學院院士、英國醫學科學院院士)課題組和歐洲生物信息研究所(EMBL-EBI)Alvis Brazma課題組合作在Nature Methods上發表「Putative cell type discovery from single-cell gene expression data」(本文第一作者為歐洲生物信息研究所苗智超博士)。文章提出了一種自動計算方法用於單細胞測序數據的細胞聚類,該方法(稱為單細胞聚類評估框架(Single Cell Clustering Assessment Framework,SCCAF))可以實現對不同細胞類型的自動聚類,並且可能發現新的細胞類型(或者細胞狀態)。
SCCAF基於機器學習和自映射對聚類的迭代,先從一個「過度聚類」的細胞聚類開始,逐步合併被機器學習認為是相同細胞的細胞簇。最終,得到一個能被機器學習很好區分的聚類結果,機器學習學到的每種細胞中的特徵基因就是用於識別該細胞類型的特徵,機器學習模型也可以作為一種新的定義細胞類型的方式。文章測試了許多已經發表的人工注釋的數據集,發現SCCAF算法在絕大多數情況下都可以得到與手人工注釋相似的結果。
SCCAF能自動將單細胞測序數據聚類成具有生物學意義的細胞類型,並且可以給出機器學習模型來區分這些細胞類型。該方法還可以與一系列基於參考數據的細胞注釋方法(例如scClassify,Moana和singleCellNet)結合使用:首先利用SCCAF確定有意義的細胞分類,然後利用基於參考數據的計算方法進行注釋(例如,根據較早的發表的數據集的細胞命名進行注釋)。SCCAF是一個開源軟體,也是人類細胞圖譜Galaxy工具套件中高通量數據分析流程的一部分,也是歐洲生物信息研究所的單細胞表達圖譜Single Cell Expression Atlas的一部分。
原文連結:
https://www.nature.com/articles/s41592-020-0825-9
作者:bioart
參考文獻
1. Hooke, R. & Jo Martyn And. Micrographia, or, Some physiologicaldescriptions of minute bodies made by magnifying glasses :with observations andinquiries thereupon /by R. Hooke . (1665) doi:10.5962/bhl.title.904.
2. Rozenblatt-Rosen, O., Stubbington, M. J. T., Regev, A. & Teichmann, S. A. The Human Cell Atlas: from vision to reality.Nature550, 451–453 (2017).