責編 | 兮
單細胞RNA測序技術(scRNA-seq)為細胞生物學和疾病原理研究提供了一個新的方法。在scRNA-seq的分析中, 細胞類型分類是非常重要的步驟。通過鑑定組織中不同的細胞類型,我們可以更好的理解:(1)同一物種不同組織之間細胞類型和功能的差異;(2)同一組織在不同發育階段的細胞類型的變化;(3)同一組織在健康和疾病狀態下細胞類型的差異。
儘管scRNA-seq有著光明的前景,但是單細胞測序技術過程中產生的數據噪音和scRNA-seq數據本身的高維度(測序得到的基因數量往往遠高於細胞的數量)使得scRNA-seq的分析變得十分具有挑戰性。
隨著越來越多的scRNA-seq數據變得可用,許多算法開始利用已標註細胞類型的scRNA-seq數據集中的信息,來幫助分類和標註新的未標註的scRNA-seq數據集。這些已有的算法大多僅僅在已標註的源數據(source dataset)中學習特定細胞類型的基因表達信息,而忽略了目標數據集(target dataset)中的有用信息。
因此, 這些已有的算法十分依賴於源數據集的標註質量,這導致它們對於目標數據中特有的,而源數據中沒有的細胞類型無法給出準確的分類。再者,當源數據和目標數據之間存在較強的處理批次效應(batch effect)時,(處理批次效應的產生有很多原因, 例如不同實驗室取樣方式的不同,測序方法的不同等等, 是一個十分常見的問題)這些已有的算法都表現不佳。
細胞類型分類的理想算法應該能夠同時學習源數據集和目標數據集中的基因表達信息,在一定程度上不受處理批次效應的影響, 並且對於目標數據集中特有的,卻未出現在源數據集 中的細胞類型也給出準確的分類預測。
遷移學習(transfer learning)是一種機器學習算法,它專注於從已經解決的問題中學習處理方法, 並將學習到的知識利用於解決其他相關的問題,非常適合用於監督式(supervised)的細胞分類。使用監督式預訓練進行的遷移學習最初是由Donahue等人提出【1】,他們的研究表明,以完全監督的方式從深度卷積網絡(convolutional network)中提取的,用於對象識別任務的特徵,可以重新用於類似目的的其他任務。
近日,美國賓夕法尼亞大學Perelman醫學院Mingyao Li團隊(第一作者為胡健)在Nature Machine Intelligence雜誌上發表文章Iterative transfer learning with neural network for clustering and cell type classification in single-cell RNA-seq analysis,借鑑上述想法,開發了ItClust【2】,一種將神經網絡的遷移學習用於單細胞RNA測序分析的聚類和細胞類型分類的機器學習算法。
ItClust需要兩個輸入數據集:一個作為源數據的基因表達矩陣, 其中每個細胞都被標註了細胞類型;另一個作為目標數據的基因表達矩陣, 其中所有的細胞都未被標註類型 。圖1顯示了ItClust算法的主要步驟。
圖 1: ItClust 算法介紹
(1)ItClust從構建一個堆疊自編碼器(stacked autoencoder)開始,利用該堆疊自編碼器以無監督(unsupervised)的方式從源數據中提取並學習細胞類型的基因表達;
(2)當堆疊自編碼器學習結束後, ItClust捨棄掉堆疊自編碼器的解碼器(decoder), 僅保留編碼器(encoder), 並在解碼器之後接入一個分類層(clustering layer), 組成完整的源分類網絡。源分類網絡利用源數據集中已有的細胞類型標註,通過監督式學習的方式更進一步的學習源數據中特定細胞類型的基因特點;
(3)構建第二個分類網絡,即目標分類網絡。目標分類網絡擁有和源分類網絡同樣的結構, 並且源分類網絡中的參數將被用於目標分類網絡的初始化。這一步驟保證了目標分類網絡繼承了所有源分類網絡已學習到的信息;
(4)最後,完成初始化的目標分類網絡再通過無監督的方式從目標數據中學習,微調參數,以便捕獲目標數據中特有的細胞類型的基因表達。完成了訓練ItClust 網絡將能對目標數據集中的細胞作出準確的分類, 並對每個類群所屬的細胞類型給出一個置信分數(confidence score), 根據置信分數, 使用者將能判斷該類群是否是源數據集中已有的某個細胞類型。
以上的步驟保證了ItCLust能夠學習到源數據和目標數據中的信息, 當源數據和目標數據之間存在強烈的批處理效果時,或者當源數據的質量較差時, ItClust任然能夠給出較好的分類結果。
為了展示ItClust的優勢,研究人員分析了來自不同物種,組織,測序方法的多個scRNA-seq數據集。將ItClust的與Louvain【3】和DESC【4】這兩種非監督聚類方法,scVI【5】中實現的一種半監督方法以及 Seurat【6】,Moana【7】和scmap【8】這三種監督分類方法進行了比較 。還將ItClust與SAVER-X【9】(一種用於基因表達去噪的無監督遷移學習算法)進行了比較。結果表明,在聚類和細胞類型分類中,ItClust的性能始終優於這些現有方法。
由於篇幅所限, 在此僅僅展示一部分結果。如圖2,展示了 ItClust與半監督和監督方法在人胰島數據集上的比較,並測試了源數據中缺失細胞類型的對不同分類方法的影響。
通過從源數據中排除四種主要細胞類型(alpha,beta,gamma和delta細胞)。圖2b顯示,儘管這四種主要的細胞被從源數據集中刪除,ItClust對目標數據集的分類仍能達到92%的準確度,並且能夠正確分離目標數據集中的這四種細胞。相比之下,Seurat 的準確性大幅度下降至25%, Scmap的準確度降至28%,其中55.0%的細胞(包括大多數alpha,beta ,gamma和 delta細胞)被歸類為「未分類」。scVI和Moana 的準確度降至25% 和21%,都將大多數上述四種細胞誤分類為epsilon細胞。
ItClust可以分離這些未出現在源數據集中的細胞類型的原因是,在微調步驟中,該算法通過更新網絡參數,在目標數據集中捕獲了這些缺失的細胞類型的信息。為了更好地說明參數迭代更新過程是如何工作的,以gamma細胞為例。圖2d顯示了微調之前目標數據中單元格的t-SNE圖。藍色點代表真正的gamma細胞,紅色點代表分類中心(cluster centroid),米色點代表其他細胞類型的細胞。由於源數據中不存在gamma細胞,剛完成初始化的目標網絡無法分離gamma細胞。因此在t-SNE圖中,gamma細胞最初與其他細胞類型混合在一起。但是,在迭代過程中,目標網絡開始在目標數據集中學習gamma細胞的信息。隨著網絡參數的更新,gamma細胞逐漸靠近紅色質心,這使gamma細胞遠離了其他類型的細胞。經過70次迭代後,gamma細胞與其他細胞完全分離。對於alpha,beta和delta細胞也觀察到相似的模式。這些結果表明,對於未出現在源數據集中的細胞類型,如果目標數據集中有足夠的信息,ItClust對這些細胞也能完成很好的分類。
圖2: ItClust與半監督和監督方法在人胰島數據集上的比較
綜上所述,ItClus是一個強大scRNA-seq聚類和細胞類型分類工具。它能夠消除源數據和目標數據之間的強批處理效果的幹擾,並且能夠分離目標數據集特有的而源數據集沒有的細胞類型。此外,它提供有助於細胞類型分配的置信度評分。隨著scRNA-seq在生物醫學研究中的日益普及,希望ItClust能使研究人員能夠準確地對研究中的細胞進行聚類和注釋。
附:ItClust的代碼:https://github.com/jianhuupenn/ItClust
原文連結:
https://doi.org/10.1038/s42256-020-00233-7
https://www.biorxiv.org/content/10.1101/2020.02.02.931139v1.full (preprint)
製版人:schweine
參考文獻
1. Donahue, J. et al. DeCAF: a deep convolutional activation feature for generic visual recognition. ICML』14: Proceedings of the 31st International Conference on Machine Learning 32, 647-655 (2014).
2. Hu, J., Li, X., Hu, G. et al. Iterative transfer learning with neural network for clustering and cell type classification in single-cell RNA-seq analysis. Nat Mach Intell (2020). https://doi.org/10.1038/s42256-020-00233-7
3. Blondel, V. D., Guillaume, J.-L., Lambiotte, R. & Lefebvre, E. Fast unfolding of communities in large networks. Journal of statistical mechanics: theory and experiment 2008, P10008 (2008).
4. Li, X., Wang, K., Lyu, Y., Pan, H., Zhang, J., Stambolian, D., ... & Li, M. (2020). Deep learning enables accurate clustering with batch effect removal in single-cell RNA-seq analysis. Nature communications, 11(1), 1-14.
5. Lopez, R., Regier, J., Cole, M. B., Jordan, M. I. & Yosef, N. Deep generative modeling for single-cell transcriptomics. Nat Methods 15, 1053-1058, doi:10.1038/s41592-018-0229-2 (2018).
6. Stuart, T. et al. Comprehensive integration of single-cell data. Cell 177, 1888-1902. e1821 (2019).
7. Wagner, F. & Yanai, I. Moana: A robust and scalable cell type classification framework for single-cell RNA-Seq data. BioRxiv, 456129 (2018).
8. Stuart, T. et al. Comprehensive integration of single-cell data. Cell 177, 1888-1902. e1821 (2019).
9. Wang, J. et al. Data denoising with transfer learning in single-cell transcriptomics.Nature methods 16, 875-878 (2019).