本文來源:北大生科
作為細胞異質性研究的重要工具,近年來單細胞轉錄組測序技術蓬勃發展,並積累了大量研究數據。若能有效利用現有的單細胞數據進行檢索與推斷,研究者便能更好地進行新測序單細胞的注釋,以及綜合多數據集的研究。然而,精確的單細胞轉錄組數據檢索和注釋需要克服兩個挑戰:
一、數據集之間的批次效應(batch effect)會顯著影響細胞檢索的可靠性;
二、目前缺少跨物種和平臺、具有高質量注釋的單細胞轉錄組資料庫。
日前,北京大學生物醫學前沿創新中心(BIOPIC)、北京未來基因診斷高精尖創新中心(ICG)、北京大學生命科學學院生物信息中心(CBI)、蛋白質與植物基因研究國家重點實驗室高歌課題組,在Nature Communications雜誌上發表了題為:Searching large-scale scRNA-seq databases via unbiased cell embedding with Cell BLAST的生物信息學論文。
發布了基於深度學習模型的單細胞轉錄組數據檢索和注釋的新方法Cell BLAST,以及具備高質量注釋的單細胞轉錄組參考資料庫ACA,為有效利用現有數據進行細胞注釋和跨數據集研究提供了新的工具和資源。
Cell BLAST使用對抗自編碼器(Adversarial Autoencoder)進行轉錄組數據降維,利用對抗學習策略來消除數據集間的批次效應,取得了優於當前其他同類工具的效果。此外作者基於該模型提出了一個新的、更為準確的細胞相似性度量用於細胞檢索,在設計上考慮了單細胞轉錄組觀測本身所具有的不確定性。
除了可以用於細胞類型鑑定,Cell BLAST能靈敏地發現參考數據集中不存在的、未知的細胞類型(下圖a-c);
此外,作者用一系列造血幹細胞分化的數據集驗證了Cell BLAST還能用於注釋連續細胞狀態(下圖d-f);
最後,通過收集大量已發表的單細胞轉錄組數據,作者建立了一個涵蓋2,989,582個單細胞、8個物種、27個不同的組織器官的資料庫,稱為Animal Cell Atlas(ACA)(下圖g, h)。
作者對ACA中的細胞注釋進行了詳細的整理,並使用Cell Ontology構建了一套結構化的細胞類型標註,用於統一不同數據集中的標註以及支持細胞類型的推斷。
該課題提供了在線檢索平臺(https://cblast. gao-lab.org),用戶可以直接上傳待注釋的單細胞轉錄組數據,用ACA中的參考數據集進行細胞檢索和自動注釋;同時也提供了Python軟體包Cell BLAST(https://github.com/gao-lab/Cell_ BLAST),用戶可以使用軟體包在自定義的參考數據集上進行模型訓練、檢索和定製化分析。
北京大學生命科學學院博士生曹智傑和魏琳為該論文的共同第一作者,高歌研究員為通訊作者,陸燊、楊德昌在網站構建方面提供了大力支持。該課題得到了國家重點研發計劃、863計劃、蛋白質與植物基因研究國家重點實驗室和北京未來基因診斷高精尖創新中心的資助。
論文連結:
https://www.nature.com/articles/s41467-020-17281-7
來源:北大生科院