高歌團隊發布單細胞轉錄組數據檢索新方法和參考資料庫

2020-12-13 中國生物技術網

本文來源:北大生科

作為細胞異質性研究的重要工具,近年來單細胞轉錄組測序技術蓬勃發展,並積累了大量研究數據。若能有效利用現有的單細胞數據進行檢索與推斷,研究者便能更好地進行新測序單細胞的注釋,以及綜合多數據集的研究。然而,精確的單細胞轉錄組數據檢索和注釋需要克服兩個挑戰:

一、數據集之間的批次效應(batch effect)會顯著影響細胞檢索的可靠性;

二、目前缺少跨物種和平臺、具有高質量注釋的單細胞轉錄組資料庫。

日前,北京大學生物醫學前沿創新中心(BIOPIC)、北京未來基因診斷高精尖創新中心(ICG)、北京大學生命科學學院生物信息中心(CBI)、蛋白質與植物基因研究國家重點實驗室高歌課題組,在Nature Communications雜誌上發表了題為:Searching large-scale scRNA-seq databases via unbiased cell embedding with Cell BLAST的生物信息學論文。

發布了基於深度學習模型的單細胞轉錄組數據檢索和注釋的新方法Cell BLAST,以及具備高質量注釋的單細胞轉錄組參考資料庫ACA,為有效利用現有數據進行細胞注釋和跨數據集研究提供了新的工具和資源

Cell BLAST使用對抗自編碼器(Adversarial Autoencoder)進行轉錄組數據降維,利用對抗學習策略來消除數據集間的批次效應,取得了優於當前其他同類工具的效果。此外作者基於該模型提出了一個新的、更為準確的細胞相似性度量用於細胞檢索,在設計上考慮了單細胞轉錄組觀測本身所具有的不確定性。

除了可以用於細胞類型鑑定,Cell BLAST能靈敏地發現參考數據集中不存在的、未知的細胞類型(下圖a-c);

此外,作者用一系列造血幹細胞分化的數據集驗證了Cell BLAST還能用於注釋連續細胞狀態(下圖d-f);

最後,通過收集大量已發表的單細胞轉錄組數據,作者建立了一個涵蓋2,989,582個單細胞、8個物種、27個不同的組織器官的資料庫,稱為Animal Cell Atlas(ACA)(下圖g, h)。

作者對ACA中的細胞注釋進行了詳細的整理,並使用Cell Ontology構建了一套結構化的細胞類型標註,用於統一不同數據集中的標註以及支持細胞類型的推斷。

該課題提供了在線檢索平臺(https://cblast. gao-lab.org),用戶可以直接上傳待注釋的單細胞轉錄組數據,用ACA中的參考數據集進行細胞檢索和自動注釋;同時也提供了Python軟體包Cell BLAST(https://github.com/gao-lab/Cell_ BLAST),用戶可以使用軟體包在自定義的參考數據集上進行模型訓練、檢索和定製化分析。

北京大學生命科學學院博士生曹智傑魏琳為該論文的共同第一作者,高歌研究員為通訊作者,陸燊、楊德昌在網站構建方面提供了大力支持。該課題得到了國家重點研發計劃、863計劃、蛋白質與植物基因研究國家重點實驗室和北京未來基因診斷高精尖創新中心的資助。

論文連結:

https://www.nature.com/articles/s41467-020-17281-7

來源:北大生科院

相關焦點

  • ...張世華課題組提出解決單細胞轉錄組數據高度缺失及稀疏的新方法
    因此,如何從高度稀疏的單細胞轉錄組數據中精確地恢復這些缺失的信號,從而促進下遊生物信息挖掘,是單細胞轉錄組數據分析面臨的重要挑戰。該工作基於低秩矩陣填補技術【1,2】和單細胞轉錄組數據的異質性特徵,提出一種新型單細胞轉錄組數據填補方法PBLR。
  • 一種新的RNA測序方法:什麼是單細胞轉錄組學?
    單細胞轉錄組學是下一代RNA測序方法,可以高解析度查看細胞。來自南丹麥大學,惠康桑格研究所和BGI的研究人員在《基因組生物學》雜誌上發表了這項研究。什麼是單細胞轉錄組學?RNA測序使用下一代測序來分析樣品中RNA的存在。1,2根據南丹麥大學的說法,單細胞轉錄組學(即scRNA-seq)是一種下一代測序方法,可同時測量單個細胞中數千種基因的信使RNA濃度(由DNA / 基因組 /遺傳藍圖編碼)。
  • 希望組正式推出納米孔單細胞全長轉錄組測序分析服務
    希望組實測數據表明單個PromethION晶片可產出總量約70G的數據,平均reads的質量在9.0-11.0之間,reads的平均長度和N50長度均達到了1.2-1.5Kb (圖1)。不管是數據產出還是reads質量與長度,納米孔單細胞全長轉錄組都與常規納米孔全長轉錄組測序指標相當。
  • Nature Methods|新方法再次提高單細胞蛋白質組學質譜定量準確度
    —— 諾貝爾生理學或醫學獎獲得者Sydney Brenner單細胞蛋白質組學在蛋白豐度檢測、轉錄修飾和翻譯後修飾方面填補了單細胞轉錄組學的空白。單細胞蛋白質組學質譜(SCoPE-MS)是近年來興起的一種定量分析多功能單細胞蛋白質組的方法,這種方法採用同位素標記和載體蛋白質組學來分析單個細胞【1】。
  • 單細胞轉錄組學揭示肝實質和非實質細胞譜系的早期出現
    單細胞轉錄組學揭示肝實質和非實質細胞譜系的早期出現 作者:小柯機器人 發布時間:2020/10/31 20:57:43 加拿大特裡福克斯實驗室Pamela A. Hoodless團隊近日取得一項新成果。
  • 《自然·醫學》:人類首次描繪月經周期中子宮內膜單細胞轉錄組圖譜
    子宮內膜單細胞水平的分子和基因組分析有助於理解女性生育能力、妊娠及常見疾病,將加速闡明這些疾病的發病機理,並開發出新穎的診斷方法和治療方法,為女性健康開闢了新前景。研究團隊使用兩個不同的單細胞測序平臺分析了29位不同女性的子宮內膜活檢,每個女性在月經周期進行了一次採樣。整個轉錄組無偏見分析了子宮內膜的主要細胞類型:上皮細胞、成纖維細胞、內皮細胞、免疫細胞和幹/祖細胞。
  • 微陣列空間轉錄組與單細胞測序揭示胰腺癌結構
    微陣列空間轉錄組與單細胞測序揭示胰腺癌結構 作者:小柯機器人 發布時間:2020/1/16 10:36:33 美國紐約大學Itai Yanai團隊利用基於微陣列的空間轉錄組學和單細胞RNA測序
  • 用米氏方程解決單細胞轉錄組dropout現象
    今天要介紹的這篇文章提出了一個算法,R包是:M3Drop , 文章是:M3Drop: dropout-based feature selection for scRNASeq挑選重要基因目前已有的尋找單細胞轉錄組測序數據中的重要基因(feature selection)的方法都不夠好,比如 scLVM 主要是根據先驗基因集,比如cell-cycle or apoptosis來區分細胞
  • 單細胞數據科學的十一個重大挑戰
    這是單細胞數據分析的大框架,要說難點都難,今天我們就來談談目前單細胞數據解讀(挖掘)的一些挑戰。主要參考文章:Eleven grand challenges in single-celldata science ,Lähnemann et al.
  • 科研人員開發出基於深度學習的單細胞轉錄組分析模型
    單細胞轉錄組作為單個細胞的特徵,可更加精確地定義細胞的類型。常規的基於單細胞轉錄組的分類方法首先是進行無監督的聚類,然後根據每個集群(Cluster)特異表達的細胞標記基因來對集群進行標註。雖然基於無監督的分類方法更容易發現新細胞類型,但是人工標註的過程費時費力。
  • 轉錄調控必知資料庫:ENCODE
    我們可以通過ENCODE資料庫來檢索自己想要的數據。類似很多轉錄調控資料庫也是在ENCODE資料庫獲得目標原始數據後,進行分析後構建的自己資料庫。這裡我們檢索: CTCF。就可以看到和CTCF相關的數據集了。其中前四個是不同物種chip-seq的數據。
  • ...課題組攜手北醫三院喬傑課題組首次利用單細胞轉錄組和DNA甲基...
    結合體外模擬人類著床策略1和高精度單細胞多組學測序技術2,3(single-cell RNA-seq, single-cell Trio-seq2),首次利用單細胞轉錄組和DNA甲基化組圖譜重構了人類胚胎著床過程,系統解析了這一關鍵發育過程的基因表達調控網絡和DNA甲基化動態變化過程。
  • 有袋動物胚胎發育和X染色體失活單細胞轉錄組圖譜的揭示
    有袋動物胚胎發育和X染色體失活單細胞轉錄組圖譜的揭示 作者:小柯機器人 發布時間:2020/8/21 15:43:54 英國弗朗西斯·克裡克研究所James M. A.
  • 單細胞轉錄組分析指導藥物過敏症候群的靶向治療
    單細胞轉錄組分析指導藥物過敏症候群的靶向治療 作者:小柯機器人 發布時間:2020/1/25 10:42:25 美國國立健康研究院Keisuke Nagao研究團隊報導了一個利用單細胞轉錄組學分析靶向治療藥物性過敏反應症候群的臨床案例
  • 一周內教會您單細胞測序數據挖掘分析和課題設計 2020年8月10-14日線上
    1、了解單細胞測序基本概念及原理2、了解單細胞測序分析的常用軟體3、掌握單細胞測序數據的下載方法4、掌握單細胞測序數據的研究思路5、學會R語言基本語法和繪圖技巧6、學會用R代碼進行單細胞轉錄組分析並作圖7、熟悉CNS雜誌單細胞轉錄組文章思路8、熟悉零成本的單細胞相關課題設計思路
  • 單細胞轉錄多樣性是發育潛能的標誌
    單細胞轉錄多樣性是發育潛能的標誌 作者:小柯機器人 發布時間:2020/1/29 16:40:07 美國史丹福大學Aaron M. Newman研究團隊發現,單細胞轉錄多樣性是發育潛能的標誌。
  • /喬傑/高歌等繪製人類中期妊娠胎兒組織細胞的基因組結構圖譜
    與普通測序不同,單細胞測序規避了細胞異質性帶來問題,科學家們可以通過該技術表徵單個細胞的基因組概況(例如基因組、轉錄組、甲基化組、染色質結構等),從而對生物組織中的細胞進行分型。該項研究中,在兩種新開發的單細胞技術(MALBAC-DT和METATAC)的加持下,研究者分析了人類中期妊娠(19-21周)胎兒消化、免疫、循環、呼吸、生殖和泌尿系統中多個代表器官和組織的轉錄組和染色質可及性。將基因表達譜與潛在的染色質狀態聯繫起來,研究者發現了具有代表性的相關基因模塊 (Corrected Gene Modules,CGMs) 的關鍵轉錄因子,從而加深了我們對於胎兒發育的理解。
  • 湯富酬、喬傑團隊與合作者建立人類精子發生過程高精度轉錄組圖譜
    首次從單細胞水平系統闡明了人類精子發生過程中的基因表達調控網絡和細胞命運轉變路徑,繪製了人類精子發生的高精度單細胞轉錄組圖譜,解析了成年男性全部生殖細胞類型及其關鍵的分子標記,並初步探索了將單細胞轉錄組技術用於人類非梗阻性無精症的研究和診斷。
  • 【NRM綜述】利用轉錄組學探究海洋原生生物的進化、生態和生理機制
    該項目需要對678個轉錄組進行測序和組裝,這些轉錄組包括原生生物210屬305種和396株系,並於2014年6月發布結果。圖中描繪了約50%株系的地理來源,展示了其全球覆蓋程度。MMETSP序列數據集可通過iMicrobe和NCBI BioProject網站公開獲得,最近重新注釋的數據集可在MMETSP重新組裝網站上獲得。
  • 《自然通訊》:喬傑/文路團隊繪製人類垂體發育單細胞轉錄組圖譜
    在人類胚胎第3周左右,腹側間腦與原始口腔頂部外胚層接觸,誘導其內陷形成一個微型囊狀結構(Rathke囊),囊壁細胞通過分裂、遷移和分化,最終形成各種激素細胞類型。過去近三十年的小鼠遺傳學研究已鑑定出許多信號通路和轉錄因子參與了垂體發育 。