丁顯廷/林關寧團隊對CyTOF數據提出細胞分群方法的基準分析框架並...

2020-12-17 科學網
丁顯廷/林關寧團隊對CyTOF數據提出細胞分群方法的基準分析框架並給出方法選擇決策樹 | Genome Biology

論文標題:A comparison framework and guideline of clustering methods for mass cytometry data

期刊:Genome Biology

作者:Xiao Liu, Weichen Song et al.

發表時間:2019/12/23

DOI:10.1186/s13059-019-1917-7

微信連結:點擊此處閱讀微信文章

CyTOF(單細胞質譜流式技術)是一項採用金屬同位素標記抗體,避免了螢光重疊和自螢光消除等問題的先進技術,可在單細胞水平同時測量數百萬細胞中多達55種蛋白的表達量,使生物學家能夠在同一批實驗中獲得單細胞水平的高維蛋白分析。CyTOF日益成為免疫學、癌症研究、藥物發現、疫苗、幹細胞和臨床轉化研究的主要平臺技術。

細胞分群是CyTOF數據分析的一個主要研究途徑,迄今為止,可用於CyTOF數據細胞分群的聚類方法主要是基於歐美學者提出的Accense、PhenoGraph和Xshift等分析方法。雖然這些分析方法已在不同領域和臨床研究中得到了廣泛的應用,一些科學家也對這些方法做了比較說明,但在選用哪個方法能更好地分析個體化數據上,仍然沒有一個具體的指導意見。

2019年12月23日,上海交通大學丁顯廷教授和林關寧教授團隊(劉曉博士、宋煒宸博士生是論文的第一作者)聯合在Genome Biology 上在線發表了題為「A Comparison Framework and Guideline of Clustering Methods for Mass Cytometry Data」的文章。該文章從準確性(precision)、一致性(coherence)和穩定性(stability)三個層面對CyTOF數據細胞分群方法開展了深度的基準分析工作。該工作根據每個方法的特性和應用場景,以及數據的特徵,首次給出了具體的方法選擇決策樹,為單細胞質譜流式分析領域的研究者在數據分析上提供了方法指導。

在這篇文章中,研究人員在6個單細胞組學數據集上(涉及骨髓細胞、肌肉組織、結腸組織),對目前經典的無監督(Accense, Xshift, PhenoGraph, FlowSOM, flowMeans, DEPECHE, and kmeans)和半監督細胞分群方法(ACDC,LDA)進行了基準分析和深度比較。

在準確性(precision)上,研究人員將「manual gating」的細胞分群結果看作「ground truth」,利用四種外部評價指標(Accuracy,F-measure, NMI和ARI),對不同方法的分群準確性和效率進行了討論。討論發現,LDA是準確性比較高的半監督分群方法,無監督方法中FlowSOM和flowMeans的準確性較高,其次是PhenoGraph和DEPECHE方法。

在一致性(coherence)上,不再考慮「manual gating」的細胞分群結果,而是直接利用三種內部評價指標(DB,CH和XB),對每個方法揭示細胞數據內部本質結構的能力進行了探討。經過探討發現,DEPECHE,FlowSOM和PhenoGraph方法能更好地捕捉到CyTOF數據的內部本質結構。

在穩定性(stability)上,根據細胞採樣數量的變化,研究人員對不同方法在分群準確性上的魯棒性和不同方法識別出的細胞亞群數量的魯棒性進行了深入研究。綜合來說,PhenoGraph,DEPECHE和LDA具有相對較高的穩定性,而FlowSOM在分析較大的CyTOF數據時更加魯棒。此外,這篇文章還研究了分群方法的分群解析度,發現PhenoGraph和Xshifit能夠對特定的細胞亞型細化分類(識別出更細粒度的亞群),而DEPECHE更傾向於忽略細胞亞型之間的差異,將不同的T細胞或B細胞合併到一個細胞亞群(識別粗粒度的亞群)

綜合上述分析結果,這篇文章為單細胞質譜流式分析領域的研究者,特別是那些沒有計算基礎的初學者,提供了細胞分群方法的選擇決策樹。

據悉,上海交通大學生物醫學工程學院個性化醫學研究院是中國最早建立起單細胞質譜流式技術的單位之一,並已初步實現技術向臨床應用的轉化,先後利用單細胞痕量蛋白分析技術完成了寄生蟲耐藥、銀屑病、結腸癌、肺結核方面的相關臨床應用研究。

摘要:

Background

With the expanding applications of mass cytometry in medical research, a wide variety of clustering methods, both semi-supervised and unsupervised, have been developed for data analysis. Selecting the optimal clustering method can accelerate the identification of meaningful cell populations.

Result

To address this issue, we compared three classes of performance measures, 「precision」 as external evaluation, 「coherence」 as internal evaluation, and stability, of nine methods based on six independent benchmark datasets. Seven unsupervised methods (Accense, Xshift, PhenoGraph, FlowSOM, flowMeans, DEPECHE, and kmeans) and two semi-supervised methods (Automated Cell-type Discovery and Classification and linear discriminant analysis (LDA)) are tested on six mass cytometry datasets. We compute and compare all defined performance measures against random subsampling, varying sample sizes, and the number of clusters for each method. LDA reproduces the manual labels most precisely but does not rank top in internal evaluation. PhenoGraph and FlowSOM perform better than other unsupervised tools in precision, coherence, and stability. PhenoGraph and Xshift are more robust when detecting refined sub-clusters, whereas DEPECHE and FlowSOM tend to group similar clusters into meta-clusters. The performances of PhenoGraph, Xshift, and flowMeans are impacted by increased sample size, but FlowSOM is relatively stable as sample size increases.

Conclusion

All the evaluations including precision, coherence, stability, and clustering resolution should be taken into synthetic consideration when choosing an appropriate tool for cytometry data analysis. Thus, we provide decision guidelines based on these characteristics for the general reader to more easily choose the most suitable clustering tools.

(來源:科學網)

 

 

 

特別聲明:本文轉載僅僅是出於傳播信息的需要,並不意味著代表本網站觀點或證實其內容的真實性;如其他媒體、網站或個人從本網站轉載使用,須保留本網站註明的「來源」,並自負版權等法律責任;作者如果不希望被轉載或者聯繫轉載稿費等事宜,請與我們接洽。

相關焦點

  • /林關寧團隊提出單細胞質譜流式技術數據分群方法的基準分析框架
    2019年12月23日,上海交通大學丁顯廷教授和林關寧教授團隊聯合在Genome Biology上發表了題為「A Comparison Framework and Guideline of Clustering Methods for Mass Cytometry Data」的文章。
  • 細胞分群方法的基準分析框架及方法選擇決策樹
    細胞分群是CyTOF數據分析的一個主要研究途徑,迄今為止,可用於CyTOF數據細胞分群的聚類方法主要是基於歐美學者提出的Accense、PhenoGraph和Xshift等分析方法。雖然這些分析方法已在不同領域和臨床研究中得到了廣泛的應用,一些科學家也對這些方法做了比較說明,但在選用哪個方法能更好地分析個體化數據上,仍然沒有一個具體的指導意見。
  • 數據分析的三大框架:底層技術、分析建模、工具選擇
    在搭建知識大廈之前,先需要建立知識的框架,然後才能高效的填充知識。所以今天我們先建立框架。數據分析的三大框架數據科學的框架分為三部分:底層技術框架/數據分析框架/工具選擇框架,接下來依次給大家介紹:1.
  • 周志華團隊:深度森林挑戰多標籤學習,9大數據集超越傳統方法
    ,提出多標籤深度森林方法MLDF,在9個基準數據集上都實現了最佳的性能。 2017年,南京大學機器學習與數據挖掘研究所(簡稱LAMDA 團隊)的周志華教授與他的團隊,提出了「深度森林」(Deep forest):一種基於樹的方法,拓展了深度學習的體系。
  • 華科團隊發布 OVIS 遮擋視頻實例分割基準數據集
    為了量化遮擋的嚴重程度,團隊提出了一個指標 mean Bounding-box Overlap Rate (mBOR)來粗略的反映遮擋程度。mBOR 指圖像中邊界框重疊部分的面積佔所有邊界框面積的比例。從參數對比列表中可以看出,相比於 YouTube-VIS,OVIS 有著更嚴重的遮擋。
  • Bengio 團隊力作:GNN 對比基準橫空出世,圖神經網絡的「ImageNet...
    然而,正如計算機視覺的崛起有賴於 ImageNet 的誕生,圖神經網絡也急需一個全球學者公認的統一對比基準。近日,Bengio 大神帶領其團隊發布了新的圖神經網絡對比基準測試框架以及附帶的 6 個標準化數據集。大家可以開始盡情刷榜了!
  • Bengio 團隊力作:GNN 對比基準橫空出世,圖神經網絡的「ImageNet」來了
    然而,正如計算機視覺的崛起有賴於 ImageNet 的誕生,圖神經網絡也急需一個全球學者公認的統一對比基準。近日,Bengio 大神帶領其團隊發布了新的圖神經網絡對比基準測試框架以及附帶的 6 個標準化數據集。大家可以開始盡情刷榜了!
  • 上交大提出基準測試新平臺 Texygen
    【新智元導讀】上海交通大學、倫敦大學學院朱耀明, 盧思迪,鄭雷,郭家賢, 張偉楠 , 汪軍,俞勇等人的研究團隊最新推出Texygen平臺,這是一個支持開放域文本生成模型研究的基準平臺。Texygen不僅實現了大部分的文本生成模型,而且還覆蓋了一系列衡量生成文本的多樣性、質量和一致性的評測指標。
  • 谷歌提出「T5」 新NLP模型,多基準測試達SOTA
    與此同時,他們還引入了一個新的開源預訓練數據集——Colossal Clean Crawled Corpus(C4)。作者在C4數據集上對T5 模型進行預訓練,讓模型在許多 NLP 基準上都實現了最佳結果,與此同時還擁有足夠的靈活性,進行微調後可應用到多個重要的下遊任務上。
  • 六項任務、多種數據類型,谷歌、DeepMind提出高效Transformer評估...
    最近,谷歌和 DeepMind 提出了一項系統化的統一基準——Long-Range Arena,重點關注長語境場景下的模型質量評估。該基準主要關注模型在長語境場景下的能力,不過研究人員對 xformer 架構在不同數據類型和條件下的能力也很感興趣。因此,該基準選擇了具備特定先驗結構的數據集和任務。例如,這些架構可以建模層級結構長序列或包含某種空間結構形式的長序列嗎?
  • 陸海統一空間基準框架體系建設通過專家評審驗收
    半島全媒體記者 於紅靚9日,半島全媒體記者從市自然資源和規劃局獲悉,近日,作為基礎測繪「十三五」規劃中主要建設內容之一的陸海統一空間基準框架體系建設項目,通過專家評審驗收。該項目填補了青島市測繪空間基準體系的海域空白,實現了陸海基準體系的統一,可為海洋自然資源的規劃、管理、保護和開發利用提供更精準的基礎測繪數據,積極地推動青島市經濟發展。
  • 上交大高金教授李祥林:金融機構的風險管理及整體分析框架結構!
    祥林老師以《金融機構的風險管理及整體分析框架結構》為題,系統地從風險的基本概念與要素、金融危機的實踐教訓、風險管理的必備技能、風險戰略及偏好的設定步驟、金融機構整體分析框架結構等角度為大家作了醍醐灌頂的闡述。
  • 【AAAI論文】阿里提出新圖像描述框架,解決梯度消失難題
    現有的圖像描述方法通常都是訓練一個單級句子解碼器,這難以生成豐富的細粒度的描述。另一方面,由於梯度消失問題,多級圖像描述模型又難以訓練。我們在本論文中提出了一種粗略到精細的多級圖像描述預測框架,該框架由多個解碼器構成,其中每一個都基於前一級的輸出而工作,從而能得到越來越精細的圖像描述。通過提供一個實施中間監督的學習目標函數,我們提出的學習方法能在訓練過程中解決梯度消失的難題。
  • 入選ISCA 2020,清華大學魏少軍、劉雷波團隊提出面向可重構晶片的...
    該方法充分利用了可重構陣列的空間並行性,給出了一個優化圖計算框架性能的全新視角,相比傳統方法具有顯著優勢。PageRank、協同濾波等大規模圖計算算法是大數據分析的基礎。為高效求解大規模圖計算問題,圖計算框架面向特定計算架構對多種圖計算算法進行了性能優化。
  • 解析大數據基準測試——TPC-H or TPC-DS
    摘要:為了方便企業選擇合適的大數據測試基準,本文將在分析總結現有成果的基礎,進一步討論大數據測試基準應該具有的要素
  • ACM MM | 中山大學等提出HSE:基於層次語義嵌入模型的精細化物體分類
    近日,中山大學、華南農業大學、電子科技大學以及桂林電子大學聯合研究團隊提出層次化語義嵌入模型,有效利用層次化的分類結構引導網絡特徵學習以及約束其預測空間,在細粒度圖像識別問題上取得最優的性能。,HSE 框架在兩個數據集上的性能始終優於兩組對比的基準方法。
  • 清華Thinker團隊提出AI計算晶片存儲優化新方法 | ISCA 2018中國唯一一作論文
    嵌入式 DRAM(eDRAM)結構及本文核心觀點本文提出一種基於 eDRAM 存儲器的新型加速框架:數據生存時間感知的神經網絡加速框架(RANA)。同時,RANA 框架採用三個層次的技術:數據生存時間感知的訓練方法神經網絡分層的混合計算模式刷新優化的 eDRAM 控制器分別從訓練、調度和架構三個層面降低 eDRAM 刷新能耗,進而大幅優化整體系統能耗。
  • 數據分析:三步搭建基礎分析框架
    數據分析作為運營人員必備的核心技能,對職業發展起著尤為重要的作用。本文將基於基於業務場景,分享幾種基礎的數據分析框架和方法,系統化的進行數據分析。無論是產品、還是運營,都需要具備良好的數據分析能力,對用戶行為數據和業務數據,進行分析、評估甚至預測。本文通過分享三種常見的數據分析框架,幫助我們更系統的進行數據分析,發現並解決產品暴露出的問題,從而更高效的完成工作。
  • 愛奇藝論文入選ACM MM會議 提出全球最大卡通人物數據集
    論文提出的卡通人物識別基準數據集iCartoonFace是目前全球最大的手工標註卡通人物數據集,將有效推動卡通識別領域技術突破,開啟面向卡通內容的智能識別新世代。除了面向視頻的結構化分析,卡通人物識別技術也在圖片搜索、廣告識別等場景有著大量使用需求。然而,卡通人物的複雜程度和顏色紋理多樣性都遠超真人人臉,並存在類間差異小類內差異大的情況,這些複雜分布的數據決定了卡通人物識別的難度和挑戰性都遠遠大於真人人臉識別。卡通數據集是實現卡通識別技術突破與應用的關鍵。絕大部分現有的卡通識別數據集存在著數據量小、噪聲比例大的問題。
  • 學界 | 斯坦福論文提出MoleculeNet:分子機器學習新基準
    斯坦福的研究者提出一種適合分子機器學習的大型基準 MoleculeNet,並在 arXiv 上發布論文。機器之心對該論文進行了編譯。論文地址:https://arxiv.org/abs/1703.00564過去幾年中,分子機器學習快速發展成熟。方法的改進和大型數據集的出現使得機器學習算法對分子特性的預測精度變高。