丁顯廷/林關寧團隊對CyTOF數據提出細胞分群方法的基準分析框架並給出方法選擇決策樹 | Genome Biology |
論文標題:A comparison framework and guideline of clustering methods for mass cytometry data
期刊:Genome Biology
作者:Xiao Liu, Weichen Song et al.
發表時間:2019/12/23
DOI:10.1186/s13059-019-1917-7
微信連結:點擊此處閱讀微信文章
CyTOF(單細胞質譜流式技術)是一項採用金屬同位素標記抗體,避免了螢光重疊和自螢光消除等問題的先進技術,可在單細胞水平同時測量數百萬細胞中多達55種蛋白的表達量,使生物學家能夠在同一批實驗中獲得單細胞水平的高維蛋白分析。CyTOF日益成為免疫學、癌症研究、藥物發現、疫苗、幹細胞和臨床轉化研究的主要平臺技術。
細胞分群是CyTOF數據分析的一個主要研究途徑,迄今為止,可用於CyTOF數據細胞分群的聚類方法主要是基於歐美學者提出的Accense、PhenoGraph和Xshift等分析方法。雖然這些分析方法已在不同領域和臨床研究中得到了廣泛的應用,一些科學家也對這些方法做了比較說明,但在選用哪個方法能更好地分析個體化數據上,仍然沒有一個具體的指導意見。
2019年12月23日,上海交通大學丁顯廷教授和林關寧教授團隊(劉曉博士、宋煒宸博士生是論文的第一作者)聯合在Genome Biology 上在線發表了題為「A Comparison Framework and Guideline of Clustering Methods for Mass Cytometry Data」的文章。該文章從準確性(precision)、一致性(coherence)和穩定性(stability)三個層面對CyTOF數據細胞分群方法開展了深度的基準分析工作。該工作根據每個方法的特性和應用場景,以及數據的特徵,首次給出了具體的方法選擇決策樹,為單細胞質譜流式分析領域的研究者在數據分析上提供了方法指導。
在這篇文章中,研究人員在6個單細胞組學數據集上(涉及骨髓細胞、肌肉組織、結腸組織),對目前經典的無監督(Accense, Xshift, PhenoGraph, FlowSOM, flowMeans, DEPECHE, and kmeans)和半監督細胞分群方法(ACDC,LDA)進行了基準分析和深度比較。
在準確性(precision)上,研究人員將「manual gating」的細胞分群結果看作「ground truth」,利用四種外部評價指標(Accuracy,F-measure, NMI和ARI),對不同方法的分群準確性和效率進行了討論。討論發現,LDA是準確性比較高的半監督分群方法,無監督方法中FlowSOM和flowMeans的準確性較高,其次是PhenoGraph和DEPECHE方法。
在一致性(coherence)上,不再考慮「manual gating」的細胞分群結果,而是直接利用三種內部評價指標(DB,CH和XB),對每個方法揭示細胞數據內部本質結構的能力進行了探討。經過探討發現,DEPECHE,FlowSOM和PhenoGraph方法能更好地捕捉到CyTOF數據的內部本質結構。
在穩定性(stability)上,根據細胞採樣數量的變化,研究人員對不同方法在分群準確性上的魯棒性和不同方法識別出的細胞亞群數量的魯棒性進行了深入研究。綜合來說,PhenoGraph,DEPECHE和LDA具有相對較高的穩定性,而FlowSOM在分析較大的CyTOF數據時更加魯棒。此外,這篇文章還研究了分群方法的分群解析度,發現PhenoGraph和Xshifit能夠對特定的細胞亞型細化分類(識別出更細粒度的亞群),而DEPECHE更傾向於忽略細胞亞型之間的差異,將不同的T細胞或B細胞合併到一個細胞亞群(識別粗粒度的亞群)。
綜合上述分析結果,這篇文章為單細胞質譜流式分析領域的研究者,特別是那些沒有計算基礎的初學者,提供了細胞分群方法的選擇決策樹。
據悉,上海交通大學生物醫學工程學院個性化醫學研究院是中國最早建立起單細胞質譜流式技術的單位之一,並已初步實現技術向臨床應用的轉化,先後利用單細胞痕量蛋白分析技術完成了寄生蟲耐藥、銀屑病、結腸癌、肺結核方面的相關臨床應用研究。
摘要:
Background
With the expanding applications of mass cytometry in medical research, a wide variety of clustering methods, both semi-supervised and unsupervised, have been developed for data analysis. Selecting the optimal clustering method can accelerate the identification of meaningful cell populations.
Result
To address this issue, we compared three classes of performance measures, 「precision」 as external evaluation, 「coherence」 as internal evaluation, and stability, of nine methods based on six independent benchmark datasets. Seven unsupervised methods (Accense, Xshift, PhenoGraph, FlowSOM, flowMeans, DEPECHE, and kmeans) and two semi-supervised methods (Automated Cell-type Discovery and Classification and linear discriminant analysis (LDA)) are tested on six mass cytometry datasets. We compute and compare all defined performance measures against random subsampling, varying sample sizes, and the number of clusters for each method. LDA reproduces the manual labels most precisely but does not rank top in internal evaluation. PhenoGraph and FlowSOM perform better than other unsupervised tools in precision, coherence, and stability. PhenoGraph and Xshift are more robust when detecting refined sub-clusters, whereas DEPECHE and FlowSOM tend to group similar clusters into meta-clusters. The performances of PhenoGraph, Xshift, and flowMeans are impacted by increased sample size, but FlowSOM is relatively stable as sample size increases.
Conclusion
All the evaluations including precision, coherence, stability, and clustering resolution should be taken into synthetic consideration when choosing an appropriate tool for cytometry data analysis. Thus, we provide decision guidelines based on these characteristics for the general reader to more easily choose the most suitable clustering tools.
(來源:科學網)
特別聲明:本文轉載僅僅是出於傳播信息的需要,並不意味著代表本網站觀點或證實其內容的真實性;如其他媒體、網站或個人從本網站轉載使用,須保留本網站註明的「來源」,並自負版權等法律責任;作者如果不希望被轉載或者聯繫轉載稿費等事宜,請與我們接洽。