2019年12月23日,上海交通大學丁顯廷教授和林關寧教授團隊聯合在Genome Biology上發表了題為「A Comparison Framework and Guideline of Clustering Methods for Mass Cytometry Data」的文章。 該文章從準確性(precision)、一致性(coherence)和穩定性(stability)三個層面由淺入深地闡明了不同單細胞質譜流式技術(CyTOF)細胞族群分析方法的優劣及其適用場景。這是國際一線雜誌第一次報導中國大陸學者在單細胞質譜流式技術數據標準化和分析方法學方面的工作。
相比傳統螢光標記的流式細胞術,CyTOF技術採用金屬同位素標記抗體,避免了螢光重疊和自螢光消除的問題,可在單細胞水平同時測量數百萬細胞中近百種蛋白質的表達量。這種同時獲取高維度蛋白質的超強能力使得CyTOF技術在藥物優化、疫苗開發和疾病標記發現方面具有重要的應用價值。
然而,迄今為止CyTOF技術的數據標準化、樣本和數據的質量控制、分析方法學,主要還是基於歐美學者提出的Accense,PhenoGraph和Xshift等分析方法。雖然這些分析方法已被廣泛應用於不同的領域和臨床研究,但是很多研究者對於採用哪個方法能更好地分析個體化的數據仍然存在疑惑。
在這篇文章中,研究人員在三類異源(骨髓細胞、肌肉組織、結腸組織)6個單細胞組學的數據集上對目前經典的無監督和半監督細胞分群方法進行了基準分析和深度比較。在準確性(precision)分析上,根據四種內部評價指標(Accuracy,F-measure, NMI和ARI)討論了不同方法對細胞進行分群的準確性;在一致性(coherence)分析上,利用三種外部評價指標(DB,CH和XB)探討了細胞分群方法揭示細胞數據內部本質結構的能力;在穩定性(stability)分析方面,研究了隨細胞採樣數量變化,不同方法的準確性和識別出的細胞亞群數量的魯棒性。此外,這篇文章還討論了分群方法的分群解析度,發現PhenoGraph和Xshifit能夠識別出更細粒度的亞群(亞群數量偏多),而DEPECHE傾向於識別粗粒度的亞群(亞群數量偏少)。
圖1 CyTOF數據細胞分群方法的選擇決策樹
綜合上述框架的分析結果,這篇文章為單細胞質譜流式分析領域的研究者,特別是初學者以及沒有生物信息學基礎的研究者,提供了細胞分群方法的選擇決策樹。
圖2 聚類方法的穩定性分析
上海交通大學生物醫學工程學院個性化醫學研究院是中國最早建立起單細胞質譜流式技術的單位之一,並已初步實現技術向臨床應用的轉化,先後利用單細胞痕量蛋白分析技術完成了寄生蟲耐藥、銀屑病、結腸癌、肺結核方面的相關臨床應用研究。
劉曉博士、宋煒宸博士生是論文的第一作者。丁顯廷教授和林關寧教授是論文的通訊作者。相關研究得到國際人類表型組計劃、國家傳染病重大專項、上海市高峰高原學科建設計劃、國家自然科學基金等項目的支持。
論文連結:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1917-7