論文模板丨這篇8分+基於免疫細胞特徵預後模型

2021-01-07 沃斯智研

大家好！今天跟大家分享的是2020年12月發表在Briefings in Bioinformatics（IF = 8.99）上的文章。文章利用了從TCGA資料庫、GEO資料庫等多種資料庫以及最新文獻中搜集的乳腺癌患者表達譜數據進行了免疫細胞特徵的分析，開發了IRRS風險評分預後模型並從多方面證明了該模型的預後預測價值。說明了該風險評分模型可以作為可靠的預後生物標誌物，為新型化學療法和免疫療法的開發提供治療評價，並且可能有助於乳腺癌患者的臨床決策。

題目：Clinical significance and immunogenomic landscape analyses of the immune cell signature based prognostic model for patients with breast cancer

基於免疫細胞特徵乳腺癌患者預後模型的臨床意義和免疫基因組學分析

摘要

乳腺癌是最常見的癌症類型之一，也是全世界女性因惡性腫瘤死亡的主要原因。腫瘤浸潤淋巴細胞是乳腺癌患者重要的預後生物標誌物。本文基於腫瘤免疫微環境的腫瘤浸潤淋巴細胞特徵，在訓練數據集中開發了風險評分預後模型，用於乳腺癌患者的風險分層和預後預測。在兩個測試數據集和TCGA數據集中也驗證了此風險評分預後模型的預後價值。在訓練和測試數據集中建立了列線圖，以驗證該模型的臨床用途。除此之外，還評估了風險評分、乳腺癌亞型、免疫檢查點、腫瘤浸潤免疫細胞豐度與對化學療法和免疫療法的反應之間的關係。本文可以得出結論，該風險評分模型可以作為可靠的預後生物標誌物，為新型化學療法和免疫療法的開發提供治療評價，並且可能有助於乳腺癌患者的臨床決策。

流程圖

1. 數據的獲取和整理

為了獲得人乳腺癌的mRNA達譜和臨床信息，對GEO資料庫進行了系統搜索。從GEO資料庫獲取了17個具有總體生存時間的公共乳腺癌數據集，每個數據集至少有40個樣本，本文還收集了TCGA資料庫、METABRIC資料庫和ArrayExpress資料庫中的3個乳腺癌數據集，此外，還從兩篇文獻中下載了兩個乳腺癌數據集。綜上所述，研究包括了來自22個數據集的6415例乳腺癌患者樣本。

2. 免疫細胞特徵可預測乳腺癌的預後

將10個乳腺癌數據集中具有總體生存信息的4868個乳腺癌樣品用於預後模型構建。進行單因素Cox回歸分析以評估歸一化富集分數（NESs）與乳腺癌患者總生存率之間的預後關係。在155個免疫細胞特徵中，選擇32個P值小於0.001的特徵用於研究。通過LASSO優化的Cox回歸模型（圖1A和B），選擇了23個免疫細胞特徵的NES在訓練數據集中構建免疫相關風險分數（IRRS）模型。森林圖顯示了23種免疫細胞特徵的浸潤水平與總體存活率之間的關聯（圖1C）。

本文計算了訓練數據集中每位乳腺癌患者的風險評分，並根據分界值將患者分為高或低IRRS組。使用來自23個免疫細胞特徵的NES，繪製了訓練數據集中具有高風險評分和低風險評分的患者的熱圖。IRRS較低的患者在大多數免疫細胞特徵有較高的免疫浸潤水平，而IRRS較高的患者在大多數免疫細胞特徵中以較低的免疫浸潤水平為特徵。當通過小提琴圖觀察時，這兩種IRRS亞型在23種免疫細胞標記的免疫浸潤水平上也顯示出顯著差異。為了進一步評估IRRS的預後價值，通過在訓練數據集中使用KM生存分析比較了高和低IRRS亞型之間的總體生存差異。如圖1E所示，IRRS高的患者總生存期比訓練數據集中IRRS低的患者短得多。

圖1 在訓練集中構建和驗證IRRS

3. 利用免疫細胞特徵構建列線圖

通過使用來自訓練數據集、測試數據集和整個數據集的患者信息，構建了一個整合IRRS信息的列線圖。根據本研究中顯示的列線圖，可以預測出乳腺癌患者的3年、5年和10年總生存期。與乳腺癌亞型信息相比，IRRS是貢獻最大的風險因素（圖2A）。圖2B–D顯示了訓練數據集，測試數據集和整個數據集的預測曲線。預測曲線與訓練數據集，測試數據集和整個數據集的真實曲線不太吻合，特別是對於10年總生存期的校準曲線。訓練數據集，測試數據集和整個數據集的決策曲線如圖2E所示。對於所有患者治療方案或無治療方案來說，列線圖顯示的預測總體存活率情況高於其他決策曲線。在訓練組，測試組和整個組中，本文的列線圖模型預測整體生存率的C指數分別為0.633、0.641和0.652。

圖2 改進後列線圖預測訓練集中的患者1年，3年，5年總體生存率

4. 高和低IRRS患者之間的免疫狀況

為了進一步表徵和了解高和低IRRS患者之間的生物學和臨床差異，本文對TCGA數據集進行了分層分析，該數據集由1095例乳腺癌患者組成。使用從訓練數據集中獲得的公式，將TCGA數據集中的患者分為高或低IRRS組。圖3A中的熱圖顯示了訓練數據集顯示的兩種不同的免疫細胞浸潤模式。使用TCGA數據集進行的生存分析顯示，這兩種乳腺癌亞型的總體生存率存在顯著差異（圖3B）。IRRS低的患者的預後要好於IRRS高的患者，這與訓練數據集，測試數據集和整個數據集的結果一致。

就乳腺癌亞型而言，具有Lum B亞型的患者在5種亞型中的IRRS值最高，而在正常亞型的患者在5種亞型中的IRRS值最低（圖3C）。Kruskal–Wallis檢驗證實了五種乳腺癌亞型的IRRS值存在顯著差異。本文研究了IRRS亞型中乳腺癌亞型的分布，並觀察到內在乳腺癌亞型方面的不平衡（圖3D）。與Lum B腫瘤的58.64％高IRRS值相比，Basal樣腫瘤的高IRRS值為26.74％，富含Her2腫瘤的高IRRS值為20.55％，Normal-like腫瘤的高IRRS值為26.81％。有研究發現富含Her2乳腺癌和Basal樣腫瘤傾向於具有更高的免疫浸潤率，這可能是富含Her2的腫瘤和基底樣腫瘤的高IRRS亞型較低的原因。

本文重點研究了IRRS值與免疫相關特徵之間的相關性。圖3E表明了IRRS值與CYT、基質評分、免疫評分、ESTIMATE評分和腫瘤純度相關。此外，根據Wilcoxon檢驗，兩種IRRS亞型在CYT、基質評分、免疫評分、ESTIMATE評分和腫瘤純度方面存在顯著差異。PD-1、PD-L1、CTLA-4的表達水平與TCGA數據集的IRRS值之間成負相關關係（圖3E）。由於已知STING控制應答中先天免疫基因的誘導，因此還研究了STING的表達水平與IRRS值之間的相關性。發現STING的表達水平與IRRS之間存在中等的Spearman相關性（圖3E）。成纖維細胞在對組織損傷的許多免疫反應和炎症反應中起輔助細胞的作用。IRRS值與成纖維細胞信號的ssGSEA得分之間存在中等Spearman相關性（圖3E）。

利用GSEA進行了28個免疫細胞標記，以闡明在腫瘤微環境中哪些特徵被富集（圖3F）。在低IRRS亞型中高度表達的基因在多個T細胞特徵中表現出明顯的富集，例如1型T輔助細胞、T濾泡性輔助細胞、自然殺傷性T細胞、活化的CD4 + T細胞、活化的CD8 + T細胞、效應記憶 CD8 + T細胞、調節性T細胞和γδT細胞。此外，圖3G和圖3H顯示了在低IRRS亞型中高表達的基因在多種免疫相關方面表現出顯著的富集，例如免疫耐受、免疫記憶、淋巴細胞計數、B淋巴細胞亞群、淋巴細胞亞群和T淋巴細胞輔助誘導物。

為了研究低和高IRRS亞型之間的轉錄差異，篩選了它們之間的差異表達基因。通過使用logFC> 1.5和FDR值<0.05的臨界值，總共鑑定出570個上調的差異表達基因。GO條目的生物學過程主要集中在免疫相關過程中，例如免疫應答、適應性免疫應答、T細胞活化、免疫應答調節、淋巴細胞介導的免疫和淋巴細胞活化調節。KEGG通路富集分析顯示，這些差異表達的基因主要富集於免疫相關類別，例如Th17細胞分化，Th1和Th2細胞分化，用於IgA產生的腸道免疫網絡和原發性免疫缺陷（圖3I）。

圖3 TCGA數據集中IRRS的臨床意義和免疫狀況

5. IRRS與抗腫瘤免疫，T細胞浸潤和抗腫瘤反應的相關性

cDC1細胞（傳統的1型樹突狀細胞）對於啟動CD8 + T細胞抵抗腫瘤抗原和通過產生CXCL10吸引腫瘤特異性CD8 + T細胞至關重要。CCL4和CCL5是已知的兩種細胞因子，它們通過刺激cDC1細胞中表達的CCR5來控制cDC1細胞向腫瘤的遷移。CXCR3、CXCL9和CXCL10是已知可控制T細胞遷移和自然殺傷（NK）細胞募集的細胞因子。在低IRRS亞型中CCL4、CCL5、CXCR3、CXCL9和CXCL10的表達水平較高，兩種IRRS亞型之間這些基因的表達水平差異具有統計學意義。還發現IRRS值與CCL4、CCL5、CXCR3、CXCL9和CXCL10之間存在顯著的負關聯。IRRS值與趨化因子之間的強負相關性表明，降低的IRRS值與TCGA乳腺癌患者的腫瘤免疫微環境中抗腫瘤免疫應答的增加有關。

為了闡明在腫瘤免疫微環境中IRRS值與T細胞浸潤和抗腫瘤反應之間的關係，本文通過T細胞浸潤和抗腫瘤反應的八個指標對來自TCGA數據集的具有高或低IRRS亞型的乳腺癌患者進行了特徵鑑定。對於T細胞浸潤信號和抗腫瘤反應信號的ssGSEA得分，IRRS低亞型的患者高於IRRS高亞型的患者。在TCGA數據集中發現IRRS值與T細胞浸潤信號的ssGSEA得分和抗腫瘤反應信號之間存在強烈的負相關性。在METABRIC數據集中顯示了類似的結果。

6. 高和低IRRS亞型患者的免疫細胞比例分析

本文研究了高和低IRRS亞型之間22種免疫細胞類型在免疫細胞比例方面的差異。通過使用具有1000個排列的CIBERSORT算法，可從歸一化的基因表達數據推斷22種浸潤免疫細胞的免疫細胞比例。這兩種IRRS亞型的腫瘤免疫細胞比例如圖4A所示，其分布如圖4B和C所示。低IRRS亞型的記憶B細胞、CD8 +T細胞、記憶CD4 +T細胞、激活的記憶CD4 +T細胞、卵泡輔助T細胞、γδT細胞、M1巨噬細胞、M2巨噬細胞和靜止樹突狀細胞比高IRRS亞型更高。（圖4C和D）。然而，高IRRS亞型的漿細胞、巨噬細胞M0、靜止的肥大細胞和肥大細胞的比例明顯高於低IRRS亞型（圖4C和D）。此外，在TCGA數據集中，不同的腫瘤浸潤免疫細胞的比例與IRRS值呈弱相關或中等相關，在METABRIC數據集中顯示了相似的結果。

圖4 TCGA數據集中高和低IRRS患者的免疫細胞比例分析

7. 通過復發風險評估IRRS

本文計算了TCGA數據集中每位乳腺癌患者的復發風險（ROR）評分。ROR評分可以在標準的臨床病理特性之上添加重要的預後信息。本文研究了IRRS值是否可以為ROR評分增加顯著的預後價值。低IRRS亞型ROR得分高於高IRRS亞型。IRRS值和ROR得分之間也證實了顯著的負相關性，在METABRIC數據集中顯示了相似的結果。

計算了淨重分類改進（NRI）和綜合歧視改進（IDI）以衡量風險模型的改進。當將IRRS值添加到ROR分數時，NRI為0.243（0.078-0.408），IDI為0.022（0.008-0.0366）。在TCGA數據集中，METABRIC數據集的NRI為0.229（0.141-0.319），IDI為0.008（0.0049-0.0128）。結果表明，IRRS值可顯著改善患者預後的分類。

8. IRRS模型對於治療的好處

在3個數據集中研究了IRRS對接受輔助化療的乳腺癌患者的預測價值：GSE18728，GSE5462和GSE20181。通過對GSE18728，GSE5462和GSE20181中的IRRS值進行成對比較，觀察到輔助化療前後患者之間的統計學差異（圖5A）。與配對化療組相比，接受輔助化療的乳腺癌患者IRRS值在統計學上顯著降低。接受輔助化療14天的乳腺癌患者的IRRS值高於接受輔助化療90天的配對患者，二者之間的差異是顯著的。根據患者對新輔助化療的反應，將GSE41998中的乳腺癌患者分為四類：進行性疾病（PD）、穩定疾病（SD）、部分反應（PR）和完全反應（CR）。圖5B表明，在GSE41998數據集中，CR / PR的乳腺癌患者的IRRS值顯著低於SD / PD的乳腺癌患者的IRRS值。

預測指標的確定對於制定免疫治療策略至關重要。使用接受抗PD-L1治療的尿路上皮癌數據集（IMvigor210）和接受抗PD-1和抗CTLA4治療的惡性黑色素瘤數據集（GSE91016）。將IMvigor210數據集和GSE91016數據集的患者分別分為高和低IRRS亞型。KM曲線顯示，在IMvigor210和GSE91061數據集中，IRRS亞型低的患者比IRRS亞型高的患者預後要好得多（圖5C）。與具有穩定或進行性疾病的患者相比，完全或部分緩解的患者的IRRS值顯著降低（圖5D）。

本文還驗證了IRRS值在預測癌症患者免疫療法反應中的有效性。對於每個對免疫治療有反應的數據集，評估了不同IRRS亞型的CR / PR和SD / PD分布。本文發現低IRRS亞型的患者對免疫治療的反應比高IRRS亞型的患者高（圖5E）。IMvigor210和GSE91061數據集中的瀑布圖也證實了IRRS值對檢查點免疫治療的預測值（圖5F）。

還使用IMvigor210和GSE91061數據集中的時間依賴性ROC分析評估了IRRS值在免疫治療益處中的預測潛力。IMvigor210數據集的總生存期預後模型的ROC曲線的AUC值1年為0.66、1.5年為0.64、2年為0.64、GSE91061數據集在1年為0.74、1.5年為0.69 、2年時為0.67（圖5G）。

圖5 IRRS模型對於治療的好處

9. XGBoost算法預測高和低IRRS亞型

為了建立可以預測乳腺癌的高IRRS和低IRRS亞型的分類器，本文應用了XGBoost算法來構建模型，並選擇23種免疫細胞類型的NES作為訓練中的參數數據集。在10倍交叉估值中，圖6A和B展示了SHAP圖和五個重要特徵對訓練數據集的貢獻。訓練數據集的整體準確性和AUC分別為86.98％和0.943（圖6C）。利用測試數據集評估該模型對新數據進行分類的性能。測試數據集的總體準確性和AUC分別為83.94％和0.947（圖6D）。通過XGBoost算法訓練TCGA和METABRIC數據集，並使用10倍交叉評估來評估該算法的性能。在TCGA數據集中，總體準確度和AUC分別為94.79％和0.987。在METABRIC數據集中，總體準確度和AUC分別為86.12％和0.938。

圖6 XGBoost算法的預測結果

結語

文章建立了針對乳腺癌的免疫相關風險評分（IRRS），突出了列線圖中IRRS對乳腺癌的預測能力，證明了IRRS在乳腺癌中的預後意義和免疫基因組重要性，強調了IRRS對於接受化學療法和免疫療法的患者的重要性。文章全面的分析了公共資料庫中現有的乳腺癌數據，分析方法具有系統性、全面性以及創新型，值得深入學習借鑑。

研究中存在以下不足之處：1. 研究中使用的大量乳腺癌患者是從不同的公共數據集中收集的，數據集中可能存在顯著的異質性，但分析中未考慮乳腺癌的顯著腫瘤內或患者內異質性；2. IRRS僅使用了一系列免疫基因標記，這些標記對於乳腺癌患者特定免疫微環境的組成沒有特異性；3. 由於本文研究中使用的大多數乳腺癌數據集均不具有完整的臨床病理信息，因此不能確定IRRS是否是獨立的預後因素。

沃斯(WOSCI)由耶魯大學博士團隊匠心打造，專注最新科學動態並提供各類科研學術指導，包括：前沿科學新聞、出版信息、期刊解析、論文寫作技巧、學術講座、論文潤色等。

論文模板丨這篇8分+基於免疫細胞特徵預後模型

相關焦點

論文技巧丨免疫相關預後模型如何發4分+2區期刊?

10分鐘看完:雪梨科技大學入選 CVPR 2019 的 8 篇論文,都研究什麼?

阿里NIPS 2017 Workshop論文:基於TensorFlow的深度模型訓練GPU...

論文模板丨最基本的生信套路換了miRNA也能發6分+

4分+基於SEER資料庫挖掘原發性肝淋巴瘤的發病率、預後因素和生存...

TCGA腫瘤微環境+免疫細胞浸潤純生信思路

基於共刺激分子的純生信分析發2區5分+期刊

經典論文解讀 | 基於Freebase的問答研究

解密 NIPS2016 論文評議內幕(附 DeepMind 8 篇論文下載)

帶你讀論文丨 8 篇論文梳理 BERT 相關模型

注意力機制不能提高模型可解釋性?不,你這篇論文搞錯了

華氏巨球蛋白血症預後評分系統

騰訊AI Lab入選20篇論文,含2篇Spotlight

8 篇論文梳理 BERT 相關模型

引用次數最多的深度學習論文出自誰手?(無監督學習/生成模型篇)

引用次數最多的深度學習論文出自誰手?無監督學習/生成模型篇

阿里AAAI2018論文:將句法信息加入實體表示模型

NIPS 2018 | 騰訊 AI Lab 入選 20 篇論文,含 2 篇 Spotlight

RIID知識追蹤(一)基於NN方法的SAKT模型(含論文及代碼實現)

「基於的」這個論文題目濫用了嗎？