大家好,我是阿琛。還記得在三十六策中,酸菜老師總結在基礎科研中有四大金剛,分別是基因組學,轉錄組學,蛋白組學,以及代謝組學。而在近年來,隨著各個領域中大數據的迅速興起,人工智慧這一新興領域也得以快速發展,各種組學技術和分析算法的開發也同樣進入了快車道。
其中,人工智慧在影像診斷和病理分析領域中的應用更是得到了廣泛的關注。通過計算機來進行圖像特徵的提取與分析,進而輔助臨床診斷,具有較高的診斷準確性。2020年7月27號,來自歐洲分子生物學實驗室的研究團隊基於病理圖像識別,在Nature Cancer雜誌上發表了題為「Pan-cancer computational histopathology reveals mutations, tumor composition and prognosis」的最新研究成果。
1、背景介紹
首先,來介紹一下Nature Cancer雜誌。作為Nature旗下的新刊,其在線期刊於2020年1月份正式上線。儘管目前尚未進入SCI收錄,但是根據預測,1-2年內應該就會進入,且未來的影響因子應該不會低於Nature Communication。心動的小夥伴們也可以嘗試投稿一下哦~~
在本文中,作者通過深度轉移學習,量化了來自28種癌症類型,17,355個HE染色的組織病理圖像,並將其與匹配的基因組,轉錄組學和生存數據相關聯。結果顯示,這種方法可以準確地分類癌症類型,並提供空間分辨的腫瘤和正常組織的區別。
同時,計算組織病理學特徵與多種癌症類型的大量復發性遺傳畸變相關,包括發生在多種癌症類型中的全基因組重複,單個染色體非整倍性,病灶擴增和缺失以及驅動基因突變中表現出普遍特徵。而且,大量的基因表達水平和組織病理學之間存在廣泛的關聯,以及可以根據組織病理學亞型和分級提高預後。這些發現顯示了計算機視覺在表徵腫瘤組織病理學分子基礎方面的巨大潛力。
2、文章解讀
下面,我們一起來看下這篇文章的具體內容。
挑:泛癌H&E染色切片圖像的預處理與特徵提取
首先,作者獲取了17,396張H&E染色的組織切片,將圖像分割成1400萬256μm x256μm大小的圖像點,9754張腫瘤純度大於85%的切片按8:2的比例分成訓練組和驗證組,以便於後續模型的建立和驗證。通過深度轉移學習,最終得到了1536個神經元的輸出組成,並稱之為計算組織病理學特徵。其中,對於14例具有正常和腫瘤圖像的癌症,腫瘤/正常組織分類的平均AUC為0.99,表明在同一器官中,腫瘤與正常組織之間存在差異,具有很高的區分準確率。
同時,作者將該模型用來訓練區分不同的組織類別。結果顯示,模型網絡可以區分不同的正常組織類型,而不同腫瘤組織之間呈現聚集現象,且歐式距離顯著降低,這也說明了不同腫瘤組織之間表型和生物學特性趨於相似。
圈:基因組改變與組織病理學模式有關
組織特徵的改變,其本質歸結於內在基因表達的改變與變異。通過關聯分析,作者發現,許多癌症類型的一系列基因改變與計算組織病理學特徵之間存在廣泛的相關性,包括發生在多種癌症類型中的全基因組重複,單個染色體非整倍性,病灶擴增和缺失以及驅動基因突變中表現出普遍特徵。提取腫瘤細胞的特徵,結合其中一些典型基因DNA水平的改變,作者解釋了基因表達的變化可以反映具有不同形態特徵的不同類型的腫瘤細胞,比如在EGFR擴增的膠質母細胞瘤中,腫瘤細胞呈現小細胞的特性。
聯:轉錄組學關聯揭示了免疫浸潤和基質細胞類型
另一個影響癌症組織學的分子層面是轉錄組。除了腫瘤細胞,基因表達的變化還可以反映間質和浸潤性免疫細胞,這些細胞具有明顯的組織學特徵。因此,作者將每種癌症類型中計算組織病理學特徵與轉錄組表達數據相互關聯,以探究其中的相關性。
結果顯示,約25%的基因:癌症對之間存在顯著的關聯,其中相關基因最多的腫瘤類型是胸腺瘤(n=8,377)、肉瘤(n=8,359)和皮膚黑色素瘤(n=7,124),比如T細胞相關基因LCK、CD8A、CD247和CD4等與胸腺瘤的組織病理學密切相關。這反映了組織學通常反映腫瘤的成分和細胞類型,這種關係可以用計算機視覺和轉錄學來量化。
而且,組織病理學特徵的這一特性還可以延伸到分子關聯,如與炎性細胞浸潤的關聯,這似乎是各種癌症類型的主要特徵。13種癌組織的腫瘤浸潤淋巴細胞評分與組織學評分呈顯著正相關。當然,在大多數情況下,對淋巴細胞浸潤模式的預測相對一致,TIL呈分散分布,但在特殊情況下,信號經常局限於包含淋巴細胞聚集的區域內。
靠:各種癌症的預後影響
最後,作者利用18種不同癌症的計算組織病理學特徵,結合預後信息,建立了患者總生存期(OS)的預測模型。同時,Cox比例風險模型計算了PC-CHIP提供的預後信號,並評估了其單獨預測的準確性,以及與傳統組織病理學(分級和亞型)、臨床特徵(年齡、性別和癌症分期)以及轉錄本數據之間的相關性。
總體而言,18種癌症類型中有15種的計算組織病理學特徵與OS顯著相關。更重要的是,與通常用來評估預後的典型組織學亞型和分級相比,10/16的癌症類型的組織病理學特徵顯示出明顯的改善。即使進一步包括年齡、性別和腫瘤分期等臨床特徵,這種預後信號在這些癌症類型中的大多數仍然是可以測量的。
同時,為了進一步驗證組織病理特徵網絡模型的延伸性,作者將其用於了TCGA數據集和METABRIC數據集。在METABRIC和TCGA乳腺癌隊列中,包括TP53突變等的基因組改變被發現與樣本中的計算組織病理學特徵相關。而且,組織病理學特徵能夠預測腫瘤浸潤的淋巴細胞和預後的關聯性。在TCGA訓練數據中,該算法將病理切片上的壞死區和腫瘤浸潤淋巴細胞分別被認為是不利和有利的預後標誌。
好啦,整個文章就到此結束了。萬變不離其宗,雖然結合了最新的病理組學技術,但是仍包含在酸菜校長總結的「挑」、「圈」、「聯」、「靠」四字框架中,小夥伴們多多體會~~~
後臺私信【領書】即可免費領取《白話統計學》實體書一本