有的人利用TCGA數據發了1-2分的SCI;有的人利用TCGA數據發了3-5分的SCI;現在有人利用TCGA數據發了12的SCI。這篇文章發表在Nat Commun上,該期刊屬於Nature子刊,影響因子:12.121,中科院分區:1區。文章作者分別來自於麻薩諸塞州波士頓大學、傑克遜基因醫學實驗室、耶魯大學醫學院,文章出處:PMID: 33311458,DOI: 10.1038/s41467-020-20030-5。
研究背景:
組織病理學圖像普遍用於研究癌症但尚未完全探索數據的類型。手動檢查非常耗時,因此很難用於圖像數據挖掘。在這裡,我們表明卷積神經網絡(CNN)可以系統地應用於各種癌症類型,從而能夠進行比較以揭示共享的空間行為。
研究方法和結果:
我們開發了CNN架構,以分析來自癌症基因組圖譜(TCGA資料庫)的27,815蘇木精和曙紅掃描圖像的腫瘤/正常,癌症亞型和突變分類。我們的CNN能夠對TCGA病理學家注釋的19種完整幻燈片圖像(WSIs)的腫瘤/正常狀態進行分類,並且AUC一致性較高(0.995 ± 0.008),雖然腫瘤亞型較低但也具有明顯的準確性(AUC 0.87 ± 0.1)。值得注意的是,在一種組織上訓練的腫瘤/正常CNN在其他組織上有效(AUC 0.88±0.11),並且分類器關係也概括了已知的腺癌,癌和發育生物學。此外,分類器比較揭示了幻燈片內的空間相似性,分類器對之間的平均圖塊級相關性為0.45±0.16。乳腺癌,膀胱癌和子宮癌的空間分布特別容易檢測,表明這些癌症可能是圖像分析的典型類型。還可以檢測到TP53突變的模式,WSI自組織和交叉組織AUC的範圍為0.65-0.80。最後,我們用病理學家標註的核對170個乳腺癌和結腸癌圖像上的CNN進行了比較評估,發現細胞和細胞間區域都有助於CNN準確性。
研究結論:
這些結果表明,CNN不僅對組織病理學分類具有強大的功能,而且還具有交叉比較的能力,可以揭示整個腫瘤的保守空間行為。
分析內容:
1、進行適用於腫瘤/正常組織的泛癌卷積神經網絡分類
2、進行癌症亞型的神經網絡分類
3、分析腫瘤類型之間的交叉分類的保守的空間行為,交叉分類關係概括了癌症組織生物學
4、使用CPTAC圖像驗證交叉分類關係
5、進行TP53突變分類的神經網絡比較
6、分析影響腫瘤純度預測的特徵
這類TCGA數據挖掘的特點往往如下:
1、分析方法高大上
2.數據難以獲取,普通人根本獲取不了,樣本量巨大(大於1萬)
3.需要強大的計算機資源(普通個人電腦根本完成不了)
4.需要雄厚的生信專業知識和計算機知識
5.需要有實力的團隊來完成,個人無法實現
6.科研經費充足