GDC是Genomic Data Commons
的縮寫,是由美國國家癌症研究所NCI建立的一套癌症數據共享系統,整合包括TCGA
在內的多個癌症資料庫中的信息,提供了癌症數據的統一存儲,管理,展示,將數據與世界範圍內的癌症基因組學研究者共享,網址如下
https://portal.gdc.cancer.gov/
數據來源於以下多個大型癌症研究組織和項目
Foundation Medicine(FM)
Clinical Proteomic Tumor Analysis Consortium(CPTAC)
THe Cancer Genome Atlas(TCGA)
Therapeutically Applicable Research to Generate Effective Treatments (TARGET)
Human Cancer Model Initiative (HCMI)
以上只是部分來源信息,而且還在陸續更新,以後也會有新的來源數據整合到GDC
中。當然,到目前為止,該資料庫中最大的數據依然是來自TCGA
的數據。
為了方便管理如果大量的數據,建立了一個統一的數據模型,如下所示
最高層級為program
,對應不同的數據來源,如TCGA
, TARGET
等;第二層為project
, 代表一系列患者對應的;第三層為case
,代表的是同一個患者的所有相關數據,包括SNV, CNV,基因表達譜等多種數據,需要注意的是case
和sample
是一對多的關係,一個患者可以取多份樣本;最後一層是每個case
相關的數據,即Files
, 數據類型是多種多樣的,包括序列,基因表達譜,SNV, CNV, 甲基化,臨床信息等多種數據。
以上只是個人總結的簡化版的模型,便於理解資料庫中的信息,實際包含的數據類型更多,模型也更加複雜。資料庫的首頁提供了以下多個導航欄
可以查看所有項目的數據,也可以通過左側的篩選框進行篩選,project相關屬性如下所示
primary site
表示樣本對應的組織,program
表示數據來源,disease type
表示腫瘤類型,data category
表示數據類型,比如序列,SNV, CNV等等,experimental Strategy
表示實驗類型,比如轉錄組,WGS, 甲基化晶片等。
表格形式的結果示意如下
第一列的project id由program加上腫瘤對應編碼構成,腫瘤名稱和編碼的對應關係部分展示如下
點擊project id可以查看summary信息,以TCGA-BRCA
為例,示意如下
這部分支持從以下3個方面來查看和篩選數據
Cases
Genes
Mutations
Cases相關的屬性如下
Genes相關的屬性如下
Mutations相關的屬性如下所示
以Cases
為例,結果示意如下
點擊第一列的case id,可以查看summary信息。除此之外,還提供了OncoGrid
功能,對top50個突變基因的SNV, CNV在top200個cases中的分布進行可視化,示意如下
這部分對於篩選出的數據進行以下兩種分析
venn analysis
survival analysis
結果示意如下
這部分包含了所有可用下載的數據,可以從Files
和Cases
兩個方面來查看和篩選數據,Files
相關的屬性如下
以Files
為例,結果示意如下
通過點擊購物車圖標,可以將篩選好的數據集加入到到購物車,然後進行下載。對於感興趣的單個數據集,直接點擊網頁上的下載按鈕就可以下載了,但是對於數據量較大的數據集,就需要通過官方提供的客戶端軟體來下載。
·end·