使用GDC在線查看TCGA數據

2020-10-18 生信修煉手冊

GDC是Genomic Data Commons的縮寫,是由美國國家癌症研究所NCI建立的一套癌症數據共享系統,整合包括TCGA在內的多個癌症資料庫中的信息,提供了癌症數據的統一存儲,管理,展示,將數據與世界範圍內的癌症基因組學研究者共享,網址如下

https://portal.gdc.cancer.gov/

數據來源於以下多個大型癌症研究組織和項目

  1. Foundation Medicine(FM)

  2. Clinical Proteomic Tumor Analysis Consortium(CPTAC)

  3. THe Cancer Genome Atlas(TCGA)

  4. Therapeutically Applicable Research to Generate Effective Treatments (TARGET)

  5. Human Cancer Model Initiative (HCMI)

以上只是部分來源信息,而且還在陸續更新,以後也會有新的來源數據整合到GDC中。當然,到目前為止,該資料庫中最大的數據依然是來自TCGA的數據。

為了方便管理如果大量的數據,建立了一個統一的數據模型,如下所示

最高層級為program,對應不同的數據來源,如TCGA, TARGET等;第二層為project, 代表一系列患者對應的;第三層為case,代表的是同一個患者的所有相關數據,包括SNV, CNV,基因表達譜等多種數據,需要注意的是casesample是一對多的關係,一個患者可以取多份樣本;最後一層是每個case相關的數據,即Files, 數據類型是多種多樣的,包括序列,基因表達譜,SNV, CNV, 甲基化,臨床信息等多種數據。

以上只是個人總結的簡化版的模型,便於理解資料庫中的信息,實際包含的數據類型更多,模型也更加複雜。資料庫的首頁提供了以下多個導航欄

1. project

可以查看所有項目的數據,也可以通過左側的篩選框進行篩選,project相關屬性如下所示

primary site表示樣本對應的組織,program表示數據來源,disease type表示腫瘤類型,data category表示數據類型,比如序列,SNV, CNV等等,experimental Strategy表示實驗類型,比如轉錄組,WGS, 甲基化晶片等。

表格形式的結果示意如下

第一列的project id由program加上腫瘤對應編碼構成,腫瘤名稱和編碼的對應關係部分展示如下

點擊project id可以查看summary信息,以TCGA-BRCA為例,示意如下

2.  Exploration

這部分支持從以下3個方面來查看和篩選數據

  1. Cases

  2. Genes

  3. Mutations

Cases相關的屬性如下

Genes相關的屬性如下

Mutations相關的屬性如下所示

Cases為例,結果示意如下

點擊第一列的case id,可以查看summary信息。除此之外,還提供了OncoGrid功能,對top50個突變基因的SNV, CNV在top200個cases中的分布進行可視化,示意如下

3. Analysis

這部分對於篩選出的數據進行以下兩種分析

  1. venn analysis

  2. survival analysis

結果示意如下

4. Repository

這部分包含了所有可用下載的數據,可以從FilesCases兩個方面來查看和篩選數據,Files相關的屬性如下

Files為例,結果示意如下

通過點擊購物車圖標,可以將篩選好的數據集加入到到購物車,然後進行下載。對於感興趣的單個數據集,直接點擊網頁上的下載按鈕就可以下載了,但是對於數據量較大的數據集,就需要通過官方提供的客戶端軟體來下載。

·end·

相關焦點

  • TCGA數據下載 | TCGAbiolinks、gdc-client、UCSC、官網等方式下載TCGA數據
    使用API (POST方法)或gdc客戶端工具。GDC的在線下載功能只適用於下載小的數據集,當需要下載數據量較大的TCGA數據時,必須藉助於GDC官方提供的客戶端工具gdc-client。官網:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
  • 使用TCGAbiolinks下載TCGA的數據
    Query和在線查詢類似,只不過是將網頁上的各種可選的屬性變成了對應的參數,基本用法如下所示以project為核心進行查詢, 其他參數用來對數據進行過濾,常用的有以下幾個參數查詢結果的基本單位為Files, 可以通過以下代碼進行查看datatable(getResults(query))結果是一個html的表格,通過網頁進行查看,每行代表一個表格,示意如下
  • 即搜即用的TCGA資料庫挖掘網站匯總
    >● Total RNA Sequencing● Array-based Expression● DNA Methylation● Copy Number這些數據可分為三個級別:1) level-1: 原始的測序數據(fasta,fastq格式等較為原始和粗糙的數據);2) level-2:比對好的bam文件;3) level-3:經過處理及標準化的數據
  • 六種查看衛星歷史影像數據方法
    同時,藉助城市應用區域現有較大比例尺的地形數據,對影像數據進行投影變換和幾何精校正,並從地形地圖上獲得境界、城市、居民點、山脈、河流、湖泊以及鐵路、公路等典型地貌地物信息和相應地名信息,進行相應的標註和整飾,製作城市數字正射影像圖。在做城市變遷分析時,歷史影像數據是一個非常重要的數據源,那麼這些歷史數據如何查看呢?本文將給大家介紹幾種可用的方法。
  • TCGA CNV全攻略
    值得注意的是,並不是只有TCGA利用了SNP6.這個晶片數據,著名的CCLE計劃也對一千多細胞系處理了SNP6.0晶片,數據也是可以下載的。具體數據處理流程見NIH的TCGA官網: https://docs.gdc.cancer.gov/Data/BioinformaticsPipelines/CNVPipeline/參考文獻:http://mcr.aacrjournals.org/content/12/4/485.longTCGA的CNV數據下載眾所周知,TCGA的數據的開放程度分成了4個等級
  • 查看監控各種數據!
    它就是LocaSpaceViewer軟體(簡稱LSV),中文名:圖新地球,純粹是我們中國人自主研發的GIS產品,道路地形查看精準無誤,對地圖需求的掌握遠勝過Google Maps,未來可能會銜接北鬥導航系統免費服務14億國人,而且上手比國外軟體要簡單得多,堪稱傻瓜式軟體一點不過分(親測感受)。
  • 六種查看衛星歷史影像數據方法,我敢說你肯定沒用過
    同時,藉助城市應用區域現有較大比例尺的地形數據,對影像數據進行投影變換和幾何精校正,並從地形地圖上獲得境界、城市、居民點、山脈、河流、湖泊以及鐵路、公路等典型地貌地物信息和相應地名信息,進行相應的標註和整飾,製作城市數字正射影像圖。在做城市變遷分析時,歷史影像數據是一個非常重要的數據源,那麼這些歷史數據如何查看呢?本文將給大家介紹幾種可用的方法。
  • 使用OncoLnc進行TCGA生存分析
    通過收集整理TCGA中不同腫瘤患者的生存數據和基因表達譜信息,OncoLnc提供了一個生存分析的web服務,對應文章的連結如下https://peerj.com/articles/cs-67/網址如下http://www.oncolnc.org/OncoLnc收集了TCGA中21種腫瘤,共8647個病人的生存數據
  • 一篇文章帶你查看並處理Pandas數據
    今天我們將一下如何查看Pandas中的各類數據以及對Pandas進行處理的一些方法,通過這些方法我們可以更快的掌握Pandas對數據進行處理:描述與統計函數應用修改列/行索引名稱類型的操作表合併的方式一、描述與統計有時會我們在獲取到數據之後,想要查看一下數據的簡單統計指標(比如最大值,最小值,平均值,中位數等等),如想要查看年齡的最大值,就可以直接對年齡這一列調用
  • 把tcga大計劃的CNS級別文章標題畫一個詞雲
    TCGA計劃官方文章在:https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga/publications全部的標題的英文很容易提取和整理,如下:Comprehensive
  • 南科大翟繼先團隊發布生物大數據在線分析平臺
    近日,南方科技大學生物系副教授翟繼先課題組發布可以方便快速查詢超過兩萬個公共RNA-seq文庫的在線資源,相關成果以「A comprehensive online database for exploring ~20,000 public Arabidopsis RNA-Seq libraries」為題發表在植物學領域知名學術期刊《分子植物》(Molecular Plant)
  • TCGA資料庫任意腫瘤任意基因,隨意分析
    5 這個數據能做到的太多,只要充分發揮想像力,所有的數據獲取方式見文末首先我們從UCSC Xena數據框下載pancancer的標準化後的表達譜和臨床資料讀取數據 這一步耗時較長(如果這個過程你的電腦hold不住了,可以直接用後面整理好的數據,開始作圖)rm(list = ls(
  • 如何使用Sequencher軟體查看DNA序列
    使用Sequencher軟體查看DNA序列使用Sequencher的方法步驟:A、查看峰圖或編輯打開軟體載入文件(abl格式)雙擊打開文件,可見序列信息點擊右上角的「show chromatogram」可見峰圖
  • 小程序流量主後臺數據查看功能
    1.流量主可在「數據統計」頁的」廣告數據「板塊,分廣告位查看每日的曝光量、點擊量以及收入數據。 2.流量主可在「數據統計」頁的「用戶數據-趨勢看板」板塊,查看廣告組件各關鍵指標的環/同比趨勢幅度
  • 「極簡Stata」查看數據集、數據清洗與統計描述
    1設定保存文件分析過程保存到工作文件夾的stat.log文件中,輸入:logusing stat.log, replace2查看數據集概況輸入:describe,short結果:如果想詳細查看某個變量,輸入:codebook age結果:3缺失值查看缺失值,輸入:ssc install mdesc *安裝mdesc命令mdesc結果:用每個缺失值的上一個值代替缺失值,輸入:foreach v in age bmi a b c x y
  • Q&A|如何使用表單數據地圖功能?
    這一期的Q&A我們來聊聊如何使用表單數據地圖功能。當你在表單中添加了「地理位置」欄位時,希望通過地圖查看整個區域或者全國各地點數據時,可以通過「數據地圖」功能實現。之前需要升級為付費版本才可以使用的「數據地圖」功能現在免費開放啦,一起看看使用方法吧~使用方法1.
  • 使用PCA可視化數據
    這很重要,因為正如我們將看到的,它允許我們在二維平面上可視化數據的分類能力。數據集讓我們來看看一個實際的例子。我們將使用PCA來探索乳腺癌數據集(http://archive.ics.uci.edu/ml/datasets/breast+cancer+wisconsin+(diagnostic)),我們使用下面的代碼導入該數據集。
  • 關於在線式UPS的使用技巧,你可能還不知道!
    在線式UPS使其逆變器一直處在運作的狀態,先由電路把外部交流電轉換成直流電,再由高質量的逆變器把直流電轉換成高質量的正弦波交流電,最後輸出給計算機。1、大多數小型在線式UPS電源,開機時需避免帶載啟動,網絡機房的UPS需進行全天的運作。
  • Yandex數據分析:報表大師的使用
    數據分析必不可少。Yandex報表大師是可以查看數據報告和分析數據的便捷工具。有了它,我們可以獲得所有廣告系列的詳細統計信息,並評估各個關鍵短語和廣告的效果。找到報表大師我們點擊廣告系列頁面上的查看統計信息連結(Статистика)或要查看所有廣告系列的統計信息,請在「我的廣告系列」頁面上,單擊「所有廣告系列的統計信息」Статистика по всем кампаниям. )。
  • AfreecaTV在線視頻
    服務◆- 您可以通過使用非洲鉻鑄鐵,這樣你可以看到,在電視上的智慧型手機裡面觀看的內容看電視。- 鉻鑄鐵僅支持現場直播。- 地面/有線,體育,動畫不應該在Chrome中查看轉換為版權問題。- 購買和使用的鉻鑄鐵更多的方法,請參閱以下網址。