如何從ENCODE資料庫中快速獲取組蛋白chip-Seq的可視化數據

2020-11-30 搜狐

原標題:如何從ENCODE資料庫中快速獲取組蛋白chip-Seq的可視化數據

在我們平時的科研中,常常需要知道自己研究的基因組區段是否位於一些調控元件上,如enhancer,promoter或者特定蛋白結合位點(如TFBS)等。ENCODE (Encyclopedia of DNA Elements) 作為DNA調控元件百科全書整合了14,046個來自不同組織或細胞系的各類實驗數據,並能通過UCSC genome browser快速可視化檢索結果。

下面的時間裡,編者就以檢索HEK293細胞中H3K27ac這個組蛋白為例,為大家介紹ENCODE數據可視化過程。

第一步:訪問ENCODE data portal主頁(https://www.encodeproject.org/)

如圖1,該頁面介紹了ENCODE project所包含的各種數據類型以及數據來源,想要訪問其中的數據,直接點擊「Get Started」 即可。

圖1,ENCODE data portal主頁

第二步:篩選感興趣實驗類型和細胞系

ENCODE data portal把數據按照矩陣格式存儲,方便用戶直接選取感興趣數據。如圖2,橫排顯示的是各種實驗類型,豎排顯示的是樣本素材信息。我們直接點擊橫排的Chip-Seq以及豎排的Homo sapiens,然後選取HEK293(紅色方框標註)。

圖2,數據篩選

第三步:選擇Chip-Seq目標蛋白類型

在第二步中,我們只是篩選到細胞系,這一步中,我們選擇目標蛋白類型。由於組蛋白標記往往可以指示enhancer,所以這裡我們以組蛋白為例進行檢索(如圖3)

圖3,選擇組蛋白

在完成以上篩選後,我們可以看到只有6個實驗數據保留。這6個數據就是符合我們要求的數據,直接點擊右上方「Visualize」就可以連結到UCSC genome browser。

第四步:控制UCSC顯示條目

連結到UCSC後,我們發現顯示效果並不理想。是因為UCSC會自動加上一些我們不需要的條目或者沒有按照我們喜歡的方式顯示條目。這就需要我們對有些條目進行處理。如圖4,右擊條目最左邊豎線可以選擇條目顯示類型,如不需要,可以選擇「hide track set」;

圖4;點擊紅色框控制條目顯示狀態

直接左鍵點擊該豎線可以對該條目的顯示內容做進一步的篩選,如圖5,我們選取H3K27ac和H3K4m3作為靶蛋白,只保留跟control相比有差異的peak,提交即可。

圖5,UCSC條目進一步篩選

第五步,get結果

一旦你完成了所有的篩選,UCSC會記住這些篩選條件,這個時候你只需要不斷地在基因組坐標欄輸入感興趣的基因組區段即可顯示篩選到的內容了,如圖6。

圖6,最後結果展示

寫在後面:

ENCODE是個非常龐大的資料庫,涵蓋了多種細胞及物種的數據,值得我們深入研究。小夥伴們趕快get起來這個龐大的數據資源吧~

轉自生信草堂

生信草堂

浙大生信博士團隊傾力打造的一個科研人員學習交流的公眾微信平臺。我們致力於科研社區服務,分享最前沿的科技進展,提供生信分析方法,解讀經典分析案例,公眾資料庫的挖掘和臨床數據統計分析。在此我們歡迎各位的加入!返回搜狐,查看更多

責任編輯:

相關焦點

  • 蛋白組學/代謝組學如何快速從主流資料庫中獲取人/小鼠數據?
    隨著生物科技的迅速發展,每天都會有海量的生物學數據產生,如何有效的分析這些「生物學大數據」? 本次分享的主題為:如何快速獲取海量數據? 如果是少量的序列數據,我們可以通過一個個ID去查找,複製,粘貼方式保存到本地文件中。 但是如何大批量下載數據呢?
  • 蛋白組學/代謝組學如何快速從主流資料庫中獲取人/小鼠數據?
    隨著生物科技的迅速發展,每天都會有海量的生物學數據產生,如何有效的分析這些「生物學大數據」?生物信息學的應用變得尤為重要,在生物領域從基因測序,到基因編輯,再到基因療法的精準醫療,由生物科技引發的又一場變革正悄然而至。試問大家做好準備迎接它到來了嗎?本次分享的主題為:如何快速獲取海量數據?
  • 轉錄調控必知資料庫:ENCODE
    我們可以通過ENCODE資料庫來檢索自己想要的數據。就可以看到和CTCF相關的數據集了。其中前四個是不同物種chip-seq的數據。這裡會顯示不同的組織的數據,我們可以選擇想要查看的組織類型進行查看。對於不同的檢索方式,我們都能到具體數據集內容介紹裡面。對於數據介紹基本格式基因相同,這裡我們就用:ENCSR331OGX這個CTCF相關的chip-seq數據來簡單介紹一下。
  • Chip-seq簡介
    染色質免疫共沉定技術,可以研究生物體內DNA與蛋白質的相互作用,首先在活細胞內固定DNA與蛋白結合的複合體,然後用蛋白特異性的抗體,通過抗原抗體特異性結合的免疫學手段捕獲該複合體,然後洗脫蛋白質,得到與目的蛋白結合的DNA片段,將富集到的DNA片段進行上機測序,即形成了一套成熟的分析流程,稱之為chip-seq, 就是將傳統的chip技術和高通量測序結合起來,對應的英文如下
  • ChIP-Seq數據中包含了spike-in怎麼分析
    其中的每一步都是一點點探索出來的什麼是Chip-Seq中的spike-in可以參考:https://www.activemotif.com/catalog/1091/chip-normalizationChIP-Seq方便了在基因組區域對轉錄因子結合位點以及組蛋白轉錄後修飾的探索,但技術本身是半定量的,不能準確地比較樣本與樣本的結合豐度。
  • 一庫在手,Chip測序分析不再愁 —ChIP-Atlas公共資料庫
    ChIP-Atlas集成了海量的公共ChIP測序資源,涵蓋了提交給NCBI,DDBJ或ENA的SRA(序列讀取檔案)的幾乎所有公共ChIP-seq數據
  • 綜述科普|染色質調控區域的研究:對CHIP-seq和ATAC-seq發展的深入思考
    2.用於檢測組蛋白修飾的抗體對於許多表觀遺傳染色質測序技術是必不可少的:例如,在CHIP-seq中,需要對組蛋白和轉錄因子進行抗體特異性檢測。3.組蛋白修飾的異染色質形成和擴散機制以及組蛋白修飾的「記憶」和「消退」的研究還很少。
  • ChIP-seq在全基因組範圍內檢測與組蛋白、轉錄因子互作的DNA區段
    在全基因組範圍內檢測與組蛋白、轉錄因子互作的DNA區段。這需要染色質免疫共沉澱技術ChIP結合第二代測序技術(高通量測序),組合起來就是ChIP-seq。ChIP-seq,指的是結合位點分析法,作用為研究體內蛋白質與DNA相互作用。染色質免疫共沉澱技術(Chromatin Immunoprecipitation,ChIP)也稱結合位點分析法,是研究體內蛋白質與DNA相互作用的有力工具,通常用於轉錄因子結合位點或組蛋白特異性修飾位點的研究。
  • 歷時17年ENCODE計劃三期完工,近百萬人類基因組調控元件被發現
    ENCODE計劃的第二階段和第三階段在500多種細胞類型和組織中共計進行了9,239項實驗(其中人類7,495項,小鼠1,744項),包括對轉錄區域、轉錄本可變剪接、蛋白/轉錄因子結合區域、組蛋白修飾區域、開放染色質區域,以及染色質三維相互作用區域。所有這些實驗結果都可以在ENCODE官網獲取(http://www.encodeproject.org)。
  • Juicebox:Hi-C數據可視化利器
    Juicer軟體運行之後會得到後綴為hic的結果文件,該文件可以導入到juicebox這個工具中進行可視化。軟體也內置了ENCODE的數據集,示意如下雙擊即可導入,導入之後的界面如下通過簡單的操作就可以查看和展示Hi-C圖譜了,除了這些基本功能外,還支持導入注釋文件,通過View->Show Annotation Panel可以打開注釋文件面板,注釋信息分為1D和2D的兩種,1D的主要指的是chip_seq,RNA_seq等信息,2D指的是TAD,染色質環等信息,通過Load ENCODE
  • 常用生物資料庫大合集
    MGD : http://www.informatics.jax.org/ 小鼠基因組2.蛋白資料庫UniProt :https://www.uniprot.org/   蛋白信息SMART : http://smart.embl-heidelberg.de/  信息/結構域/修飾/互作CR2Cancer : http://cis.hku.hk/CR2Cancer
  • QB |了解Cistrome DB資料庫和Toolkit使用教程
    We also describe the use of the Toolkit module to seek the factors most likely to regulate a gene of interest, the factors that bind to a given genomic interval (enhancer, SNP, etc.), and samples that
  • 我國科學家實現單細胞表觀組學新突破:兩種革新單細胞ChIP-seq技術...
    多細胞生物體由具有相同基因組的不同細胞類型組成,在器官組織發育過程中,細胞狀態和細胞命運決定的機制一直是領域普遍關心的問題。無論在發育過程還是疾病狀態下,表觀遺傳因素(不改變DNA序列的情況下卻能引起基因表達變化或表型)在細胞命運決定中起著指導性作用。細胞類型和功能異質性往往通過調控基因表達來實現。
  • 單細胞轉錄組+蛋白組+bulk RNAseq!多組學繪製全面肺衰老圖譜
    圖2 | 隨著年齡增長大多數細胞類型的轉錄噪聲增加 2、mRNA和蛋白的數據整合 為了驗證單細胞RNA測序(scRNA-seq)數據的完整性,以及肺部mRNA和蛋白含量隨年齡的變化,作者又分別取了6個(每組
  • 單細胞轉錄組+蛋白組+bulk RNAseq!多組學繪製全面肺衰老圖譜
    圖2 | 隨著年齡增長大多數細胞類型的轉錄噪聲增加2、mRNA和蛋白的數據整合 為了驗證單細胞RNA測序(scRNA-seq)數據的完整性,以及肺部mRNA和蛋白含量隨年齡的變化,作者又分別取了6個(每組3個重複)和8個(每組4個重複
  • 科研乾貨丨外泌體資料庫你知道多少?
    EVpedia-外體蛋白質組、轉錄組和脂質體資料庫EVpedia是由韓國項浦大學創建的一個完整而全面的蛋白質組、轉錄組和脂肪體資料庫,其來源於古菌、細菌和真核生物,包括人類。ExoCarta的一個典型特點就是具有外泌體蛋白動態的蛋白與蛋白之間相互關係網以生物學通路。用戶可以從大量的研究中下載最常用的蛋白數據。下載的文件可用於進一步直接導入到FunRich工具,以便進行其他的功能富集和相互關係網分析。
  • 【收藏】生物資料庫大合集
    MGD : http://www.informatics.jax.org/ 小鼠基因組2.蛋白資料庫UniProt :https://www.uniprot.org/   蛋白信息SMART : http://smart.embl-heidelberg.de/  信息/結構域/修飾/互作CR2Cancer : http://cis.hku.hk/CR2Cancer
  • 染色質免疫共沉澱(ChIP)技術
    這種技術廣泛應用於檢測特定基因調節蛋白結合在基因組中的具體位置或者基因調節區域和蛋白的修飾是否相關。。因其能真實、完整地反映結合在DNA序列上的靶蛋白的調控信息,是目前基於全基因組水平研究DNA-蛋白質相互作用的標準實驗技術,日益成為研究真核細胞中轉錄調控情況的重要途徑。
  • 從數據分析到結論產生,談談scATAC-seq
    還開發了單細胞ATAC-seq(scATAC-seq)技術來研究包含異質細胞群體的組織樣本中細胞特異性染色質的可及性。然而,由於scATAC-seq數據固有的高噪聲和稀疏性,使得生物信號的準確提取和生物假設的有效制定變得困難。為了克服ScATAC-seq數據分析中的這些限制,在過去幾年中開發了新的方法和軟體工具。然而,關於scATAC-seq數據分析的最佳實踐還沒有達成共識。
  • 生物資料庫大合集還不趕快收藏起來!!!!
    MGD : http://www.informatics.jax.org/ 小鼠基因組2.蛋白資料庫UniProt :https://www.uniprot.org/   蛋白信息SMART : http://smart.embl-heidelberg.de/  信息/結構域/修飾/互作CR2Cancer : http://cis.hku.hk/CR2Cancer