原標題:如何從ENCODE資料庫中快速獲取組蛋白chip-Seq的可視化數據
在我們平時的科研中,常常需要知道自己研究的基因組區段是否位於一些調控元件上,如enhancer,promoter或者特定蛋白結合位點(如TFBS)等。ENCODE (Encyclopedia of DNA Elements) 作為DNA調控元件百科全書整合了14,046個來自不同組織或細胞系的各類實驗數據,並能通過UCSC genome browser快速可視化檢索結果。
下面的時間裡,編者就以檢索HEK293細胞中H3K27ac這個組蛋白為例,為大家介紹ENCODE數據可視化過程。
第一步:訪問ENCODE data portal主頁(https://www.encodeproject.org/)
如圖1,該頁面介紹了ENCODE project所包含的各種數據類型以及數據來源,想要訪問其中的數據,直接點擊「Get Started」 即可。
圖1,ENCODE data portal主頁
第二步:篩選感興趣實驗類型和細胞系
ENCODE data portal把數據按照矩陣格式存儲,方便用戶直接選取感興趣數據。如圖2,橫排顯示的是各種實驗類型,豎排顯示的是樣本素材信息。我們直接點擊橫排的Chip-Seq以及豎排的Homo sapiens,然後選取HEK293(紅色方框標註)。
圖2,數據篩選
第三步:選擇Chip-Seq目標蛋白類型
在第二步中,我們只是篩選到細胞系,這一步中,我們選擇目標蛋白類型。由於組蛋白標記往往可以指示enhancer,所以這裡我們以組蛋白為例進行檢索(如圖3)
圖3,選擇組蛋白
在完成以上篩選後,我們可以看到只有6個實驗數據保留。這6個數據就是符合我們要求的數據,直接點擊右上方「Visualize」就可以連結到UCSC genome browser。
第四步:控制UCSC顯示條目
連結到UCSC後,我們發現顯示效果並不理想。是因為UCSC會自動加上一些我們不需要的條目或者沒有按照我們喜歡的方式顯示條目。這就需要我們對有些條目進行處理。如圖4,右擊條目最左邊豎線可以選擇條目顯示類型,如不需要,可以選擇「hide track set」;
圖4;點擊紅色框控制條目顯示狀態
直接左鍵點擊該豎線可以對該條目的顯示內容做進一步的篩選,如圖5,我們選取H3K27ac和H3K4m3作為靶蛋白,只保留跟control相比有差異的peak,提交即可。
圖5,UCSC條目進一步篩選
第五步,get結果
一旦你完成了所有的篩選,UCSC會記住這些篩選條件,這個時候你只需要不斷地在基因組坐標欄輸入感興趣的基因組區段即可顯示篩選到的內容了,如圖6。
圖6,最後結果展示
寫在後面:
ENCODE是個非常龐大的資料庫,涵蓋了多種細胞及物種的數據,值得我們深入研究。小夥伴們趕快get起來這個龐大的數據資源吧~
轉自生信草堂
生信草堂
浙大生信博士團隊傾力打造的一個科研人員學習交流的公眾微信平臺。我們致力於科研社區服務,分享最前沿的科技進展,提供生信分析方法,解讀經典分析案例,公眾資料庫的挖掘和臨床數據統計分析。在此我們歡迎各位的加入!返回搜狐,查看更多
責任編輯: