論文標題:Cistrome Data Browser and Toolkit: analyzing human and mouse genomic data using compendia of ChIP-seq and chromatin accessibility data (了解Cistrome DB資料庫和Toolkit使用教程)
期刊:Quantitative Biology
作者:Rongbin Zheng, Xin Dong, Changxin Wan, Xiaoying Shi, Xiaoyan Zhang, Clifford A. Meyer
發表時間:06 May 2020
DOI:10.1007/s40484-020-0204-7
摘要
The Cistrome Data Browser (DB) at the website (cistrome.org/db) provides about 56,000 published human and mouse ChIP-seq, DNase-seq, and ATAC-seq chromatin profiles, which we have processed using uniform analysis and quality control pipelines. The Cistrome DB Toolkit at the website (dbtoolkit.cistrome.org) was developed to allow users to investigate fundamental questions using this data collection. In this tutorial, we describe how to use the Cistrome DB to search for publicly available chromatin profiles, to assess sample quality, to access peak results, to visualize signal intensities, to explore DNA sequence motifs, and to identify putative target genes. We also describe the use of the Toolkit module to seek the factors most likely to regulate a gene of interest, the factors that bind to a given genomic interval (enhancer, SNP, etc.), and samples that have significant peak overlaps with user-defined peak sets. This tutorial guides biomedical researchers in the use of Cistrome DB resources to rapidly obtain valuable insights into gene regulatory questions.
微信連結:點擊此處閱讀微信文章
在真核生物細胞中,基因的表達過程是被精密地調控的,關於基因轉錄調控這一過程的分子生物學機制也一直是研究者們關心的問題,研究人員通常會從轉錄因子(Transcription Factor)、組蛋白修飾(Histone Modification)或染色體可及性(Chromatin Accessibility)的角度去探究某生物過程中基因表達發生變化的原因。人們開發了ChIP-seq技術來檢測轉錄因子在DNA上的結合位點,以及染色體上的組蛋白修飾位點;還開發了DNase-seq和ATAC-seq技術來觀察細胞內所有的開放染色體。隨著研究的不斷深入,越來越多的研究團隊和項目組產出了靶向各種轉錄因子或組蛋白修飾的ChIP-seq數據,以及DNase-seq和ATAC-seq數據,雖然這些數據的原始測序文件被要求上傳至可被公共訪問的數據倉庫中(如GEO),然而對於很多沒有計算生物學相關專業技能的生物學家而言,利用這些公共數據來進行基因轉錄調控分析具有一定挑戰;另一方面,儘管這些數據已有的分析結果也可被獲取,但數據產出者們所使用的數據分析流程和方法可能並不相同,使得數據相互之間的可比性不強。
為了解決這些問題,哈佛大學劉小樂教授課題組開發了Cistrome DB資料庫和Cistrome DB Toolkit,前者主要用於展示所收集和整理的公共可獲取的人和小鼠ChIP-seq、DNase-seq和ATAC-seq數據,這些數據的注釋信息均通過網絡爬蟲技術獲取,隨後原始數據文件被下載,並通過統一的生物信息分析流程處理,最終將結果展示於Cistrome DB中;後者主要基於所收集數據的分析結果為用戶提供搜索功能,以便用戶快速使用這些數據來回答他們的研究問題。近日,Cistrome DB資料庫的作者們在Quantitative Biology期刊上發表了題為「Cistrome Data Browser and Toolkit: analyzing human and mouse genomic data using compendia of ChIP-seq and chromatin accessibility data」的文章,文中介紹了Cistrome DB和Toolkit的構建方法和詳細的使用教程,並具體地描述了一些特定的使用場景,譬如該如何篩選有意義的數據等,文中也表達了Cistrome DB將被不斷地維護和更新,希望能為生物醫學領域提供有用的數據資源和分析工具的願景。
文章概要
【Cistrome DB介紹】
在Cistrome DB的主頁面上,作者們設計了多個控制項以滿足不同的數據搜索場景。第一種,用戶可通過關鍵詞搜索(如下圖所示),Cistrome DB允許用戶在關鍵詞輸入框輸入細胞系名稱、細胞類型名稱、組織名稱、轉錄調控因子或GEO樣本編號進行數據搜索。第二種,用戶可通過點擊單選框內條目進行數據搜索,Cistrome DB設計了三種單選框,分別是物種、生物來源和因子類型。用戶可組合三種單選框逐步篩選數據,也可在使用關鍵詞搜索後,進一步通過單選框篩選數據。更為有意義的是,Cistrome DB為每套數據均進行了六項的質量控制,包括原始測序質量、回帖率、FRiP、PBC、高質量peak數量、union DHS的重合率,搜索結果中紅色圓點表示該數據未通過該項,綠色則表示通過,因此樣本所得綠點越多則質量相對較好。此外,用戶還可探究每套數據的peak在啟動子、外顯子、內含子和基因間區域的分布情況,以及peak區域的平均保守性和peak中的轉錄因子motif情況。
【Cistrome DB Toolkit介紹】
目前,Cistrome DB已經含有人和小鼠共56,000多套數據,為了方便研究者們快速整合這些數據,驗證一些研究設想,Cistrome DB Toolkit應運而生,分別從三個層面設計搜索功能,以滿足快速數據整合的需求。第一,Toolkit從基因層面回答用戶「What factors regulate your gene of interest?」,在這個功能中,用戶可輸入任意的蛋白質編碼基因,Cistrome DB Toolkit可返回按照調控潛能排序好的轉錄因子列表,並且用戶可選擇僅關注啟動子調控,或是選擇包含增強子的調控。第二,Toolkit從單個基因組區段的層面回答「What factors bind on your interval of interest?」,用戶可輸入任意一段短於2Mb的基因組區域,Cistrome DB Toolkit會返回在該區域有peak的ChIP-seq、DNase-seq和ATAC-seq數據;研究者們可利用這一功能來研究增強子或非編碼RNA的調控,以及SNP可能影響的轉錄因子結合問題。第三,Toolkit從基因組片段集的層面幫助用戶回答「What factors have a significant binding overlap with your peak set?」,在此功能中,用戶可提交一個BED文件,該文件可以是某個轉錄因子ChIP-seq結果,則Cistrome DB Toolkit可幫助尋找到與該轉錄因子結合位點最相似的其他ChIP-seq數據,因而可用於尋找轉錄共調控因子;用戶也可提交如腫瘤和正常組織中的差異開放染色體區域,則此時Cistrome DB Toolkit可幫助尋找參與調控這些差異開放染色體區域的轉錄因子等。
Quantitative Biology期刊介紹
Quantitative Biology (QB)期刊是由高等教育出版社、清華大學和北京大學聯合創辦的全英文學術期刊。QB主要刊登生物信息學、計算生物學、系統生物學、理論生物學和合成生物學的最新研究成果和前沿進展,並為生命科學與計算機、數學、物理等交叉研究領域打造一個學術水平高、可讀性強、具有全球影響力的交叉學科期刊品牌。
為了促進本領域的學術交流,歡迎大家掃描下面二維碼進入《定量生物學》期刊交流群。
(來源:科學網)
特別聲明:本文轉載僅僅是出於傳播信息的需要,並不意味著代表本網站觀點或證實其內容的真實性;如其他媒體、網站或個人從本網站轉載使用,須保留本網站註明的「來源」,並自負版權等法律責任;作者如果不希望被轉載或者聯繫轉載稿費等事宜,請與我們接洽。