QB |了解Cistrome DB資料庫和Toolkit使用教程

2021-01-11 科學網
QB |了解Cistrome DB資料庫和Toolkit使用教程

論文標題:Cistrome Data Browser and Toolkit: analyzing human and mouse genomic data using compendia of ChIP-seq and chromatin accessibility data (了解Cistrome DB資料庫和Toolkit使用教程)

期刊:Quantitative Biology

作者:Rongbin Zheng, Xin Dong, Changxin Wan, Xiaoying Shi, Xiaoyan Zhang, Clifford A. Meyer

發表時間:06 May 2020

DOI:10.1007/s40484-020-0204-7

摘要

The Cistrome Data Browser (DB) at the website (cistrome.org/db) provides about 56,000 published human and mouse ChIP-seq, DNase-seq, and ATAC-seq chromatin profiles, which we have processed using uniform analysis and quality control pipelines. The Cistrome DB Toolkit at the website (dbtoolkit.cistrome.org) was developed to allow users to investigate fundamental questions using this data collection. In this tutorial, we describe how to use the Cistrome DB to search for publicly available chromatin profiles, to assess sample quality, to access peak results, to visualize signal intensities, to explore DNA sequence motifs, and to identify putative target genes. We also describe the use of the Toolkit module to seek the factors most likely to regulate a gene of interest, the factors that bind to a given genomic interval (enhancer, SNP, etc.), and samples that have significant peak overlaps with user-defined peak sets. This tutorial guides biomedical researchers in the use of Cistrome DB resources to rapidly obtain valuable insights into gene regulatory questions.

微信連結:點擊此處閱讀微信文章

在真核生物細胞中,基因的表達過程是被精密地調控的,關於基因轉錄調控這一過程的分子生物學機制也一直是研究者們關心的問題,研究人員通常會從轉錄因子(Transcription Factor)、組蛋白修飾(Histone Modification)或染色體可及性(Chromatin Accessibility)的角度去探究某生物過程中基因表達發生變化的原因。人們開發了ChIP-seq技術來檢測轉錄因子在DNA上的結合位點,以及染色體上的組蛋白修飾位點;還開發了DNase-seq和ATAC-seq技術來觀察細胞內所有的開放染色體。隨著研究的不斷深入,越來越多的研究團隊和項目組產出了靶向各種轉錄因子或組蛋白修飾的ChIP-seq數據,以及DNase-seq和ATAC-seq數據,雖然這些數據的原始測序文件被要求上傳至可被公共訪問的數據倉庫中(如GEO),然而對於很多沒有計算生物學相關專業技能的生物學家而言,利用這些公共數據來進行基因轉錄調控分析具有一定挑戰;另一方面,儘管這些數據已有的分析結果也可被獲取,但數據產出者們所使用的數據分析流程和方法可能並不相同,使得數據相互之間的可比性不強。

為了解決這些問題,哈佛大學劉小樂教授課題組開發了Cistrome DB資料庫和Cistrome DB Toolkit,前者主要用於展示所收集和整理的公共可獲取的人和小鼠ChIP-seq、DNase-seq和ATAC-seq數據,這些數據的注釋信息均通過網絡爬蟲技術獲取,隨後原始數據文件被下載,並通過統一的生物信息分析流程處理,最終將結果展示於Cistrome DB中;後者主要基於所收集數據的分析結果為用戶提供搜索功能,以便用戶快速使用這些數據來回答他們的研究問題。近日,Cistrome DB資料庫的作者們在Quantitative Biology期刊上發表了題為「Cistrome Data Browser and Toolkit: analyzing human and mouse genomic data using compendia of ChIP-seq and chromatin accessibility data」的文章,文中介紹了Cistrome DB和Toolkit的構建方法和詳細的使用教程,並具體地描述了一些特定的使用場景,譬如該如何篩選有意義的數據等,文中也表達了Cistrome DB將被不斷地維護和更新,希望能為生物醫學領域提供有用的數據資源和分析工具的願景。

文章概要

【Cistrome DB介紹】

在Cistrome DB的主頁面上,作者們設計了多個控制項以滿足不同的數據搜索場景。第一種,用戶可通過關鍵詞搜索(如下圖所示),Cistrome DB允許用戶在關鍵詞輸入框輸入細胞系名稱、細胞類型名稱、組織名稱、轉錄調控因子或GEO樣本編號進行數據搜索。第二種,用戶可通過點擊單選框內條目進行數據搜索,Cistrome DB設計了三種單選框,分別是物種、生物來源和因子類型。用戶可組合三種單選框逐步篩選數據,也可在使用關鍵詞搜索後,進一步通過單選框篩選數據。更為有意義的是,Cistrome DB為每套數據均進行了六項的質量控制,包括原始測序質量、回帖率、FRiP、PBC、高質量peak數量、union DHS的重合率,搜索結果中紅色圓點表示該數據未通過該項,綠色則表示通過,因此樣本所得綠點越多則質量相對較好。此外,用戶還可探究每套數據的peak在啟動子、外顯子、內含子和基因間區域的分布情況,以及peak區域的平均保守性和peak中的轉錄因子motif情況。

【Cistrome DB Toolkit介紹】

目前,Cistrome DB已經含有人和小鼠共56,000多套數據,為了方便研究者們快速整合這些數據,驗證一些研究設想,Cistrome DB Toolkit應運而生,分別從三個層面設計搜索功能,以滿足快速數據整合的需求。第一,Toolkit從基因層面回答用戶「What factors regulate your gene of interest?」,在這個功能中,用戶可輸入任意的蛋白質編碼基因,Cistrome DB Toolkit可返回按照調控潛能排序好的轉錄因子列表,並且用戶可選擇僅關注啟動子調控,或是選擇包含增強子的調控。第二,Toolkit從單個基因組區段的層面回答「What factors bind on your interval of interest?」,用戶可輸入任意一段短於2Mb的基因組區域,Cistrome DB Toolkit會返回在該區域有peak的ChIP-seq、DNase-seq和ATAC-seq數據;研究者們可利用這一功能來研究增強子或非編碼RNA的調控,以及SNP可能影響的轉錄因子結合問題。第三,Toolkit從基因組片段集的層面幫助用戶回答「What factors have a significant binding overlap with your peak set?」,在此功能中,用戶可提交一個BED文件,該文件可以是某個轉錄因子ChIP-seq結果,則Cistrome DB Toolkit可幫助尋找到與該轉錄因子結合位點最相似的其他ChIP-seq數據,因而可用於尋找轉錄共調控因子;用戶也可提交如腫瘤和正常組織中的差異開放染色體區域,則此時Cistrome DB Toolkit可幫助尋找參與調控這些差異開放染色體區域的轉錄因子等。

Quantitative Biology期刊介紹

Quantitative Biology (QB)期刊是由高等教育出版社、清華大學和北京大學聯合創辦的全英文學術期刊。QB主要刊登生物信息學、計算生物學、系統生物學、理論生物學和合成生物學的最新研究成果和前沿進展,並為生命科學與計算機、數學、物理等交叉研究領域打造一個學術水平高、可讀性強、具有全球影響力的交叉學科期刊品牌。

為了促進本領域的學術交流,歡迎大家掃描下面二維碼進入《定量生物學》期刊交流群。

(來源:科學網)

 

 

 

特別聲明:本文轉載僅僅是出於傳播信息的需要,並不意味著代表本網站觀點或證實其內容的真實性;如其他媒體、網站或個人從本網站轉載使用,須保留本網站註明的「來源」,並自負版權等法律責任;作者如果不希望被轉載或者聯繫轉載稿費等事宜,請與我們接洽。

相關焦點

  • 哈佛生信大牛劉小樂課題組資料庫教程集錦!總有一款你能用上
    劉小樂教授開發了很多生物信息工作者和生物方向研究者使用的網站和軟體,是大家口中的大神級人物,我們這次主要跟大家介紹一下劉小樂教授實驗室開發過的網站和軟體。TIMER2.0相對於TIMER來說最大的改變就是,TIMER只使用了一個單一的算法,當是在TIMER2.0使用了更多的更穩健的算法來評估TCGA資料庫或者使用者自己提交的表達數據,也就是結果更準確,更具有更可靠的生物學意義,而且TIMER這個版本1網頁長時間不點擊就會自動斷開。如Fig 7所示。
  • 蘋果重新開源分布式資料庫FoundationDB,已在內部使用三年
    策劃編輯|Natalie編譯|核子可樂FoundationDB 是「一個能在多集群伺服器上存放大規模結構化數據的分布式資料庫」。該資料庫系統專注於高性能、高可擴展性和不錯的容錯能力。這意味著使用該資料庫的項目運行起來更高效且維護成本低。
  • EggNOG功能注釋資料庫在線和本地使用
    xvzf 1.0.3.tar.gzcd eggnog-mapper-1.0.3軟體說明less README.md使用eggNOG資料庫進行功能注釋新基因、蛋白序列。euk: ~90GB細菌資料庫bact:~32GB古細菌資料庫arch:~10GB軟體安裝上面使用conda或wget下載方式安裝,還可選git方式git clone https://github.com/jhcepas/eggnog-mapper.git資料庫下載顯示程序幫助python eggnog-mapper
  • 常用生物資料庫大合集
    /cosmic/ 癌症體細胞突變資料庫二.樣本資料庫1.樣本存儲資料庫GEO : https://www.ncbi.nlm.nih.gov/geo/ (2020)大型/眾多疾病TCGA : https://portal.gdc.cancer.gov/ (2020)腫瘤ICGC : https://dcc.icgc.org (2020)腫瘤CGGA
  • 0064 關係資料庫的概念和安裝使用MySQL
    上2節課學習了如何使用PHP語言和數據文件來實現完整的一個信息管理功能網頁。這節課開始學習關係資料庫的概念,以及如何安裝和使用MySQL資料庫。關係資料庫的概念資料庫就是對數據進行結構化存儲和管理的倉庫。
  • 【收藏】生物資料庫大合集
    /cosmic/ 癌症體細胞突變資料庫二.樣本資料庫1.樣本存儲資料庫GEO : https://www.ncbi.nlm.nih.gov/geo/ (2020)大型/眾多疾病TCGA : https://portal.gdc.cancer.gov/ (2020)腫瘤ICGC : https://dcc.icgc.org (2020)腫瘤
  • PostgreSQL 摘得 DB-Engines 2020 年度資料庫
    年度 DBMS:PostgreSQLPostgreSQL 在 2017 和 2018 年曾獲得年度 DBMS 獎,加上今年的,它成為第一個三度獲得此殊榮的資料庫系統。PostgreSQL 以其穩定性和功能集而聞名和喜愛。最近的版本主要集中在引擎蓋的改進上,以提高其性能和效率。
  • 生物資料庫大合集還不趕快收藏起來!!!!
    /home/index.html 正常樣本Cistrome : http://cistrome.org/db/#/ (2020)表觀組數據ReMap : http://tagc.univ-mrs.fr/remap/index.php ChIPseq數據HMP : https://portal.hmpdacc.org/ 人類菌群數據PanglaoDB
  • Mysql(Mariadb)資料庫主從複製
    master二進位日誌文件發生變化,則會把變化複製到自己的中繼日誌中,然後slave的一個SQL線程會把相關的「事件」執行到自己的資料庫中,以此實現從資料庫和主資料庫的一致性,也就實現了主從複製。MySQL(MariaDB)具體詳細的安裝可以參考《Linux就該這麼學》教程的第十八章節,裡面內容寫的非常詳細,適合初學者,本文也比較適合企業應用。實現MySQL主從複製配置要求:主伺服器:1、開啟資料庫二進位日誌功能;2、配置資料庫認證唯一服務id;3、獲得主庫的二進位日誌文件名及位置;4、在主庫上面創建一個用於主庫和從庫通信的用戶帳號,安全管理。
  • 初識資料庫分庫分表框架Dbsplit
    如果你在尋找資料庫分庫分表的輕量級解決方案,請參考Dbsplit的實現和應用場景,它是一個兼容Spring JDBC的並且支持分庫分表的輕量級的資料庫中間件,使用起來簡單方便,性能接近於直接使用JDBC,並且能夠無縫的與Spring相結合,又具有很好的可維護性。
  • fastx_toolkit:處理fasta/fastq文件的小工具
    官網如下http://hannonlab.cshl.edu/fastx_toolkit官網提供了二進位可執行文件,直接下載即可wget http://hannonlab.cshl.edu/fastx_toolkit/fastx_toolkit_0.0.13_binaries_Linux
  • SQLyog怎麼使用 SQLyog資料庫工具使用教程
    SQLyog是一個易於使用的、快速而簡潔的圖形化管理MYSQL資料庫的工具,它能夠在任何地點有效地管理你的資料庫。  方法/步驟  雙擊SQLyog快捷方式  注意:  SQLyog是MySQL資料庫管理工具    先要連接上MySQL然後才能管理    點新建
  • 螞蟻分類信息網站搬家換空間教程,以本地為例
    我們搭建新站通常都是在本次測試二開後再上傳到伺服器或空間,這個過程怎麼處理資料庫配置是小白站長的首先需要了解的。設置域名配置、更新緩存恢復網站數據以後,首先設置網站域名替換備份數據裡本地測試 localhost 路徑管理後臺→系統→核心設置→系統配置→網站前臺配置→使用域名然後更新數據緩存,全部完成。
  • 解決戰神GM後臺工具查詢資料庫亂碼教程
    大家好,我是傳奇幫手遊的幫主,今天大家給大家分享的是傳奇幫365課-解決戰神GM後臺工具查詢資料庫全是亂碼的教程。學各種傳奇端遊,手遊傳奇等技術就到傳奇幫。錄製時間:2020年7月24日解決戰神GM後臺工具查詢資料庫亂碼教程
  • UniProt 資料庫介紹
    UniProt 是目前資源最豐富、使用頻率最高的蛋白序列資料庫,今天,我們就介紹下 UniProt 資料庫及其使用。1、資料庫介紹UniProt (The Universal Protein Resource) 是信息最豐富、資源最廣的蛋白質序列資料庫,整合 Swiss-Prot、TrEMBL 和 PIR 三大資料庫的數據而成。
  • 大數據挖掘——(六):MySql資料庫
    Perl、PHP、Eiffel、Ruby和Tcl等。(其他作業系統可以下載不同的MySQL版本)打開MySQL Workbench就可以建立我們的資料庫了。那如何利用Python來操作我們新建的資料庫,還好Python提供了MySQL的數據接口pyMysql模塊,可以使用pip install pymysql來安裝,或者在pycharm裡安裝,或者採用anaconda來安裝。
  • Oracle資料庫參數優化參考
    (中國軟體網訊)分析評價Oracle資料庫性能主要有資料庫吞吐量、資料庫用戶響應時間兩項指標。資料庫用戶響應時間又可以分為系統服務時間和用戶等待時間兩項,即:資料庫用戶響應時間=系統服務時間+用戶等待時間。
  • MySQL資料庫教程-數據表欄位約束
    MySQL資料庫教程-數據表欄位約束為保證資料庫中存儲數據的規範化,一般需要在定義欄位時進行欄位規範與約束的定義。保證在進行數據錄入時,資料庫能夠通過這個規則、約束、規範檢查所錄入的數據,防止錯誤及不符合要求數據的錄入。本文主要介紹數據表欄位約束類型及其基本語法,為下一步創建數據表提供基礎與依據。
  • SQL server資料庫存儲過程測試方法
    此次介紹如何使用原始的SQL環境來測試SQL存儲過程。  問題  如何創建SQL資料庫以及表結構以用來保存測試用例的輸入數據和測試結果。  設計  編寫T-SQL腳本,創建一個資料庫然後創建一些表用來保存測試用例的輸入數據和測試結果。
  • 宏基因組序列物種分類之kraken 1/2和Bracken的使用
    Kraken在序列比對環節基於精確k-mer匹配和精簡資料庫的方法,採取精確匹配,其核心是Kraken有一種特殊資料庫,用以預先計算序列中包含的特殊的Kmer序列。下面是來自kraken官網關於各分類器的測評結果: