必看|關於生物信息資料庫的那些事兒,原來是這樣的

2020-10-11 啟帆醫學BioSCI

生物學已經積累了相當豐富多樣和複雜的數據。這些數據可以被分類,但相當難於綜合以及用公式進行描述。隨著生物學知識大量增加,要完成對數據的處理只能使用計算機。

國際上已建立起許多公共生物分子資料庫,包括基區組圖譜資料庫、核酸序列資料庫、蛋白質序列資料庫、生物大分子結構資料庫等。


這些資料庫由專門的機構建立和維護,他們負責收集組織、管理和發布生物分子數據,並提供數據檢索和分析工具,向生物學研究人員提供大量有用的信息,最大限度地滿足他們研究和應用的需要,為他們的研究服務。

但是資料庫充斥著生物信息的每個角落,要弄清楚這個主題,首先要解釋一下,在不同場合下「資料庫」的不同含義,主要包含4個方面


01

資料庫管理系統

DBMSs

資料庫管理系統(Database management systems , DBMSs)是管理數據的軟體系統,比如Oracle、MySQL、PostgreSQL、Sybase、DB2、MS SQL等等,其是資料庫的容器,是管理資料庫綜合軟體系統


02

資料庫模式

DATABASE SCHEMA

資料庫模式指特定資料庫的設計,也就是其內容的組織方式,就關係型資料庫來說,就是其表、表中的列,以及表之間關係的設計。

其可以在不同的資料庫管理系統中實現,可以重複使用,構建不同的資料庫應用


03

基於資料庫的網站

DATABASE WEB SITE

常被我稱為資料庫信息系統,其後臺以資料庫作為支撐,所有信息都存儲在資料庫中,通過網頁提供訪問接口,實現對信息的查詢管理,構成一個容易交互的信息系統。生物信息領域內常見的如:sFlyBase (http://flybase.org) ParameciumDB(http://paramecium.cgm.cnrs-gif.fr)等。

常說的生物信息資料庫資源,也通常指的是該類別的資料庫


04

資料庫

DATABASE

計算機中,其實任何以某種規則組織在一起的數據集,都可以稱為資料庫,比如經Formatdb格式化的fasta文件,就是Blast程序中所指的資料庫。

不過許多情況下都使用一個資料庫管理系統來組織數據,選擇一個資料庫管理系統,比如MySQL,設計好表、欄位建立資料庫模式,再將相關的數據存放進來,就是一個標準的資料庫。

生物信息學中資料庫模式

對於一個資料庫,資料庫管理系統是現成的,關鍵是學習如何使用,而對於業務本身,最為關鍵的就是資料庫模式的設計,然後才是按照這種方式來組織數據,訪問數據。

資料庫模式的設計關係到資料庫的可擴展性,可維護性,設計的不會有時會非常影響資料庫性能。所以其要符合相關的範式標準。

生物信息學領域,許多問題存在共性,比如基因組資料庫,我們如何來考慮諸多的數據,包括數據的各種屬性,數據之間的關聯設計出符合關係資料庫範式的模式來,是個很有挑戰的事情,即便你是資料庫專家,是生物信息方面的專家。

不過這樣的問題,已經有人給我們解決了,並且經過了很多的實踐,模式得到檢驗,也開發出了很多操作這些資料庫的工具,比如將不同格式的數據導入到資料庫中。


綜合的資料庫模式

1CHADO

GMOD旗下,訪問地址http://www.gmod.org/wiki/Chado,使用Postgres 資料庫管理系統。主要包括的模塊:

Ø Audit – for database audits 審計

Ø Companalysis – for data from computational analysis 數據分析

Ø Contact – for people, groups, and organizations 聯繫人、組、機構

Ø Controlled Vocabulary (cv) – for controlled vocabularies and ontologies 受控詞彙與基因本體

Ø Expression – for summaries of RNA and protein expresssion 基因表達

Ø General – for identifiers 基因功能鑑定

Ø Genetic – for genetic data and genotypes 基因型

Ø Library – for descriptions of molecular libraries 基因文庫

Ø Mage – for microarray data 晶片數據

Ø Map – for maps without sequence 圖譜

Ø Organism – for taxonomic data 物種分類數據

Ø Phenotype – for phenotypic data 表型數據

Ø Phylogeny – for organisms and phylogenetic trees 系統發育樹

Ø Publication (pub) – for publications and references 文獻

Ø Sequence – for sequences and sequence features 序列及其shujkctions 組織樣本資源


2BIOSQL

主頁 http://biosql.org/wiki/Main_Page ,支持MySQL, PostgreSQL, Oracle, HSQLDB等。

BioSQL is a generic relational model covering sequences, features, sequence and feature annotation, a reference taxonomy, and ontologies (or controlled vocabularies).

包含的模塊:

Ø Sequence 序列

Ø Sequence annotation 序列注釋

Ø Phylogeny 系統發育

Ø Publications 文獻


3ENSEMBL

詳細說明參見:http://www.ensembl.org/info/docs/api/funcgen/funcgen_schema.html


領域內的資料庫模式

Ø GFF資料庫,主要用於GBrowse

-Bio::DB::GFF

-Bio::DB::SeqFeature

Ø GO Gene Ontology 基因本體論資料庫,適合對於基因進行GO分類與統計;

Ø Taxonomy NCBI的物種分類資料庫,可以通過下載的DMP文件,反推得到;

Ø PFAM

Ø Gene NCBI基因資料庫

Ø KEGG

Ø SRS

Ø OBDA http://obda.open-bio.org

Ø Pearson Lab databases (seqdb, egads):ftp://ftp.virginia.edu/fastardb/


啟帆醫學BioSCI, 醫路漫漫,啟帆相伴,和小助理一起在科研的海洋裡乘風破浪,在論文的叢林裡百步穿楊,我可以,你也可以!

相關焦點

  • 必看| 關於生物信息資料庫的那些事兒,原來是這樣的
    國際上已建立起許多公共生物分子資料庫,包括基區組圖譜資料庫、核酸序列資料庫、蛋白質序列資料庫、生物大分子結構資料庫等。這些資料庫由專門的機構建立和維護,他們負責收集組織、管理和發布生物分子數據,並提供數據檢索和分析工具,向生物學研究人員提供大量有用的信息,最大限度地滿足他們研究和應用的需要,為他們的研究服務。
  • 生物信息學之 生物資料庫
    NCBI GenBank(http://www.ncbi.nlm.nih.gov/)由美國國家生物技術信息中心(National Center for Biotechnology Information,NCBI)開發並負責維護。
  • 還在找資料庫?扒一扒國外重要的生物信息中心
    寫在前面資料庫是一切生物信息學工作的出發點。大量資料庫集中在一些國際或國家的生物信息中心。這些中心一般還提供資料庫檢索服務、檢索工具和各種免費軟體。因此,小助理會分別介紹一批較為重要的國際和國內的生物信息中心和網點。所謂「重要」,當然是相對而言。
  • 關於半導體晶片的那些事兒
    關於半導體晶片的那些事兒 功率半導體那些事 發表於 2020-11-19 15:04:04 半導體材料有著其獨特的電性能和物理性能,使得半導體器件和電路具有對應的功能
  • 【收藏版】生物信息學資料庫大全
    http://www.fgsc.net/ 原生生物和線蟲基因組: ★歐洲生物信息研究所EBI的原生生物網頁: http://www.ebi.ac.uk/Projects/Protozoa/ ★ AceDB,線蟲綜合資料庫。
  • 生物信息學資料庫大全
    http://www.fgsc.net/ 原生生物和線蟲基因組: ★歐洲生物信息研究所EBI的原生生物網頁: http://www.ebi.ac.uk/Projects/Protozoa/ ★ AceDB,線蟲綜合資料庫。
  • 生物信息神奇網站系列(十):生物資料庫集合
    生物軟體與生物資料庫是做生物信息兩大利器,前面我們介紹了生物軟體集合網站omictools與mybiosoftware。
  • 關於梅毒,那些你不知道的事兒
    關於梅毒,那些你不知道的事兒 2020-11-30 14:07 來源:澎湃新聞·澎湃號·湃客
  • 關於質譜使用的那些事兒
    那今天就來聊聊質譜使用過程中的那些事兒。 前一陣在社交媒體上看到這樣一句話,分享給大家「Without a goodscientist, your 500K mass spec will just be a bigexpensive brick」, 意思就是說,如果沒有一個很好的操作者,質譜就只是一個昂貴的擺設。
  • 民法典 | 關於飼養動物的那些事兒
    民法典 | 關於飼養動物的那些事兒 2020-11-18 17:04 來源:澎湃新聞·澎湃號·政務
  • 8月關於中韓機票的那些事兒
    我在之前的一篇文章《關於中韓兩國機票的那些事兒》已經全面介紹了目前的留學機票及航班現狀,整體來講是樂觀的。那麼目前的發展也印證了這種樂觀的看法。到了7月底,各個航空公司又公布了8月份的航班計劃,有小夥伴要問了:「現在都買不到8月份的票,公布航班計劃還有用嗎?」
  • 植物科學常用資料庫和生物信息學工具
    在所有開展植物科學相關研究的科研工作者的日常中,無法避免會使用到各類資料庫和分析平臺。這些資料庫和分析平臺的建立和更新維護為植物的組學、功能、進化以及遺傳育種等方面研究提供了豐富的資源。以下是一些植物科學常用的資料庫和生物信息學工具,分享給大家,希望對大家有用。
  • 美軍生物資料庫編織無形大網
    在過去數年間,駐伊拉克和阿富汗的美軍已建立起規模龐大的資料庫,記錄了上百萬人的體徵信息。今年4月發生在阿富汗的一次越獄中,部分逃亡嫌犯滿以為自己從此逍遙法外;但隨後發生的事實表明,在美軍強大的生物資料庫面前,他們無所遁形。
  • 免費資源丨超實用的生物信息學資料庫挖掘教程大禮包分享
    然而,並不是每一個人都有這樣的條件。很多的臨床醫生並沒有自己的專屬實驗室、也沒有基金,更沒有大量的時間投入到科研項目中。然而,如果我們可以充分的分析總結別人的實驗成果,也不難從中發現前人未發現的現象和結論,不失為一種不用做實驗就能發文章的門路。我們熟知的Meta薈萃分析就是屬於此種研究類型。
  • 高中生物:輕鬆搞定「細胞膜」的那些事兒
    關於細胞膜的那些事。3.進行細胞間信息交流相鄰細胞間形成通道使細胞相互溝通,通過攜帶信息的物質來交流信息。如:植物細胞間的胞間連絲。二、【實驗】製備細胞膜的方法1.選材:哺乳動物成熟的紅細胞。多大點事兒,這不就齊活啦~
  • 植物科學常用資料庫和生物信息學工具
    我們轉載了來自Mol Plant植物科學公眾號的收集和整合的《植物科學常用資料庫和生物信息學工具 2020正式版》分享給大家。http://bigd.big.ac.cn/databasecommons/國家基因庫下屬資料庫,涵蓋各種生物的全面公開可用的數據信息https://www.ncbi.nlm.nih.gov/美國國家生物技術信息中心的生物醫學和基因組信息門戶網站
  • 沒錯,你就缺一個這樣的circular RNA資料庫
    小榴槤今天和大家分享一個circular RNA資料庫,小夥伴們如果有更好的查詢網站可以給我們留言奧,集思廣益,方便科研。中科院上海生科院計算生物所——德國馬普計算生物學夥伴研究所楊力教授團隊發布了升級版的circular RNA資料庫CIRCpediav2,該結果發表在學術期刊《Genomics Proteomics Bioinformatics》上。
  • 植物科學常用資料庫和生物信息學工具 2020正式版
    Mol Plant植物科學公眾號在今年6月份推出了《植物科學常用資料庫和生物信息學工具調研2020版》,收到大家的廣泛關注和積極評論,也被各大植物科學公眾號分享轉載。通過大家的交流和留言及MP團隊的後期收集,我們補充更新了一些沒有關注到的資源,進一步整合後推出《植物科學常用資料庫和生物信息學工具 2020正式版》分享給大家。
  • 常用資料庫和生物信息學工具,值得收藏
    https://www.agbiodata.org/農業生物資料庫和相關資源綜合平臺https://phytozome.jgi.doe.gov/pz/portal.html植物比較基因組學資源庫http://www.plantontology.org
  • 花草日誌 | 關于洋甘菊的那些事兒
    今天,就讓小森帶你了解關于洋甘菊的那些你不知道的事兒。它的名字源自希臘文,意指「地上的蘋果」,而其拉丁種名NobiliS意指高貴的花朵。傳說洋甘菊是用來貢獻給太陽神的,可以治療熱病,所以古埃及人認為它是屬於月亮的藥草。因為它有抗憂鬱、清涼溫和的作用,可以安撫易怒的情緒,所以它的花語是愈挫愈勇。