生物學已經積累了相當豐富多樣和複雜的數據。這些數據可以被分類,但相當難於綜合以及用公式進行描述。隨著生物學知識大量增加,要完成對數據的處理只能使用計算機。
國際上已建立起許多公共生物分子資料庫,包括基區組圖譜資料庫、核酸序列資料庫、蛋白質序列資料庫、生物大分子結構資料庫等。
這些資料庫由專門的機構建立和維護,他們負責收集組織、管理和發布生物分子數據,並提供數據檢索和分析工具,向生物學研究人員提供大量有用的信息,最大限度地滿足他們研究和應用的需要,為他們的研究服務。
但是資料庫充斥著生物信息的每個角落,要弄清楚這個主題,首先要解釋一下,在不同場合下「資料庫」的不同含義,主要包含4個方面:
01
資料庫管理系統
DBMSs
資料庫管理系統(Database management systems , DBMSs)是管理數據的軟體系統,比如Oracle、MySQL、PostgreSQL、Sybase、DB2、MS SQL等等,其是資料庫的容器,是管理資料庫綜合軟體系統。
02
資料庫模式
DATABASE SCHEMA
資料庫模式指特定資料庫的設計,也就是其內容的組織方式,就關係型資料庫來說,就是其表、表中的列,以及表之間關係的設計。
其可以在不同的資料庫管理系統中實現,可以重複使用,構建不同的資料庫應用。
03
基於資料庫的網站
DATABASE WEB SITE
常被我稱為資料庫信息系統,其後臺以資料庫作為支撐,所有信息都存儲在資料庫中,通過網頁提供訪問接口,實現對信息的查詢管理,構成一個容易交互的信息系統。生物信息領域內常見的如:sFlyBase (http://flybase.org) ParameciumDB(http://paramecium.cgm.cnrs-gif.fr)等。
常說的生物信息資料庫資源,也通常指的是該類別的資料庫。
04
資料庫
DATABASE
在計算機中,其實任何以某種規則組織在一起的數據集,都可以稱為資料庫,比如經Formatdb格式化的fasta文件,就是Blast程序中所指的資料庫。
不過許多情況下都使用一個資料庫管理系統來組織數據,選擇一個資料庫管理系統,比如MySQL,設計好表、欄位建立資料庫模式,再將相關的數據存放進來,就是一個標準的資料庫。
對於一個資料庫,資料庫管理系統是現成的,關鍵是學習如何使用,而對於業務本身,最為關鍵的就是資料庫模式的設計,然後才是按照這種方式來組織數據,訪問數據。
資料庫模式的設計關係到資料庫的可擴展性,可維護性,設計的不會有時會非常影響資料庫性能。所以其要符合相關的範式標準。
生物信息學領域,許多問題存在共性,比如基因組資料庫,我們如何來考慮諸多的數據,包括數據的各種屬性,數據之間的關聯設計出符合關係資料庫範式的模式來,是個很有挑戰的事情,即便你是資料庫專家,是生物信息方面的專家。
不過這樣的問題,已經有人給我們解決了,並且經過了很多的實踐,模式得到檢驗,也開發出了很多操作這些資料庫的工具,比如將不同格式的數據導入到資料庫中。
綜合的資料庫模式
1CHADO
GMOD旗下,訪問地址http://www.gmod.org/wiki/Chado,使用Postgres 資料庫管理系統。主要包括的模塊:
Ø Audit – for database audits 審計
Ø Companalysis – for data from computational analysis 數據分析
Ø Contact – for people, groups, and organizations 聯繫人、組、機構
Ø Controlled Vocabulary (cv) – for controlled vocabularies and ontologies 受控詞彙與基因本體
Ø Expression – for summaries of RNA and protein expresssion 基因表達
Ø General – for identifiers 基因功能鑑定
Ø Genetic – for genetic data and genotypes 基因型
Ø Library – for descriptions of molecular libraries 基因文庫
Ø Mage – for microarray data 晶片數據
Ø Map – for maps without sequence 圖譜
Ø Organism – for taxonomic data 物種分類數據
Ø Phenotype – for phenotypic data 表型數據
Ø Phylogeny – for organisms and phylogenetic trees 系統發育樹
Ø Publication (pub) – for publications and references 文獻
Ø Sequence – for sequences and sequence features 序列及其shujkctions 組織樣本資源
2BIOSQL
主頁 http://biosql.org/wiki/Main_Page ,支持MySQL, PostgreSQL, Oracle, HSQLDB等。
BioSQL is a generic relational model covering sequences, features, sequence and feature annotation, a reference taxonomy, and ontologies (or controlled vocabularies).
包含的模塊:
Ø Sequence 序列
Ø Sequence annotation 序列注釋
Ø Phylogeny 系統發育
Ø Publications 文獻
3ENSEMBL
詳細說明參見:http://www.ensembl.org/info/docs/api/funcgen/funcgen_schema.html
領域內的資料庫模式
Ø GFF資料庫,主要用於GBrowse
-Bio::DB::GFF
-Bio::DB::SeqFeature
Ø GO Gene Ontology 基因本體論資料庫,適合對於基因進行GO分類與統計;
Ø Taxonomy NCBI的物種分類資料庫,可以通過下載的DMP文件,反推得到;
Ø PFAM
Ø Gene NCBI基因資料庫
Ø KEGG
Ø SRS
Ø OBDA http://obda.open-bio.org
Ø Pearson Lab databases (seqdb, egads):ftp://ftp.virginia.edu/fastardb/
啟帆醫學BioSCI, 醫路漫漫,啟帆相伴,和小助理一起在科研的海洋裡乘風破浪,在論文的叢林裡百步穿楊,我可以,你也可以!