摘要:
人類基因組研究已進入一個新時期,2003年4月14日正式發表了人類基因組全圖,到2006年初為止,GenBank中的DNA鹼基數目已達60億,DNA序列數目達到5千多萬。
如何分析這些基因數據,從中獲得生物結構、功能的相關信息是基因組研究取得成果的決定性步驟。基因組的研究也將全面進入信息提取和數據分析階段,即基因組信息學發揮重要作用的階段。
基因組信息學是生物信息學的核心。包括基因組信息的獲取、處理、存儲、分配和解釋。包括了兩層含義,一是對海量基因數據的收集、整理與服務;二是從數據中發現新的規律,也就是用好這些數據。
廣泛使用的基因序列比對和搜索軟體有Fasta ,Blast,以及多序列搜索工具Clustalw,Clustalx,這些基因組信息學軟體都已經在曙光伺服器上得到部署和應用,並有相應的成功案例。
曙光公司助力生物信息學的發展,可為基因組信息學研究提供系統的解決方案,包括相應的硬體平臺和軟體配置。
1.生物信息學和基因組信息學
生物信息學已成為整個生命科學發展的重要組成部分,成為生命科學研究的前沿。而基因組信息學是生物信息學的核心,生物信息學則以基因組信息學為基礎。
基因組信息學包括了基因組信息的獲取、處理、存儲、分配和解釋。有兩層含義,一是對海量基因數據的收集、整理與服務;二是從數據中發現新的規律,也就是用好這些數據。
生物信息學是把基因組 DNA序列信息分析作為源頭,找到基因組序列中代表蛋白質和 RNA基因的編碼區;同時,闡明基因組中大量存在的非編碼區的信息實質,破譯隱藏在 DNA序列中的遺傳語言規律;在此基礎上,歸納、整理與基因組遺傳信息釋放及其調控相關的轉錄譜和蛋白質譜的數據,從而認識代謝、發育、分化、進化的規律。
生物信息學利用基因組中編碼區的信息進行蛋白質空間結構的模擬和蛋白質功能的預測,並將此類信息與生物體和生命過程的生理生化信息相結合,闡明其分子機理,最終進行蛋白質、核酸的分子設計、藥物設計和個體化的醫療保健設計。
2.生物信息資料庫及其查詢
生物學中最重要的兩種物質有:DNA和蛋白質。DNA是一種由鹼基按一定規則排列而成的雙鏈結構生物大分子,這種鹼基排列順序就構成了生物的遺傳信息。蛋白質是由DNA根據鏈結構上的某些功能鹼基序列複製而成的具有特殊功能的生物大分子。生物基因包括DNA鏈上的鹼基及其排列順序。雖然鹼基的數目只有四種Adenine(A)、Cytosine(C)、Guanine(G)、Thymine(T),而它們在DNA上做各種有序的排列形成了生物的多樣性。所以對這種鹼基序列進行測序、編碼和研究是生物學研究最重要的工作。生物基因序列數據就是對於某一生物基因採用某種編碼方式編碼產生的數據。
近年來大量生物學實驗的數據積累,形成了當前數以百計的生物信息資料庫。它們各自按一定的目標收集和整理生物學實驗數據,並提供相關的數據查詢、數據處理的服務。隨著網際網路的普及,這些資料庫大多可以通過網絡來訪問,或者通過網絡下載。
這些生物信息資料庫可以分為一級資料庫和二級資料庫。一級資料庫的數據都直接來源於實驗獲得的原始數據,只經過簡單的歸類整理和注釋;二級資料庫是在一級資料庫、實驗數據和理論分析的基礎上針對特定目標衍生而來,是對生物學知識和信息的進一步整理。國際上著名的一級核酸資料庫有GenBank資料庫、EMBL核酸庫和DDBJ庫等;蛋白質序列資料庫有SWISS-PROT、PIR等;蛋白質結構庫有PDB等。國際上二級生物學資料庫非常多,它們因針對不同的研究內容和需要而各具特色,如人類基因組圖譜庫GDB、轉錄因子和結合位點庫TRANSFAC、蛋白質結構家族分類庫SCOP等等。