最近,美國洛斯阿拉莫斯國家實驗室(LANL)的一個遺傳學小組和一國際財團聯合提出了一套旨在闡明可公開獲取的基因測序數據信息的質量標準。新標準最終可使遺傳研究人員開發出更有效的疫苗,或有助於公共健康部門或安全人員更迅速地應對潛在的公共衛生突發事件。
在10月9日的《科學》雜誌上,LANL遺傳學家派屈克·錢恩和他的同事提出了6個基因組測序數據標籤,可將基因測序數據按其完整性、準確性以及由此帶來的可靠性進行歸類。這些標籤可在公共資料庫中獲取,而目前使用的標籤僅為兩個。此項成果的重要性在於,研究人員必須每天使用這樣的數據,以對未知遺傳數據和已知生物體的遺傳數據進行相互參照,而有了這樣的新的分類標準,數據的獲取與對比工作的效率將大大提高。
每個生物體的細胞內都有DNA,由4個分子構建模塊(或稱鹼基對)組成,鹼基對排成特定序列時就可構成基因。這些基因序列可包含對生物體有益或有害的遺傳指令。基因組研究人員編目了數以千計的基因數據,並將其放在公眾資料庫中以供其他研究者使用。然而,由於基因數據的複雜性,公共資料庫中的遺傳信息範圍從粗略到精緻一概都有。過去,這些基因數據常被歸類為「草圖」和「成品」兩大類,給基因數據的準確性留下了太多的不確定性。
錢恩表示,在過去幾年裡,基因測序技術已取得重大進步,公眾可獲得的基因數據已呈爆炸性增長,每天產生的鹼基對序列數據量要比過去幾年產生的數據量還要多幾十億次。不同的測序技術具有不同的精確度。一個序列中的高度不確定性可能會引導研究人員走向一條耗時長達一年甚至數年的錯誤道路。因此,有必要建立一個標準,為研究人員提供對遺傳測序數據質量的明確評估。
錢恩聯合了大大小小的數個基因組測序中心,如美國能源部聯合基因組研究所、桑格研究所、人類微生物群系項目Jumpstart聯盟測序中心、密西根州立大學以及安大略省癌症研究所等,共同提議將現有的測序數據分類從兩大類充實為6大類。這6個標準涵蓋了從代表公眾提交最低要求的「標準草圖序列」到代表最高標準的「完成序列」,而「完成序列」的驗收標準是每10萬個鹼基對中最多只能包含一個錯誤。
LANL基因科學小組負責人、聯合基因組研究所LANL研究中心主任克裡斯·戴特表示,該項研究的目的是為了讓所有主要的基因組中心和基因組研究小組都能用上符合其需要的分類基因組測序數據。而為了儘可能保證基因組序列的完整性,一些較小的研究中心也可採用這個分類等級來建立和提交其研究成果,以幫助其他科學家了解既已完成的工作。
更多閱讀
特別聲明:本文轉載僅僅是出於傳播信息的需要,並不意味著代表本網站觀點或證實其內容的真實性;如其他媒體、網站或個人從本網站轉載使用,須保留本網站註明的「來源」,並自負版權等法律責任;作者如果不希望被轉載或者聯繫轉載稿費等事宜,請與我們接洽。