你有沒有試過在不知道最終圖案的情況下玩拼圖遊戲?這正是一些基因組研究人員在嘗試通過新一代DNA測序數據,拼接成染色體時所面臨的同樣問題。這些染色體能提供基因組組織和結構變異方面的信息,有助於解析進化歷史。為了能拼湊出這些染色體來,科學家們可以通過物理或者遺傳圖譜完成,但是對於許多物種而言,這種指導性的圖譜並不存在。
不過現在,一組來自美國伊利諾伊大學的研究人員開發出了一種新方法,能在沒有任何已有物理或遺傳圖譜的情況下,預測出物種染色體的相應組裝。這種方法被稱為輔助染色體組裝(reference-assisted chromosome assembly,RACA),其工作原理就是比較基因組信息和雙末端序列信息。
「我們設計的這種方法靶向基因組,或者說是基因組保守性,嘗試將其進一步融入到進化背景中去,」文章的通訊作者,伊利諾斯大學生物工程系助理教授馬健(Jian Ma,音譯)解釋道,「這樣就能分析出其構架,以及密切相關的其它基因組信息。」
通過BGI研究院科學家們的驗證分析,這一研究組預測出了藏羚羊可能的染色體片段組裝方法,為了完成這一目標,研究組成員利用BGI的SOAPdenovo組裝程序構建出了1434個序列支架,然後重建出了60個羚羊的染色體片段,其中16個片段與牛的染色體片段相似。
「在進行程序處理後,基因組質量得到了明顯的提高,」馬博士解釋道,「染色體片段大量減少,連續性延長,並且可以與其他物種進行比較分析了。而且我們之後也能糾正在這一過程中可能出現的組裝誤差。」
這一研究組面臨的主要挑戰之一還在於要找到一種能徹底評估分析結果,以及檢測其工具的方法,為此研究人員將RACA分析結果,與模擬基因組組裝,以及真實基因組組裝進行了比較,其中真實基因組組裝數據來自約翰霍普金斯大學完成的2012基因組組裝金標準評價(GAGE)。
「我們的數據基本上都來自(GAGE)研究,因為這些數據真實,反映了真正的情況,所以可以檢測分析工具,」馬博士說,「我們分析了他們研究中採用的各種組裝結果,結果我們發現,我們可以改善這些結果。」
馬博士表示,現在這項技術可以立即被用於類似Genome 10K之類的項目中,這是2009年發起的一項測定萬種脊椎動物基因組圖譜的項目,其目的在於研究生物多樣性和動物進化的機制。、
「大多數(基因組研究)都在使用NGS技術,因此我們認為這種方法可以用來系統地改善這些新物種基因組質量」,馬博士說。(生物谷Bioon.com)
Reference-assisted chromosome assembly
Jaebum Kima,b,1, Denis M. Larkinc,1, Qingle Caid, Asand, Yongfen Zhangd, Ri-Li Gee,2, Loretta Auvilf,g, Boris Capitanuf,g, Guojie Zhangd, Harris A. Lewina,h,2, and Jian Maa,i,2
One of the most difficult problems in modern genomics is the assembly of full-length chromosomes using next generation sequencing (NGS) data. To address this problem, we developed 「reference-assisted chromosome assembly」 (RACA), an algorithm to reliably order and orient sequence scaffolds generated by NGS and assemblers into longer chromosomal fragments using comparative genome information and paired-end reads. Evaluation of results using simulated and real genome assemblies indicates that our approach can substantially improve genomes generated by a wide variety of de novo assemblers if a good reference assembly of a closely related species and outgroup genomes are available. We used RACA to reconstruct 60 Tibetan antelope (Pantholops hodgsonii) chromosome fragments from 1,434 SOAPdenovo sequence scaffolds, of which 16 chromosome fragments were homologous to complete cattle chromosomes. Experimental validation by PCR showed that predictions made by RACA are highly accurate. Our results indicate that RACA will significantly facilitate the study of chromosome evolution and genome rearrangements for the large number of genomes being sequenced by NGS that do not have a genetic or physical map.