2015年2月1日 訊 /生物谷BIOON/-- 美國國家兒童醫院(Nationwide Children's Hospital)的研發人員最近在Genome Biology上發布了一個自主開發的分析軟體,表示這個軟體使尋找全基因組致病變異從幾周縮短到按幾十個小時。
第一個人類基因組測序完成耗時大約13年,耗費30億美元,而現在技術測序技術的發展,使得即使是很小的研究小組都可以在幾天之內完成基因組測序。但是從測序產生的巨大的數據分析得出真正能用於研究或者臨床的信息一直是一個挑戰。而彼得·懷特博士和他帶領的團隊針對這個問題,利用新穎的計算技術,開發了一個名為"邱吉爾"(Churchill)的計算管道,表示"邱吉爾"可以在短短90分鐘內完成全基因組樣品的有效分析。
"邱吉爾"自動輸入原始序列資料,通過一系列密集複雜和計算,最終分析出有臨床或者科研意義的的遺傳變異體。這個過程中的每一步,"邱吉爾"都有優化,以顯著減少分析時間,但不損害數據的完整性,該分析是100%的可重複性。"邱吉爾"採用的平行化(parallelization)的算法克服了染色體帶來的平行化限制,極大提升了數據輸入的平衡性和分析中數據重新組合,去分,再校準和基因型分型的執行性。通過檢查在數據分析過程中的計算資源的利用,相比其他兩種分析管道-HugeSeq和GATK-Queue只能分別利用46%和30%的數據資源,"邱吉爾"的利用率達到了92%,並在多個伺服器非常有效地進行縮放。"邱吉爾"輸出結果,在與其他計算管道比較,被證明具有最高99.7%的靈敏度;最高99.99%的精讀和99.66%最高整體診斷效率。
這種效率和能力,證明"邱吉爾"或能夠進行人口規模的基因組分析。為了證明"邱吉爾"的能力,懷特博士和他的團隊成功地分析了**基因組項目所產生的第一階段的原始數據(**基因組項目是以生成世界各地的多個群體人類遺傳變異的公眾目錄為目的的國際合作項目)。利用亞馬遜網絡服務(AWS)的雲計算資源,"邱吉爾"僅用七天便完成1088個全基因組樣本的分析,並確定了數以百萬計的新的遺傳變異。
"邱吉爾"的發布是測序技術一個極大的進步。它極大降低測序分析的成本,突破了當今測序分析計算的瓶頸,特別為現在大人口規模的基因組學的研究提供便利。(生物谷Bioon.com)
本文系生物谷原創編譯整理,歡迎轉載!轉載請註明來源並附原文連結。謝謝!
DOI:10.1186 / s13059-014-0577-X
Churchill: an ultra-fast, deterministic, highly scalable and balanced parallelization strategy for the discovery of human genetic variation in clinical and population-scale genomics
Benjamin J Kelly, James R Fitch, Yangqiu Hu, Donald J Corsmeier, Huachun Zhong, Amy N Wetzel, Russell D Nordquist, David L Newsom, Peter White
Abstract
While advances in genome sequencing technology make population-scale genomics a possibility, current approaches for analysis of this data rely upon parallelization strategies that have limited scalability, complex implementation and lack reproducibility. Churchill, a balanced regional parallelization strategy, overcomes these challenges, fully automating the multiple steps required to go from raw sequencing reads to variant discovery. Through implementation of novel deterministic parallelization techniques, Churchill allows computationally efficient analysis of a high-depth whole genome sample in less than two hours. The method is highly scalable, enabling full analysis of the 1000 Genomes raw sequence dataset in a week using cloud resources. http://churchill.nchri.org/.