「毫不誇張的說,人類每一次進步都由計算驅動在精準醫療的範疇裡,每個人都是一本由遺傳密碼寫成的書,字數有3乘10的9次方之多,裝訂成書,有四十層樓那麼高——儘管這本書目前只有3%被讀懂,然而由計算所驅動的「一小步」,已經令某些特定癌症的患者「絕處逢生」;飛速發展的高性能計算,將輔助醫學專家們加速破譯人體遺傳密碼,直到有一天,醫療將不再等同於治療,而真正成為維護健康的天使之翼!」
就眼前的醫療體系而言,仍然是以病人為對象,以診斷治療為目的,由醫院、醫生和醫藥組成「三醫聯動」的概念化醫療體系,為患者提供診治服務。
而隨著精準醫學的發展,可以通過對大數據的分析,在尚未患病的時候就全面了解和掌握的評測對象的健康狀況,預測未來發展趨勢,並通過更加主動的幹預手段來維護健康狀況。
精準醫療的一小步
所謂精準醫療(Precision Medicine),是以個體化醫療為基礎、隨著基因組測序技術快速進步,以及生物信息與大數據科學的交叉應用而發展起來的新型醫學概念與醫療模式。
其本質是通過基因組、蛋白質組等組學技術和醫學前沿技術,對於大樣本人群與特定疾病類型進行生物標記物的分析與鑑定、驗證與應用,從而精確尋找到疾病的原因和治療的靶點,並對一種疾病不同狀態和過程進行精確分類,最終實現對於疾病和特定患者進行個性化精準治療的目的,提高疾病診治與預防的效益。
信息技術將成為推動精準醫療發展的強大動力,並為基因測序技術和生物醫學分析技術帶來革新與進步。高性能計算在商業領域的普及應用,以及大數據分析技術,為精準醫療的發展提供了廣闊的想像空間。
這本「書」要這樣來讀
每個人約有1萬億個細胞,每個細胞裡面都有23對染色體,這些染色體中包含的DNA由ATCG不同鹼基序列構成,這些基因序列就是破解人類遺傳信息奧秘的鑰匙,基因測序工作就是要通過大規模的計算分析從海量的數據信息中辨識載有的基因及其序列,最終獲取遺傳信息。
目前基因測序在臨床上的應用主要有兩類:一類是針對普通人的疾病篩查,通過測定已知的與某種疾病相關的基因序列位點,來推斷其未來罹患該種疾病的概率;另一類是針對癌症等致命性疾病的伴隨診斷,通過測定某些特定的基因序列位點,在一系列的藥物或治療方案中找到對特定患者最為有效的藥物或方案。
基因測序技術應用需要對海量、複雜、多變的數據進行分析計算,因此需要高性能計算機來進行基因數據的統計和分析。基因測序分析對高性能計算機的計算性能、內存容量、數據帶寬等要求很高,同時還必須支持完善的基因測序分析工作流。
基因測序流程如下圖:
測序數據分析流程(以全基因組分析為例)如下圖:
實驗儀器測量數據處理和分析,首先通過實驗儀器對生物分子進行測量,使用一些後處理軟體對原始的大量數據進行處理和分析。比如對DNA分子進行研究的Illumina 公司的測序儀Genome Analys,HiSeq 2000以及相應的後處理軟體GAPipeline等;ABI公司的測序儀Solid3、Solid4以及後處理軟體Bioscope。然後對序列數據進行同源及相似性搜尋、比對、序列分析、遺傳發育分析等,應用軟體數量巨大,各種軟體在同源性分析算法上各有特點,通過基因測序獲得只是ATCG四種不同鹼基的組合,還不是直觀的結果;要將測序結果進行解讀,還需要在高性能計算機上進行大量的演算和分析。
在高性能計算機中計算時需要多個軟體協同工作,一步一步完成數據的分析,最終才能呈現出可讀的結果。通常要得到最終的結果,要經過樣本的採集、提取組織DNA、進入測序儀測序,隨後進入計算機對測序數據進行標準化的計算,最終進行數據的分析、核驗。
在短短十幾年間,已經形成了多個研究方向,其中與高性能計算相關的主要研究重點如下:
序列比對:序列比對(Sequence Alignment)的基本問題是比較兩個或兩個以上符號序列的相似性或不相似性。
從生物學的初衷來看,這一問題包含了以下幾個意義:從相互重疊的序列片斷中重構DNA的完整序列。在各種試驗條件下從探測數據(probe data)中決定物理和基因圖存貯、遍歷和比較資料庫中的DNA序列、比較兩個或多個序列的相似性、在資料庫中搜索相關序列和子序列、尋找核苷酸(nucleotides)的連續產生模式、找出蛋白質和DNA序列中的信息成分。
在序列對比的過程中將會產生巨量的數據,這對存儲系統帶來了大規模的挑戰。如下圖:
可以看出,現在用於存儲的硬碟容量每14個月會有一倍的增長,而基因序列的數據量則每5月左右會翻一番,例如:CeleraGenomics 和Sanger Centre等主要基因研究機構都在管理數以萬億字節計的數據,其資料庫信息量已經超過美國國會圖書館全部藏書,也超過了人類開展生物學研究以來積累的數據量。
序列拼接:序列拼接是將測序生成的reads短片段拼接起來,恢復出原始的序列。
該問題是序列分析的最基本任務,也是基因組研究成功與失敗的關鍵,拼接結果直接影響到序列標註,基因預測、基因組比較等後續任務。基因組序列的拼接也是基因組研究必須解決的首要難題。其困難不僅來自它的海量數據(以人類基因組序列為例,從數量為10兆級的片斷恢復出長度為億級的原始序列),而且源於它含有高度重複的序列。
從計算機方面來講,在拼接初期,會有大量的初始數據導入內存,然後對這些數據進行處理,因此,序列拼接對於計算機的內存量和計算能力都有非常大的需求。
基於結構的藥物設計:人類基因工程的目的之一是要了解人體內約10萬種蛋白質的結構、功能、相互作用以及與各種人類疾病之間的關係,尋求各種治療和預防方法,包括藥物治療。
基於生物大分子結構及小分子結構的藥物設計是生物信息學中的極為重要的研究領域。為了抑制某些酶或蛋白質的活性,在已知其蛋白質3級結構的基礎上,可以利用分子對齊算法,在計算機上設計抑制劑分子,作為候選藥物。然後在資料庫中進行對比並且得到優勢結構,最後使用分子模擬的方法實現藥物分子的設計。
在通常的處理過程中,常用到如下軟體:
戴爾助力精準醫療展開「天使之翼」
根據以上基因測序軟體的普遍特點,戴爾高性能計算集群有如下配置建議:
基因比對、拼接等計算非浮點密集型計算應用,CPU利用率、idle%呈現規律性交替變化,並且程序起始階段CPU利用率低,主要進行IO處理、高主頻可加快進度,雙路節點配置建議Intel E5-2660V4以上;
內存帶寬隨CPU利用率交替變化並且峰值並不高,內存容量需求較大,基本上是輸入序列大小的5-6倍,單節點搭配8條16GB或32GB內存即可滿足中小規模算例需求;對於大規模的基因拼接、比對計算,內存容量建議配置在1-2TB以上,DELL R930伺服器最大可支持6TB內存(單根64GB*96根),可充分保障計算需求;
網絡壓力較低,僅在讀寫IO時涉及到較多網絡傳輸,普通以太萬兆即可滿足網絡帶寬需求,選擇IB網絡或Intel OPA網絡也會在一定程度上降低延遲、提升效率;
存儲讀寫壓力適中,磁碟讀寫均呈現階段性,中小規模算例存儲讀寫峰值帶寬均在500MB/s以下,選用存儲伺服器DELL R730XD即可滿足需求;大規模算例如人體全基因組比對、拼接等,在程序初始階段輸入文件磁碟讀取、計算結果磁碟寫階段對存儲的帶寬壓力會比較大,此時建議選擇並行文件存儲系統,比如IEEL,可提供GB/s以上的帶寬,更好的應對存儲壓力。
解決方案配置及拓撲示例
未來,在高性能計算支持下的精準醫療將飛速發展,並重塑醫療健康行業。戴爾高性能計算解決方案,將助力精準醫療展開「天使之翼」,不僅護衛患者生命安全,更守護每個人的健康,從此一馬平川