有一本書,只有它能讀

2021-01-10 至頂網

「毫不誇張的說,人類每一次進步都由計算驅動在精準醫療的範疇裡,每個人都是一本由遺傳密碼寫成的書,字數有3乘10的9次方之多,裝訂成書,有四十層樓那麼高——儘管這本書目前只有3%被讀懂,然而由計算所驅動的「一小步」,已經令某些特定癌症的患者「絕處逢生」;飛速發展的高性能計算,將輔助醫學專家們加速破譯人體遺傳密碼,直到有一天,醫療將不再等同於治療,而真正成為維護健康的天使之翼!」

就眼前的醫療體系而言,仍然是以病人為對象,以診斷治療為目的,由醫院、醫生和醫藥組成「三醫聯動」的概念化醫療體系,為患者提供診治服務。

而隨著精準醫學的發展,可以通過對大數據的分析,在尚未患病的時候就全面了解和掌握的評測對象的健康狀況,預測未來發展趨勢,並通過更加主動的幹預手段來維護健康狀況。

精準醫療的一小步

所謂精準醫療(Precision Medicine),是以個體化醫療為基礎、隨著基因組測序技術快速進步,以及生物信息與大數據科學的交叉應用而發展起來的新型醫學概念與醫療模式。

其本質是通過基因組、蛋白質組等組學技術和醫學前沿技術,對於大樣本人群與特定疾病類型進行生物標記物的分析與鑑定、驗證與應用,從而精確尋找到疾病的原因和治療的靶點,並對一種疾病不同狀態和過程進行精確分類,最終實現對於疾病和特定患者進行個性化精準治療的目的,提高疾病診治與預防的效益。

信息技術將成為推動精準醫療發展的強大動力,並為基因測序技術和生物醫學分析技術帶來革新與進步。高性能計算在商業領域的普及應用,以及大數據分析技術,為精準醫療的發展提供了廣闊的想像空間。

這本「書」要這樣來讀

每個人約有1萬億個細胞,每個細胞裡面都有23對染色體,這些染色體中包含的DNA由ATCG不同鹼基序列構成,這些基因序列就是破解人類遺傳信息奧秘的鑰匙,基因測序工作就是要通過大規模的計算分析從海量的數據信息中辨識載有的基因及其序列,最終獲取遺傳信息。

目前基因測序在臨床上的應用主要有兩類:一類是針對普通人的疾病篩查,通過測定已知的與某種疾病相關的基因序列位點,來推斷其未來罹患該種疾病的概率;另一類是針對癌症等致命性疾病的伴隨診斷,通過測定某些特定的基因序列位點,在一系列的藥物或治療方案中找到對特定患者最為有效的藥物或方案。

基因測序技術應用需要對海量、複雜、多變的數據進行分析計算,因此需要高性能計算機來進行基因數據的統計和分析。基因測序分析對高性能計算機的計算性能、內存容量、數據帶寬等要求很高,同時還必須支持完善的基因測序分析工作流。

基因測序流程如下圖:

測序數據分析流程(以全基因組分析為例)如下圖:

實驗儀器測量數據處理和分析,首先通過實驗儀器對生物分子進行測量,使用一些後處理軟體對原始的大量數據進行處理和分析。比如對DNA分子進行研究的Illumina 公司的測序儀Genome Analys,HiSeq 2000以及相應的後處理軟體GAPipeline等;ABI公司的測序儀Solid3、Solid4以及後處理軟體Bioscope。然後對序列數據進行同源及相似性搜尋、比對、序列分析、遺傳發育分析等,應用軟體數量巨大,各種軟體在同源性分析算法上各有特點,通過基因測序獲得只是ATCG四種不同鹼基的組合,還不是直觀的結果;要將測序結果進行解讀,還需要在高性能計算機上進行大量的演算和分析。

在高性能計算機中計算時需要多個軟體協同工作,一步一步完成數據的分析,最終才能呈現出可讀的結果。通常要得到最終的結果,要經過樣本的採集、提取組織DNA、進入測序儀測序,隨後進入計算機對測序數據進行標準化的計算,最終進行數據的分析、核驗。

在短短十幾年間,已經形成了多個研究方向,其中與高性能計算相關的主要研究重點如下:

序列比對:序列比對(Sequence Alignment)的基本問題是比較兩個或兩個以上符號序列的相似性或不相似性。

從生物學的初衷來看,這一問題包含了以下幾個意義:從相互重疊的序列片斷中重構DNA的完整序列。在各種試驗條件下從探測數據(probe data)中決定物理和基因圖存貯、遍歷和比較資料庫中的DNA序列、比較兩個或多個序列的相似性、在資料庫中搜索相關序列和子序列、尋找核苷酸(nucleotides)的連續產生模式、找出蛋白質和DNA序列中的信息成分。

在序列對比的過程中將會產生巨量的數據,這對存儲系統帶來了大規模的挑戰。如下圖:

可以看出,現在用於存儲的硬碟容量每14個月會有一倍的增長,而基因序列的數據量則每5月左右會翻一番,例如:CeleraGenomics 和Sanger Centre等主要基因研究機構都在管理數以萬億字節計的數據,其資料庫信息量已經超過美國國會圖書館全部藏書,也超過了人類開展生物學研究以來積累的數據量。

序列拼接:序列拼接是將測序生成的reads短片段拼接起來,恢復出原始的序列。

該問題是序列分析的最基本任務,也是基因組研究成功與失敗的關鍵,拼接結果直接影響到序列標註,基因預測、基因組比較等後續任務。基因組序列的拼接也是基因組研究必須解決的首要難題。其困難不僅來自它的海量數據(以人類基因組序列為例,從數量為10兆級的片斷恢復出長度為億級的原始序列),而且源於它含有高度重複的序列。

從計算機方面來講,在拼接初期,會有大量的初始數據導入內存,然後對這些數據進行處理,因此,序列拼接對於計算機的內存量和計算能力都有非常大的需求。

基於結構的藥物設計:人類基因工程的目的之一是要了解人體內約10萬種蛋白質的結構、功能、相互作用以及與各種人類疾病之間的關係,尋求各種治療和預防方法,包括藥物治療。

基於生物大分子結構及小分子結構的藥物設計是生物信息學中的極為重要的研究領域。為了抑制某些酶或蛋白質的活性,在已知其蛋白質3級結構的基礎上,可以利用分子對齊算法,在計算機上設計抑制劑分子,作為候選藥物。然後在資料庫中進行對比並且得到優勢結構,最後使用分子模擬的方法實現藥物分子的設計。

在通常的處理過程中,常用到如下軟體:

戴爾助力精準醫療展開「天使之翼」

根據以上基因測序軟體的普遍特點,戴爾高性能計算集群有如下配置建議:

基因比對、拼接等計算非浮點密集型計算應用,CPU利用率、idle%呈現規律性交替變化,並且程序起始階段CPU利用率低,主要進行IO處理、高主頻可加快進度,雙路節點配置建議Intel E5-2660V4以上;

內存帶寬隨CPU利用率交替變化並且峰值並不高,內存容量需求較大,基本上是輸入序列大小的5-6倍,單節點搭配8條16GB或32GB內存即可滿足中小規模算例需求;對於大規模的基因拼接、比對計算,內存容量建議配置在1-2TB以上,DELL R930伺服器最大可支持6TB內存(單根64GB*96根),可充分保障計算需求;

網絡壓力較低,僅在讀寫IO時涉及到較多網絡傳輸,普通以太萬兆即可滿足網絡帶寬需求,選擇IB網絡或Intel OPA網絡也會在一定程度上降低延遲、提升效率;

存儲讀寫壓力適中,磁碟讀寫均呈現階段性,中小規模算例存儲讀寫峰值帶寬均在500MB/s以下,選用存儲伺服器DELL R730XD即可滿足需求;大規模算例如人體全基因組比對、拼接等,在程序初始階段輸入文件磁碟讀取、計算結果磁碟寫階段對存儲的帶寬壓力會比較大,此時建議選擇並行文件存儲系統,比如IEEL,可提供GB/s以上的帶寬,更好的應對存儲壓力。

解決方案配置及拓撲示例

未來,在高性能計算支持下的精準醫療將飛速發展,並重塑醫療健康行業。戴爾高性能計算解決方案,將助力精準醫療展開「天使之翼」,不僅護衛患者生命安全,更守護每個人的健康,從此一馬平川

相關焦點

  • 上周讀了7本書,每本書都能幫你推開一扇新世界的門
    2019 年,我下了一個決心,希望自己每天至少讀一本書,每本書讀完,至少寫出兩三百字,來和大家分享一下讀完的感受。上周讀的7本書雖然主題不固定,可是都非常有趣,每本書都能幫你推開一扇新世界的門,每一本都強烈推薦給大家。
  • 矽谷大佬必讀的4本書,你有必要讀一讀
    科技巨頭們有一個共同點,那就是喜歡讀書。現在,有很多人都喜歡去了解這些科技巨頭的成功經歷,希望從中了解他們的思想,進而獲得成功,卻不去了解他們愛讀什麼書,其實那才是真正反映他們靈魂和思想的結晶。如果一本書被兩個以上的科技大佬推薦過的話,那麼它一定有著不凡之處。
  • 如何讀好一本書?「樊登讀書」創始人的秘訣是……丨21讀書
    在《讀懂一本書:樊登讀書法》中,樊登從解讀圖書的角度出發,向讀者傳授了他對於內容解讀的科學方法論。一、如何選擇有價值的書?書和知識講究的是價值。什麼樣的書是有價值的?根據什麼標準來選擇要讀什麼書呢?三、把書讀薄:讀懂和解構一本書每本書都有自己的使命,而讀書的過程就是人為地弄清楚一本書解決了什麼問題,抓住一本書的脈絡和重點。再複雜的書也有一個結構,有可以快速理清脈絡,找到拆解的方法。
  • 《高分讀書法》:讓你從閱讀小白到寫作達人必須要讀的一本書
    能用簡單的話概括他人觀點的能力叫歸納能力。能從不同角度審視同一件事,對持有不同觀點的人也能表示理解的能力,叫客觀思考能力。這5種能力總結在一起,被作者定義為了思考力和解讀力,在書中都會教大家一一獲取。你知道開始讀書前應該需要做好哪些準備嗎?你知道採用怎樣的閱讀方法,才能幫助我們從小信息中獲取大內容嗎?你知道怎樣才能一邊讀一邊把讀到的信息轉化為腦中的知識嗎?
  • 一本書的重量
    收到電子閱讀器Kindle之後,我最意外的是它的外形竟然如此輕薄時尚,完全不像圖片裡所顯示的那麼累贅呆板。就連雜誌的記者看了都說酷,認為它會成為新一代的「潮物」。就在這具單掌可握的小小白色器具之中,我存放了三十多本書,然後它還剩下一千四百多本的容量。
  • 你的孩子看過這三本書嗎?讀了之後會有很多收穫,看看讀後感吧
    雖然我讀了很多遍,但還是有些句子背誦時總出錯,於是我便灰心喪氣,一個人躲在房間裡哭鼻子......後來,一看到文言文,它們就像「攔路虎」一樣令我心生畏懼。讀了《魯濱遜漂流記》這本書,我決心要像魯濱遜一樣不論何時何地,不管遇到多大的困難,都不能被困難嚇倒,要勇敢地面對困難,克服困難。
  • 2020年讀了156本書,這種方法解決我讀書慢、讀不深的困擾
    方法二:學會快速掃讀很多人讀書都喜歡咬文嚼字的讀,遇到書中不認識的字,拿出手機查清楚再繼續往下讀,這樣的閱讀方式也會大大減慢你讀書的速度。我讀書時採用的方法是快速掃讀,就是在書上用眼睛畫 Z 字,有點兒一目十行的意思。你是不是會有疑問,這樣讀書能把書讀明白嗎?在回答這個問題之前,也請你回答我一個問題,你逐字逐句的讀完一本書,能記住書中的多少細節?
  • 了解人工智慧,這15本書你一定要讀
    《人工智慧:一種現代方法》(Artificial Intelligence: A Modern Approach),作者Stuart Russell,Peter Norvig這本書可以說是人工智慧領域的《聖 經》,這是一本全面介紹人工智慧知識和內容的書籍,任何從事人工智慧相關領域的人都應該讀一讀這本書。
  • 英國作家珍妮特·溫特森:各種意義上的家園已然失去 讀一本書卻...
    她一生摯愛凱恩戈姆,曾為它寫下這樣的話:「大腦無法消化大山所能給予的一切,對能夠感知的也常常感到難以置信。」我並非登山愛好者,甚至不怎麼爬山。對凱恩戈姆山脈,我一無所知,連這本書也是別人寄給我的。而書和門一樣,唯有打開才能一探究竟;於是我翻開《活山》,走進了這扇門背後的世界。娜恩·謝潑德在娜恩·謝潑德的陪伴下,我漫步於崇山峻岭之間。
  • 活動預告 | 復旦CC讀書會「共讀一本書-《宇宙之海的漣漪》」
    活動預告|寒|梅|傲|雪||閱|讀|隨|行|復旦MPAcc讀書會keep learning be happy共讀一本書《宇宙之海的漣漪》它告訴我們時空不僅會在某些地方止於黑洞,也會因黑洞等天體的繞轉拖動發生變化泛起引力波動之漣漪。又經過百年的不懈努力,共振空腔、雷射幹涉等先進技術手段,使我們探索宇宙黑洞以及引力波的真理之行更近一步。沉陷在每日的忙碌工作與生活中,偶爾可以仰望星空,進行短暫的放空和游離。
  • 沒讀過這10本書,就不算讀過東野圭吾
    在他看來,「沒人知道讀者會從哪本書讀起,如果看的第一本書就讓讀者失望,恐怕他們就不會想看這個作家的其他作品了。」正是秉持著這樣的理念,東野圭吾對每一部作品都認真傾注了同樣的心血和熱情。事實上,在東野的暢銷作之外,還有一大批作品被讀者低估和忽視,它們有著同樣精彩的故事、曲折的情節、震撼的情感,讓人一翻開書頁就讀得停不下來。
  • 上周讀了7本書,每一本讀完都感覺賺了
    2019 年,我下了一個決心,希望自己每天至少讀一本書,每本書讀完,至少寫出兩三百字,來和大家分享一下讀完的感受。上周正好是2019年上半年的最後一周,每天一本書堅持了半年,我讀了整整 181 本書,這個過程真的是既酸爽又快樂。很多朋友會問,你怎麼可能一天讀一本書,不用上班嗎?嗯,不用。
  • 《烏合之眾》這本書,應該怎麼讀?
    本著不懂就找度娘的學習方法,這次還是有所收穫的,對勒龐和這本書有了新的認識。《烏合之眾》這本書首次出版居然是在1895年。我們把1895年橫向對比一下,那麼1895年的中國是啥樣子的呢?1895年,是清光緒二十一年。
  • 英語分級閱讀 讀多少本書 才能升到下一級?
    她家孩子,開學讀小學二年級,在家有閱讀的好習慣,孩子從幼兒園開始學英語,從開始到現在一直都是她帶著孩子讀英語繪本。她說:我給孩子買過不少國外分級讀物,國內出版的英語簡易讀物也買了不少。但是感覺孩子沒有學到多少。小孩應付校內的英語課,挺輕鬆的,成績也很好。
  • 《讀懂一本書》:書讀不懂?完成7個底層積累就能快速讀懂一本書
    一、讀不懂你有沒有這個疑惑:有些書,我們讀起來很困難,可是別人讀得很輕鬆,這是為什呢?其實原因很簡單,就是因為我們的閱讀理解能力不同。那為什麼我們的閱讀理解能力會有這麼大的差異呢?我們原始積累的知識深度和結構不同,是導致理解能力有差距的一個重要因素。二、池子理論這是我在讀了《讀懂一本書》後得到的體會。這本書的作者樊登老師有一個說法讓我印象深刻:理解力的池子。
  • 一年讀300本書,為什麼還是不會寫?是因為你不會「費曼技巧」!
    其實,她這樣一說,我就明白了。她不是不勤奮,而是太勤奮,勤奮到差不多每天都讀一本書。每天都讀一本書,這個閱讀量其實是很大的,相當於除了吃飯、睡覺,其他的時間都在閱讀。按理說,這樣的閱讀量,應該是積累了很多的知識點的。但是為什麼,這一年她都沒有太大的進步。
  • 僅從這一小段來看,本書的難讀,問題顯然出在中文翻譯上
    看這本書沒一會兒便想到以前看過的神經漫遊者以及菲利普迪克的幾本。它們的共同點不是別的,是全都很難讀。語句不通上下文不連貫的情形隨處可見,以至於我情不自禁地猜測,莫非這是科幻小說中一種特定的語言風格?一個流派?醫生的推測是,伯爾頓也是中毒反應。
  • 南懷瑾說:這本書,一天只要讀三頁,就有用處
    別看名字陌生,呂思勉、梁啓超、胡適、林語堂這樣的大師級人物都靠它入門中國歷史。南懷瑾甚至說,這本書,一天只要讀三頁,就有用處。如此滄海遺珠般的史書,怎能錯過。我特地找來市面罕見的文白對照版《綱鑑易知錄》,共有8冊,一個月我就看完了4冊,真的太好讀了。能當大師的歷史入門讀本,其內容非比尋常,今天我就來和大家聊聊這部奇書。
  • 上周讀了7本書,其中4本關於大腦的書強烈推薦
    2019 年,我下了一個決心,希望自己每天至少讀一本書,每本書讀完,至少寫出兩三百字,來和大家分享一下讀完的感受。五月的閱讀主題是「認知」,上周讀了 7 本書,其中 4 本都和我們的大腦有關,都非常推薦大家找來閱讀。
  • 我曾經1年讀100本書,卻越讀越困惑,直到掌握了這個秘密武器
    第一個訓練營期間,我按照要求,讀了50本書。這和前年一整年,自己只讀了7本書比起來,算是一個非常大的突破啦!這個訓練營結束之後,大家還相約,繼續再去簡書上日更100天,每三天讀一本書,每天輸出一篇文章,所以後面陸續又讀了30來本書。