HPC如何協助解析新型冠狀病毒基因組

2020-12-05 DOIT

一場新型冠狀病毒肺炎疫情,牽動舉國上下。在廣大的醫務人員奮戰一線的同時,一大批「科技力量」也加入了抗擊疫情的最前線。

在未知病毒以「不明原因肺炎」進入公眾視野時,科研人員已經開始嘗試破譯病毒的基因數據。病毒基因組,是病毒的生命密碼。藉助於分子生物技術,病原學專家通過對病毒標本進行測定,這樣的破譯,最早在2020年1月2日就已完成。隨後,中科院武漢病毒所、中國疾控中心病毒所、上海市公共衛生臨床中心分別於1月2日、1月3日、1月5日凌晨,獲得病毒全基因組序列。

那麼,病毒基因究竟是如何被一步步解析的?這其中高性能計算(HPC)平臺又起到什麼樣的作用?來看看浪潮生命科學行業方案專家的解讀。

Q:能否舉例子介紹一下新冠病毒基因是如何被測定和解析的?

目前,在獲取病毒基因組序列方面,廣泛應用高通量測序技術來完成,這種方式是將核酸序列打斷成短片段進行測序,通過分析軟體將測得的短序列進行拼接組裝。對於新發病毒,在序列組裝過程中會面臨更多難點,因為在測序深度、測序準確性、重複序列比例等方面沒有可供參考的經驗值,這就需要將海量的短序列還原出原始的基因組序列。在序列拼裝中還可能會出現測序錯誤,拼接的準確性和完整性不高,拼接難度更高。所以,解析新冠病毒序列,需要在建庫、高通量測序、序列組裝、變異進化分析等多個流程加以管理。

新冠病毒序列組裝解決方案示意

比如在建庫環節中,對核酸含量高的樣本進行rRNA去除再建庫,提高有效數據佔比;對核酸含量低的樣本,直接進行RNA建庫,減少核酸損失,提升建庫成功率,並加大測序深度。在測序環節採用更高效專注的測序儀,最後,通過病原鑑定系統對新冠病毒序列進行數據分析並採用IDBA方法完成拼接。這樣可以滿足宏轉錄組測序病毒序列組裝對數據量的要求,保證序列信息的完整性。

我們來還原一下某疾控中心收到的1例新冠病毒肺炎疑似樣本,解析新型冠狀病毒感染病例呼吸道標本宏轉錄組測序及病毒序列組裝的流程:

首先是文庫製備。針對核酸量不同的樣本,採用不同的建庫策略。經反轉錄、接頭連接、PCR擴增、純化等一系列操作後獲得文庫產物,再使用滾環擴增技術,製備DNA納米球。第二步,上機測序。對病例的呼吸道標本進行高深度測序。第三步,數據分析。產出32Gb數據,總序列數318M。結合病原感染快速鑑定系統,鑑定出230萬餘條新型冠狀病毒序列。最後,拼接組裝。分析軟體會自動將230萬條的新型冠狀病毒序列從所有序列中抽出。使用拼接效率高的IDBA方法進行組裝,成功完成新型冠狀病毒的序列組裝,獲得基因組序列。

Q:在冠狀病毒解析過程中,HPC平臺起到了那些作用?

在尋找病毒來源、獲知病毒結構、篩選抗毒小分子方面HPC算力都發揮了重要的作用。例如在病毒分析領域常用的冷凍電鏡三維重構技術,在低溫環境下利用透射電子顯微鏡對樣品進行成像,再經圖像處理和重構計算獲得樣品的三維結構。在整個流程中,數據採集、圖像處理、三維重構是非常核心的三個步驟,對計算和存儲的需求非常高。病毒顆粒結構的解析,其電鏡圖像的數據量可高達數TB,且病毒顆粒相對蛋白質顆粒要大得多,在計算上單一進程就需要128GB的內存,那麼一臺計算節點就需要至少4TB的內存支持。在算法上,基於中央截面定理的重構過程依賴大量的單精度或雙精度快速傅立葉(FFT)計算,需要海量算力資源來支持。

在實際應用上,中科院生物物理所與浪潮-Intel中國並行計算聯合實驗室合作開展的基於MIC異構架構電子斷層三維重構技術(Electron Tomography,簡稱ET)應用研究。研究團隊共同開發了ET的MIC單機單卡和單機多卡異構高性能集群解決方案,大幅降低了計算時間。實際測試數據顯示,單機單卡與串行程序相比性能提升25倍,單機多卡版本與串行程序相比性能提升74倍。

Q:本次疫情將對於HPC在病毒研究領域的應用產生哪些影響

在抗疫的生死競速的賽場上,也許我們算的快一點,我們能救治的病人,能拯救的生命就會多一點。

病毒全基因組序列獲取流程

從短期來看,科技戰疫正加速HPC在醫療領域的廣泛應用,原來使用HPC最多的是科研院所,在疫情期間醫院、公共衛生防預等機構都開始使用HPC。

從長期來看,疫情過後,會誕生各種新興的科學技術研究和檢測,這些新興的科學研究對高性能計算有很高的需求,將促使HPC技術跨學科跨領域的融合。

從更大的範圍來看,疫情危機使中國以及全球的醫療信息化進程加速,可以大膽的預測,HPC將在全球病毒研究領域將會走向全面普及。

未經允許不得轉載:DOIT » HPC如何協助解析新型冠狀病毒基因組

相關焦點

  • 科學家解析新型冠狀病毒:傳染力強!宿主可能是蝙蝠
    眼下,新型冠狀病毒疫情似乎呈現愈演愈烈之勢。這一來勢兇猛的神秘「殺手」究竟來自何方?傳染力如何?研究推測,武漢新型冠狀病毒的自然宿主有可能是——蝙蝠,研究成果預測了武漢冠狀病毒有很強的對人感染能力,為科學防控,制定防控策略和開發檢測/幹預技術手段奠定了科學理論基礎。
  • bioRxiv:利用比較基因組分析揭示新型冠狀病毒的進化機制
    生物谷BIOON/ --近日,一篇發表在預印版平臺bioRxiv上題為「Comparative genomic analysis revealed specific mutation pattern between human coronavirus SARS-CoV-2 and Bat-SARSr-CoV RaTG13」的研究報告中,來自浙江大學等機構的科學家們通過研究利用比較基因組分析技術揭示了人類新型冠狀病毒與蝙蝠冠狀病毒
  • 天津大學:新型冠狀病毒基因組注釋資料庫向全球開放
    從天津大學獲悉,該校生物信息中心新型冠狀病毒基因組注釋資料庫上線,並納入中國國家基因組科學數據中心向全球開放服務。面對疫情蔓延,我國科技界正在爭分奪秒與病毒抗爭,開展病毒防治相關藥物的研發。鑑於目前在美國NCBI網站上公布的新型冠狀病毒全基因組序列,很大一部分缺少詳細的基因組注釋,尤其是對多聚蛋白酶切位點的注釋,天津大學生物信息中心的高峰教授、羅昊博士採用已研發的ZCURVE_CoV系列軟體對包括新型冠狀病毒(2019-nCoV)在內的兩千餘株冠狀病毒的基因組進行了基因識別和酶切位點預測,並以資料庫(ZCURVE_CoV Database)的形式提供網上服務。
  • 中科院:與美國同步共享5株新型冠狀病毒基因組序列
    【環球網綜合報導】中國科學院7日在官網上發文披露,國家生物信息中心(CNCB)/國家基因組科學數據中心(NGDC)首批自主收錄的5株2019新型冠狀病毒基因組序列實現與美國
  • 英特爾、聯想攜手華大基因加速新型冠狀病毒基因組分析
    3月3日,英特爾、聯想以及華大基因宣布,三家公司正攜手加快COVID-19新型冠狀病毒的基因組特性分析。來自英特爾及聯想的專業技術與生命科學專家將通力合作,為華大基因的研究人員提供全新的大數據分析技術和計算資源,進一步提升其基因測序工具的分析能力,更高效地研究新型冠狀病毒的基因組特性。
  • Science | 陳冰組解析新型冠狀病毒刺突蛋白全長結構
    目前全球流行的疾病2019年冠狀病毒病(COVID-19)則是由一種新型病毒SARS-CoV-2引起的。膜融合是冠狀病毒侵染宿主細胞和建立感染的關鍵步驟。自SARS-CoV-2的基因組序列發布後,S蛋白複合物的多種結構都被解析出來,包括prefusion狀態的S蛋白胞外域結構和RBD-Ace2複合物。通過胞外域結構,科學家發現prefusion狀態的S蛋白存在兩種不同的構象「閉」和「開」。
  • .& Microbe期刊發文揭示新型冠狀病毒2019-nCoV的基因組...
    2020年2月11日訊/生物谷BIOON/---世界衛生組織(WHO)將一種新型冠狀病毒命名為「2019年新型冠狀病毒(2019-nCoV)」。它是最近於2019年12月初在中國湖北省武漢市開始的肺炎疫情的罪魁禍首。這次疫情與一家大型的海鮮和動物市場有關,目前正在開展調查以確定這種病毒感染的來源。
  • 中科院:與美國同步共享5株2019新型冠狀病毒基因組序列
    【環球網綜合報導】中國科學院7日在官網上發文披露,國家生物信息中心(CNCB)/國家基因組科學數據中心(NGDC)首批自主收錄的5株2019新型冠狀病毒基因組序列實現與美國NCBI核酸資料庫GenBank數據同步與共享。
  • 新型冠狀病毒來勢洶洶,IVD公司如何助力?
    如何打贏這場來勢洶洶的疫情戰,各家體外診斷公司又使出了哪些「殺手鐧」? 一、冠狀病毒有哪些特點?為何引起恐慌? 冠狀病毒外形呈球狀,具有花瓣狀的刺突,根據其形狀,國際病毒命名委員會在1975年正式命名為「冠狀病毒科」。
  • 國家基因組科學數據中心首次公開新型冠狀病毒全基因組序列
    此前科學家陸續獲得的2019新型冠狀病毒基因組序列一般遞交到全球流感序列資料庫(GISAID)和美國國家生物技術信息中心(NCBI)的GenBank資料庫。此前的1月22日,國家基因組科學數據中心正式發布2019新型冠狀病毒信息庫。
  • 科學家發文首次揭示新型冠狀病毒進化來源
    武漢新型冠狀病毒感染的肺炎病例仍在蔓延。今天,中國科學家發表的一篇最新論文,首次揭示新型冠狀病毒進化來源,以及其傳播依賴的可能蛋白,為人們認識這種新型病毒提供了重要線索和科學依據。  1月21日,中國科學院上海巴斯德研究所研究員郝沛、軍事醫學研究院國家應急防控藥物工程技術研究中心研究員鍾武和中國科學院分子植物卓越中心合成生物學重點實驗室研究員李軒合作,帶領研究團隊在《中國科學:生命科學》英文版上發表論文,分析闡述了引起近期武漢地區肺炎疫情暴發的新型冠狀病毒的進化來源,及其與導致「非典」疫情的SARS冠狀病毒、「中東呼吸症候群」MERS冠狀病毒的遺傳進化關係,並揭示了武漢新型冠狀病毒
  • 【安捷倫】鑑定新型冠狀病毒,宏基因組二代測序(mNGS)技術十分關鍵!
    自 2019 新型冠狀病毒(2019-nCoV)肺炎疫情爆發以來,相關科研單位便緊鑼密鼓地開展病毒研究工作,並取得了一系列重要的研究成果。2 月 3 日,Nature 在線發布了復旦大學張永振教授團隊的一項重要研究成果,該團隊對患者支氣管肺泡灌洗液進行了宏基因組二代測序(mNGS),鑑定出了一種新型冠狀病毒,並發現該病毒基因組與蝙蝠體內發現的 SARS 樣冠狀病毒基因組有 89.1% 的相似性[1]。
  • J Med Virol:最大規模的薈萃分析揭示新型冠狀病毒的基因組序列特性
    2020年2月9日 訊 /生物谷BIOON/ --迄今為止,對新型冠狀病毒(2019-nCoV)基因組進行最大規模的測序分析結果證實,這種病毒起源於蝙蝠,且病毒的異質性較低;近日,一項刊登在國際雜誌Journal of Medical Virology上的研究報告中,來自博洛尼亞大學的科學家們通過研究在病毒的蛋白質中鑑別出了一種高度可變的基因組熱點區域
  • 科學新聞:網際網路上已共享了冠狀病毒基因組
    加州大學聖克魯斯分校的基因組研究所將加快對新型冠狀病毒的研究,研究所的瀏覽器團隊已經發布了該病毒的完整基因組,開放給全世界的研究人員使用。UCSC基因組瀏覽器工程師克勞森(Hiram Clawson)表示
  • 劃重點 | 新型冠狀病毒感染的肺炎防控知識(Ⅰ)—新型冠狀病毒的由來
    冠狀病毒的結構是什麼樣的?專業解答S 蛋白位於病毒表面,形成棒狀結構,作為病毒的主要抗原蛋白之一,是用於分型的主要結構,N 蛋白包裹病毒基因組,可用作診斷抗原。對冠狀病毒理化特性的認識多來自對 SARS-CoV 和 MERS-CoV 的研究。6. 冠狀病毒如何分類?
  • 2019新型冠狀病毒資源庫發布
    2020年1月22日,國家基因組科學數據中心正式發布2019新型冠狀病毒資源庫。
  • 新型冠狀病毒武漢僅有2種類型,美國感染者卻涵蓋了5種類型
    日本川崎生物數據公司的研究人員通過對比新型冠狀病毒的基因,建立了病毒繁殖變異的樹狀結構,其結果顯示,從這些國家地區的病例分析,傳入的病毒呈現獨立特徵,是多批次個體進來的。研究人員表示:病毒基因組序列「MT039890-人類的韓國-韓國」和「GVIHIABK0000000-人類的中國-湖北-省-武漢-城市」在其序列中具有許多樣品特異的替代。
  • 我國科學家揭示新型冠狀病毒進化來源 揭示傳染人的分子作用通路
    ,及與導致2002年廣東「非典」疫情的SARS冠狀病毒、「中東呼吸症候群」MERS冠狀病毒的遺傳進化關係,並通過對武漢的新型冠狀病毒spike-蛋白的結構模擬計算,揭示了武漢新型冠狀病毒spike-與人ACE2蛋白作用並介導傳染人的分子作用通路。
  • 王國慶/周豐豐團隊共同研究新型冠狀病毒全基因組的進化特徵
    新型冠狀病毒在全球範圍內的感染病例已經接近2000萬例,其傳播速度之快給全球造成災難性的損失。研究新型冠狀病毒的流行趨勢,進化情況以及對其全基因組進行分析,對認識一種新發傳染病具有重要意義。新型冠狀病毒是一種正鏈RNA病毒,基因組長約30 kb。
  • 冠狀病毒和新型冠狀病毒的含義和區別、以及特徵是什麼?
    冠狀病毒屬於套式病毒目、冠狀病毒科、冠狀病毒屬,是一類具有囊膜、基因組為線性單股正鏈的RNA病毒,是自然界廣泛存在的一大類病毒病毒基因組5'端具有甲基化的帽狀結構, 3'端具有poly(A)尾,基因組全長27~32kb,是目前已知RNA病毒中基因組最大的病毒。 冠狀病毒僅感染脊椎動物,與人和動物的多種疾病有關,可引起人和動物呼吸系統、消化系統和神經系統疾病。 2:動物冠狀病毒有哪些?