從病毒研究談起,聊聊冷凍電鏡及背後的HPC

2020-12-06 CSDN技術社區

今日tips

嬰幼兒能不能戴口罩？

通常來講，1-2歲的嬰幼兒不能戴口罩。N95口罩透氣度較差，不適合孩子使用。對於兒童，推薦佩戴兒童專用的防護口罩，且家長需隨時注意孩子有無呼吸困難等不適情況。

——來自@人民日報

拋開疫情不談

我們來聊聊

這次疫情的始作俑者——病毒

科學家們是如何研究病毒的

關於病毒，這是一類沒有細胞結構的簡單的特殊生物，它們的結構基本相似，一般由蛋白質的外殼和內部的遺傳物質（核酸）組成。

對於一種新的病毒，我們只有去發現它、了解它、研究它，最終才能製造出能治癒患者的藥物，以及增強人體免疫的疫苗。

那麼一般而言，對病毒的研究一般都有如下內容和方法：

· 病毒培養：在病毒學研究中除用做病毒增殖、病原分離以外，還用於研究病毒的複製過程及細胞的病理變化，研究病毒與宿主的互作關係，探討抗體與抗病毒物質對病毒的作用方式與機制等。還可用於病毒的分離鑑定、抗原的製備、疫苗和幹擾素的生產、病毒性疾病診斷和流行病學調查等。

· 病毒的分離純化與測定：屬於病毒學研究的基本技術。通過病毒的分離純化，可獲得純化的、有感染性的病毒製備物。通過病毒測定可確定病毒數量及活性。病毒的分離是將疑有病毒而待分離的標本經處理後，接種於相應敏感的宿主、雞胚或感染細胞，培養一段時間後，通過檢查不同病毒的特異性表現確定病毒的存在，並對病毒進行提取和純化。

· 病毒的鑑定：利用形態學、物理學、化學、生物學、免疫學、分子生物學、生物信息學等鑑定病毒的性質，描述病毒的特徵，是病毒分類的前提。病毒鑑定也是診斷病毒性疾病的可靠方法。

病毒如何觀察？

針對病毒做結構研究，就少不了在微觀世界對病毒本身進行觀察和成像。目前，電子顯微三維重構（electroneicroscopy，也稱電鏡三維重構）、X射線晶體學(X-ray crystallography)、核磁共振波譜學(nuclearmagnetic resonance，NMR)是結構生物學的三大研究手段。

不過後兩種技術都有各自的局限性，比如X線晶體學只能對生長極為有序的三維結晶進行觀察，而磁共振技術則要求測樣品顆粒小，純度非常高，不能夠有重疊峰出現。而冷凍電子顯微鏡，簡稱冷凍電鏡(cryo-electron microscopy，cryo-EM)，已成為生物大分子的結構研究的重要手段，這項技術極大地推動了生物學的發展。

什麼是冷凍電鏡？

冷凍電鏡是將生物大分子快速冷凍後，在低溫環境下利用透射電子顯微鏡對樣品進行成像，再經圖像處理和重構計算獲得樣品的三維結構。

目前，冷凍電鏡三維重構技術由冷低溫制樣、低劑量電鏡成像和計算機圖像處理三部分組成。

隨著冷凍電子顯微鏡的自動化、解析度、直接電子探測技術以及高性能圖像處理技術的大幅提高，越來越適合分析大的難以形成三維晶體複合體的三維結構，如膜蛋白以及病毒和蛋白質-核酸複合物等。

▐ 簡而言之：首先利用冷凍電鏡對冷凍於液氮溫度的生物大分子顆粒進行成像，以獲得數萬到數百萬張生物大分子照片，然後通過一定的算法來整合這些圖像，計算出生物大分子的三維結構。這其中三維重構算法是核心內容，用於測定出每一張照片的諸多參數。

它的基本原理基於中央截面定理：三維物體沿電子束方向投影的傅立葉變換是該物體所對應的傅立葉空間中通過中心且垂直於投影方向的一個截面。那麼一個物體完備投影的二維傅立葉變換一定能夠完全填充該物體的三維傅立葉空間，因此物體的完備投影與物體的三維結構是等價的。

所以在實際應用中，我們收集到海量的全同顆粒在不同方向的投影（單顆粒），首先通過等價線、投影匹配等方法確定每張投影圖像的取向和中心，然後對每張投影圖進行傅立葉變換，按照投影方向填充到三維傅立葉空間對應的切面，並進行差值計算得到倒空間的網格點數值，最後再進行反傅立葉變換，就可得到實空間的三維結構。

冷凍電鏡的三維重構流程

可以看到在整個流程中，數據採集、圖像處理、三維重構是非常核心的三個步驟，對計算和存儲的需求非常高，以下是部分顆粒挑選、圖片處理和三維重構的軟體程序：

用途	名稱	描述說明	支持GPU	官方網址
自動化顆粒挑選	Leginon	從透射電子顯微鏡自動收集圖像。支持的儀器：FEI（Tecnai、Titan Krios、Polara）、JEOL（3200、3100、2100、1230）、CCD（TVIPS、Gatan、FEI）、直接探測器（Gatan K2、FEI Falcon、直接電子DE12、DE20）	單GPU 單節點	http://nramm.nysbc.org/software/
圖像處理流水線	Appion	處理和分析電磁圖像的「管道」。Appion與Leginon數據採集集成，但也可以在使用一組提供的工具上傳圖像（數字或掃描顯微照片）後單獨使用。底層包集成包含EMAN, Spider, Frealign, Imagic, XMIPP, IMOD, ProTomo, ACE, CTFFind等並行重構程序	單GPU 單節點	http://nramm.nysbc.org/software/
三維重構	RELION	（for REgularised LIkelihood OptimisatioN）是一個獨立的電腦程式，它採用經驗貝葉斯方法對冷凍電鏡（cryo-EM）中的（多個）三維重建或二維類平均值進行求解。在相應的貝葉斯框架中，統計模型的許多參數都是從數據中獲得的，所以可以在不需要用戶有豐富專業知識的情況下獲得客觀和高質量的結果。	多GPU 單節點	https://www3.mrc-lmb.cam.ac.uk/relion/
三維重構	cryoSPARC	CryoSPARC是全球範圍內用於從單顆粒冷凍電鏡數據獲得三維結構信息的先進平臺，結合最先進的算法和高性能計算機平臺，實現了蛋白質、病毒和分子複合物的自動化、高質量和高通量結構發現，用於研究和藥物發現。	多GPU 多節點	https://cryosparc.com/

許多電鏡三維重構程序目前是實現的任務級別的並行，如BSOFT、FREALIGN、IMOD和PRIISM/IVE等。而AUTO3DEM、IMAGIC、UCSFTOMOgraphy等則完全採用了MPI並行方式。著名的單顆粒三維重構軟體EMAN目前所有的並行手段都已經實現，SPIDER和IMIRS程序則採用了OpenMP和MPI並行方式，但SPIDER保留了任務級的並行方式，而IMIRS程序沒有。XMIPP則採用了MPI和pthreads方式。

通過上面的分析，可以發現冷凍電鏡三維重構的高性能計算IT需求歸納為以下幾部分：

· 主要為浮點計算，其中有大量的單精度或雙精度快速傅立葉（FFT）計算。

· 軟體內存需求和I/O需求大，一般都需要配置並行文件系統。

針對傅立葉（FFT）計算，目前主流大量採用nVidia GPU是行業慣例，nVidia CUDA為開發人員提供了多種庫，其中cuFFT庫則是CUDA中專門用於進行傅立葉變換的函數庫。「cuFFT」全稱是CUDAFast Fourier Transform，顧名思義，它提供了一系列的函數幫助開發者進行快速傅立葉變換的運算。

cuFFT庫由兩個子庫構成，它們分別是CUFFT和CUFFTW。CUFFTW庫是一個移植工具（portingtool），它為用戶提供了一些接口，以使得用戶使用FFTW庫（一個非常流行的CPU快速傅立葉變換庫）編寫的程序能夠運行在CUDAGPU上。而CUFFT則是純CUDA接口的快速傅立葉變換庫。

針對高性能計算文件系統，業界解決方案有很多：Lustre、BeeGFS、分布式橫向擴展NAS等等。

病毒研究也是對

計算和存儲能力的大考

戴爾科技集團是世界500強的IT解決方案企業，多年以來在高性能計算HPC領域有深厚的沉澱，在國內很多高校生命科學院也成功實施部署了規模不等的冷凍電鏡HPC平臺，例如包括清華大學生命科學與技術學院、北京大學生命科學聯合中心、西湖大學生命科學學院、哈爾濱工業大學生命科學與技術學院等，在該領域有豐富的規劃設計及部署實施經驗。

前面提到過由於冷凍電鏡三維重構過程中，需要大量的快速傅立葉FFT計算，所以需要海量GPU算力資源來支持，戴爾科技生命科學類HPC解決方案推薦了多款GPU伺服器設備滿足該需求。

伺服器型號	支持CPU的數量及型號	支持GPU的數量及型號	伺服器外形高度
R740/R740xd	2顆Intel®至強®第二代可擴展系列處理器	3塊雙寬度GPU(如nVidia Tesla V100) 或6塊單寬度GPU(如nVidia Tesla T4)	2U高度機架式
R7515	1顆AMD 第二代EPYC處理器	4塊單寬度GPU(如nVidia Tesla T4)	2U高度機架式
R6515	1顆AMD 第二代EPYC處理器	2塊單寬度GPU(如nVidia Tesla T4)	1U高度機架式
R6525	2顆AMD 第二代EPYC處理器	2塊單寬度GPU(如nVidia Tesla T4)	1U高度機架式
R840	4顆Intel®至強®第二代可擴展系列處理器	2塊雙寬度GPU(如nVidia Tesla V100) 或4塊單寬度GPU(如nVidia Tesla T4)	2U高度機架式
R940xa	4顆Intel®至強®第二代可擴展系列處理器	4塊雙寬度GPU(如nVidia Tesla V100) 或8塊單寬度GPU(如nVidia Tesla T4)	4U高度機架式
T640	2顆Intel®至強®第二代可擴展系列處理器	4塊雙寬度GPU(如nVidia Tesla V100) 或8塊單寬度GPU(如nVidia Tesla T4)	塔式或5U高度機架式
C4140	2顆Intel®至強®第二代可擴展系列處理器	4塊雙寬度GPU(如nVidia Tesla V100)	1U高度機架式
DSS8440	2顆Intel®至強®第二代可擴展系列處理器	10塊雙寬度GPU(如nVidia Tesla V100)	4U高度機架式

特別需要提到的是C4140這款伺服器，1U高度可以安裝4塊雙寬度GPU(如nVidia Tesla V100)，且支持NVLink或PCI-E兩種架構方式可選，用於不同的應用業務場景，同時節省機櫃佔用空間。

▲戴爾易安信PowerEdgeC4140

不管是生命科學類超算應用，還是校級超算平臺綜合性應用，近年來在國內多所知名高校都有成功部署案例如北京大學、武漢大學等等。

說到HPC集群，除了需要強大的計算資源以外，還離不開存儲資源。

總的來說冷凍電鏡HPC集群對存儲I/O性能和容量要求較高，原因如下：

· 電鏡投影圖片數量和尺寸不斷增加（4K × 4K, 8K × 8K）；

· 生成三維重構文件巨大（GB-TB）；

· 若要達到滿意結果需要迭代計算幾十次甚至更多。

比如說上海科技大學免疫化學研究所饒子和院士（新聞原文：https://new.qq.com/rain/a/20191018A08PWT）所率領的聯合團隊通過冷凍電鏡累計獲得了7萬餘張合計超過100TB的高質量照片，完整病毒顆粒接近6萬5千顆，最終解析了非洲豬瘟病毒全顆粒的三維結構。這些巨大的數據量對背後的超算系統都是不小的挑戰。

而在存儲領域，戴爾科技集團亦有深厚的技術積累，並且經過多年的市場考驗，長期在IDC全球外部存儲設備市場排名第一，積累了優秀的口碑。其針對HPC應用領域，提供了如下多種存儲方案供選擇。既保證性能/容量要求，又提供更多功能選擇供未來擴展業務應用，並且考慮到客戶的投資回報。

高性能計算HPC集群項目，涉及產品眾多，技術複雜，一般還會涉及大量的開源作業系統/開源應用軟體等，其實施部署複雜，而售後處理會涉及到多方面多供應商。戴爾科技集團為此推出了「適用於HPC的ProSupport附加服務」，提供了比ProSupport及ProSupportPlus基於設備本身售後服務更高級別的支持。

對客戶IT管理層來說，「適用於HPC的ProSupport附加服務」帶來了如下的好處：

· 具有完整硬體和服務組合的單一提供商：全部由戴爾科技集團來作為售後服務唯一接口人

· 有更多時間關注業務目標

· 管理群集的成本降低

同時也給客戶HPC系統管理員帶來了好處：

· 增強部署/支持生命周期體驗

· 標準化服務確保預期結果

· 更快地解決問題

· 獲得高級疑難解答與協助：就功能、特性、群集配置問題、固件版本、互操作性和 HPC 一般「入門」問題提供建議；根據在部署期間運行的性能基準測試所建立的預先記錄級別，幫助解決群集性能退化問題；協助解決您 HPC 環境特有的關鍵支持問題。

作者說明：本文涉及到一些生命科學等專業的知識內容，作者是查閱網際網路公開資料總結整理而成，由於時間倉促，在文字內容上恐有瑕疵或錯誤，懇請讀者專家們給出意見和建議，謝謝！

從病毒研究談起,聊聊冷凍電鏡及背後的HPC

相關焦點

大事記:冷凍電鏡的發展歷程-結構生物學研究利器

科學家研究單純皰疹病毒基因組的冷凍電鏡結構

深圳聯合研究團隊利用冷凍電鏡首次觀測到滅活新冠病毒真貌

新冠病毒為何更易傳染?冷凍電鏡圖解病毒進入細胞的「鑰匙」

新冠病毒傳染性為何更強?冷凍電鏡圖破解答案

中國科學家解析朊病毒蛋白澱粉樣纖維冷凍電鏡結構

冷凍電鏡技術如何革新生物學

【重磅】冷凍電鏡Cryo-EM解析出新冠病毒首個S蛋白的近原子解析度...

冷凍電鏡+清華大學=7篇Cell、Nature、Science

未來篇 | 冷凍電鏡,能否「飛入尋常百姓家」?

劃時代的冷凍電鏡技術--中國數字科技館

漲知識丨冷凍電鏡是什麼?為什麼能夠斬獲今年諾貝爾化學獎?

冷凍電鏡圖解病毒進入細胞的「鑰匙」|科技抗疫

超級計算機、冷凍電鏡、人工智慧……如何運用高科技攻克病毒?

冷凍電鏡單顆粒技術的發展、現狀與未來

冷凍電鏡技術揭示生物分子細節(科技大觀)

我國首次利用冷凍電鏡技術獲得生物大分子複合體全原子模型

冷凍電鏡下新冠病毒現「真貌」

冷凍電鏡三維分子成像國際研討會舉行—資訊—科學網

冷凍電鏡技術揭開重要蛋白原子結構