隨著測序產生的數據量不斷增加,及個性化分析需求的日益增長,利用雲平臺進行自主信息分析的模式逐漸成為新的發展趨勢。日前,騰訊雲聯合諾禾致源正式發布國內首個三代測序Falcon加速方案,優化後數據拼接時間縮短近40%,有效改善了應用場景中用戶交互時間長、成本高等問題,極大降低了基於三代測序的數據分析大規模商用門檻。
極速流程、高效拼接,降低三代測序數據分析大規模商用門檻
基因測序是一種新型基因檢測技術,能夠從血液或唾液中分析測定基因全序列,預測罹患多種疾病的可能性,已廣泛應用於生命科學研究的多個領域。目前該技術已經發展到了三代,憑藉其讀長長、無DNA序列偏好性等優勢,被廣泛應用於科技服務領域,例如對動植物等新物種的測序。但由於分析過程中計算資源消耗大,特別內存資源佔用高,因而組裝過程經常面臨由於資源設置不合理、分配資源不夠導致出錯的問題,極大的增加了用戶的交互時間和成本,成為分析應用過程中的重要卡點。
為了攻克三代測序數據組裝出現的一系列難題,騰訊雲基因團隊從前端到後端,從軟體到硬體橫跨系統、架構、算法和FPGA加速等多個維度進行優化和加速,重磅推出基於三代測序Falcon的極光速算SaaS解決方案,包含極光分布式計算、軟體優化和FPGA異構加速三大核心技術。
首先,傳統的三代數據拼接使用SGE進行作業調度,一個複雜的動植物物種的組裝,一般需要至少5萬以上CPU核時,由於計算複雜度大往往需要耗費大量的計算資源和存儲資源。面對資源無法合理均衡的難題,極光基因團隊在業界率先推出專門針對基因三代計算的極光調度器,針對不同流程不同算法特點進行靈活調度。
除此之外,還配備了一個百萬核資源池以供基因三代測序組裝等高性能計算的複雜應用場景使用,極大的緩解了基因客戶快速的業務增長和交互時間緊張的壓力。其次,基於騰訊極光異構體系,採用軟體優化搭配FPGA把性能進一步提升一個臺階,使用軟體對組裝流程進行優化並對Daligner和Consensus進行提速,採用高性能的FPGA晶片對其中的關鍵算法進行硬體加速,在晶片內部實現了上千個專用的極光算法單元核心,這上千個高速算法核心並行完成計算,快速對三代業務進行提速。據介紹,單個來自某物種的三代測序樣本數據(17G)可在3.8小時內完成所有拼接任務,相較於傳統的標準分析流程(6.5小時),時間縮短了近40%!
基因擁抱雲計算,騰訊雲助力生物基因行業發展
基因測序已進入爆發式的階段,用戶和應用量級的爆發,帶來了生命科學領域數據爆炸式的增長。雲計算憑藉能夠通過分布式計算對大數據進行處理的優勢,極大提升運算效率以及降低成本。
諾禾致源是目前國內最大的三代測序加速服務商之一,基於SaaS平臺搭建並優化項目分析流程,為基因組學提供更加高效、靈活的解決方案。曾在2017年年初引進Pacbio Sequel及Pacbio RSII平臺,用於全基因組denovo測序、全長轉錄組測序以及靶向測序服務,預期建成全球最大的三代測序中心。此次騰訊雲攜手諾禾致源,藉助其全球領先的先進技術和設備,融合騰訊雲自身在雲計算方面的大數據處理能力,將三代測序數據分析的拼接速度提升了71%,極大縮短了分析項目周期,形成樣本測序-數據分析完整服務鏈閉環,縮減測序用戶的數據轉移成本,緩解交付壓力,為雲端用戶開放高速的分析通道。
Pacbio Sequel Pacbio RSII
三代測序Falcon加速方案的發布,進一步完善了騰訊雲生物基因解決方案,可以更好的滿足不同類型基因用戶的不同場景和模式需求。目前,騰訊雲生物基因解決方案已成為眾多生物基因行業用戶的優先選擇。
生命科學領域的創新公司碳雲智能,依託騰訊雲在網際網路和人工智慧等方面的優勢,以及彈性、高效、低延遲的在線計算和大數據處理領先能力,建立了一個數字生命的大數據平臺。運用人工智慧技術分析、處理數據、尋找碳基生命的矽基未來,幫助每一個人管理數字生命健康。
隨著技術的不斷成熟,基因測序行業正在步入蓬勃發展期,將根本改變生物醫學基礎研究和實踐。同時,生命科學領域數據爆炸式的增長,亦對海量數據的計算、存儲和分析提出新的挑戰。此次騰訊雲攜手諾禾致源將發揮各自在生物基因組測序、測序數據分析、雲計算、數據處理、隱私安全保護以及數據傳輸方面的長處,達成更高效的生物大數據處理模式。