全基因組測序在臨床醫學領域正變得越來越重要。
在波及全球的新冠肺炎疫情期間,全基因組測序作為醫學領域的「緝毒犬」,在核酸檢測試劑盒還沒研發出來的時候,全基因組測序是診斷新冠肺炎的金標準。比病毒基因組大幾十萬倍的人基因組更是儲存著人生老病死的生命密碼,是精準醫學時代必須破譯的天書。隨著精準醫學的快速發展,全基因組測序對速度的需求也進一步擺在了業界面前,越來越受關注。
中國方案刷新全基因組測序速度的世界紀錄
全基因組測序技術將人基因組隨機打斷成數億個短片段平行測序,因此測完之後只是一大堆零散的數據,必須進行分析運算才能得到有生物學意義的結論。
承啟生物開發人員正在一臺高端家用電腦上調試Chi-Cloud
眾所周知,蘋果公司的賈伯斯為了治療,測了他的全基因組。彼時測序儀還不夠先進,賈伯斯花費了10萬美元實驗費用,用時幾個星期;相比之下,幾千美元的分析費用和幾天的運算時間並不顯眼。隨著測序儀器的不斷進步,現在一個人的全基因組測序的實驗成本已降至600美元以下,耗時縮短到一天,而分析費用卻並沒有減少太多,因此分析成本成為全基因組測序技術中的主要成本構成之一。究其原因,是因為全基因組測序的數據量非常龐大,算力需求驚人。全基因組測序數據分析的單任務完成時間普遍較長,通常需要20-30個小時。後來,許多團隊和公司紛紛採用FPGA、GPU等專用硬體來提升分析速度,但仍舊以小時為單位,無法「立等可取」。
雲計算廠商看到這樣的需求,開始涉足全基因組「測序數據云分析」領域:從Illumina公司推出的BaseSpace,到Google開發的DNANexus,再到阿里雲、百度雲等等。他們利用雲計算龐大的計算資源來加速運算。但遺憾的是,即便不計成本地同時動用幾十上百臺伺服器,單任務完成時間依然很難壓到半小時以內。
不久前,全基因組「測序數據云分析」領域傳來「爆炸性」消息:深圳承啟生物科技有限公司利用自主研發的雲平臺Chi-Cloud及高精度算法FANSe3,成功實現了單機5分鐘分析完成一個人全基因組數據集,再度刷新世界紀錄。
為什麼說是「再度刷新世界紀錄」呢?因為承啟生物曾在2018年以單機1小時的成績刷新過人全基因組測序數據分析速度的世界紀錄,比傳統技術快了幾十倍。如今再加速到5分鐘,一騎絕塵。
提升速度的「殺手鐧」:自研的FANSe算法
驚嘆之餘,不禁要問:承啟生物用了什麼「秘密武器」,能將單機解碼全基因組的速度提升到不可思議的5分鐘?答案是承啟生物自主研發的算法,可以以驚人的速度將測序得到的數億條短序列精準地與30億鹼基的人基因組進行比對,遠遠快過國外同類算法。只用CPU進行運算,就足以秒殺以往需要FPGA、GPU等專用加速硬體的性能。甚至單機5分鐘的速度,承啟使用的也並不是什麼高端伺服器,而只是一臺配置較好的家用電腦而已。
此前,大型測序中心為了處理海量測序數據,使用國外算法時大都需要巨額的硬體投入和專業維護,能耗也居高不下,成本很高。而承啟生物可讓大型測序中心無需購置和維護超算集群,能耗也大為降低。甚至連電腦都不用買,直接利用承啟生物的雲平臺即可。在「單機5分鐘」的強勁能力下,基因組測序的分析成本幾乎降至零。
自主創新讓全基因測序不再受制於人
日前,臺積電業績說明會上明確表示:在5月15日之後已經沒有接收華為的訂單,而且對華為的晶片供貨也將在9月14日停止,讓業界擔心華為今年的5nm晶片是否足夠自家的手機使用。
承啟生物實驗室一景
核心技術是企業乃至國家與地區的安身立命之本,只有實現核心技術自主才能不被扼住命運的咽喉,免於受制於人。
同通訊行業類似,基因組測序的分析同樣依賴於晶片。使用國外算法,單機運行效率並不高。為提高單機運算速度,只能採用專用晶片加速。
但受國內晶片技術局限,目前國內僅有自主CPU,而高性能FPGA、GPU等加速晶片依然被國外壟斷。
而FANSe3算法不依賴專用加速硬體,只要重新編譯就可在國產CPU上高效運行,從根本上避免晶片禁運風險。
當然,國內晶片孱弱的現實短期內難以改變。為應對國產CPU性能與國際頂尖水平的現實差距問題,FANSe3和承啟雲平臺架構在設計之初便支持大規模分布式運算和自適應任務調度,擴展性強,可利用多個CPU共同運算一個任務。簡單來說,如果一臺電腦性能不夠,可以將多臺電腦聯網捆綁起來,獲得成倍的性能提升。
由於FANSe3每一行代碼都是自主開發的,因此承啟生物還專門對國產測序儀的數據特性進行針對性適配和優化,成功規避其不足之處,使國產測序儀的能力得以充分釋放,比肩甚至超越國外最先進的水平。
至此,不用擔心中國的全基因組測序技術受制於人。
速度這麼快,能算準嗎?錯誤率十億分之一
與速度同樣重要的是算法的準確性。此前國際頂級醫學期刊就曾刊文指出,將一些病人的樣本送去兩家國際知名測序公司測序,結果絕大部分病人收到的兩份報告裡面測到的突變都不一致,使得醫生無所適從,而其主要原因之一便是傳統的算法不準確、不穩健。目前承啟生物的FANSe3的錯誤率已經可以穩定在十億分之一以下,並且經大量實驗表明,FANSe系列算法在基因組突變分析、轉錄組表達分析等應用上,準確度幾乎為100%,遠超國外基於BWA、Bowtie等傳統算法方案,並在醫學科研和臨床應用中成功分析超過50萬例樣本。
承啟生物實驗室一景
但要實現基因測序的準確性,算法只是一方面,同時還要確保從採樣、運輸、前處理到測序的實驗全過程萬無一失。
為此,承啟生物經過數年研發,開啟「全鏈條穩健」的方式:在其自有的保存運輸技術方案中,即便不使用乾冰、冰袋的情況下,檢測樣本也能經得住三天-55~45°C的劇烈溫差波動而保持完好;在樣本前處理和建庫階段,即便樣本發生降解,承啟生物研發的實驗方案也能確保實現近乎100%的準確性。基因檢測的應用場景也進一步擴寬,基因檢測門檻大大降低。
而且,這一系列技術仍然是承啟全自主研發,所用全部材料和設備均可100%國產。
普惠精準醫療時代的開端
對許多臨床急性病症來說,時間就是生命。承啟生物實現的單機5分鐘分析突破,以超高速的運算助力重症患者「與死神賽跑」。
而更重要的是,在技術安全和效率之外,單機5分鐘分析全基因組可以讓普惠精準醫療離我們更近。
長久以來,國內衛生支出高一直是個老大難問題,中國的個人衛生支出費用一直很高,以2016年的衛生支出數據來看,在中國,個人需要承擔35.9%,而這一數字在德國、法國僅為12.4%、9.8%。「看病貴」的問題在國內說了好多年。而基於基因組測序的精準醫療檢測,雖然已在多個醫學領域顯示出良好的成效,但幾乎無法進入醫保,動輒萬元的高昂檢測費用只能病人自費承擔。
承啟生物的新技術可以讓全基因組測序的硬體成本變得幾乎忽略不計,同時因為效率提升又大幅縮小人力成本。成本降低,也就意味著基因組測序的普及性更高。顯然,在未來醫療發展和大健康需求背景下,我們需要這樣一項「又快又準又便宜」的新技術以實現普惠精準醫療。有理由相信,隨著全基因組測序在常規醫療中的應用越來越廣泛,未來將成為常規檢驗。基於承啟生物自主技術,基因測序可以極低的成本來到我們的身邊。