2019年對於吳雙(化名)而言是最難熬的一年。年初,本以為是一場普通感冒引起的咳嗽,卻未曾料想到在3個月後,竟被診斷為中央型肺腺癌第四期,縱隔淋巴轉移,伴遠端腎上腺轉移。
「拿到診斷報告的那一刻,我沒有掉一滴眼淚。」說這句話的時候,吳雙轉頭看向窗外,故意將視線避開了記者的目光,但眼角卻滲透出晶瑩的淚水。
吳雙,41歲,是一位都市職業女性。她告訴《科學新聞》,患病後,她和家人跑遍了北京多家知名的三甲醫院,嘗試過靶向藥物、化療、中藥等辦法,但病情都沒有得到緩解。「我還特地花了一萬多塊錢做了腫瘤基因檢測,很遺憾,報告顯示是沒有可用藥的基因突變。」
沒有相應的「可用藥」,又不能通過手術和放療進行積極幹預,這在臨床上就意味著只能「盲」用藥,即只能嘗試使用臨床上常用的一些藥物進行治療,再定期評價治療效果。但通常盲用藥物治療的效果只能「聽天由命」,而在醫院,像吳雙這樣的患者是大多數。
「即便能檢測到相應的基因突變,靶向藥物對不同患者的療效也並不相同。」中國工程院院士、中國醫學科學院腫瘤醫院主任醫師孫燕表示,腫瘤的發生是多基因聯合「發力」的結果,雖然通過基因檢測等手段可以得到海量的數據,但現有的認識仍集中在個別基因與治療腫瘤的關係,比如攜帶了致病性突變的BRCA1/2基因與乳腺癌、卵巢癌的關係,突變的EGFR基因與肺癌的關係等。「但是否還會有其他基因的參與,每個基因發揮的作用如何,我們不得而知。」
其實,孫燕的這種困惑,也正是目前腫瘤領域最讓人「頭疼」的難題。對此,中國科學院計算技術研究所高性能計算機研究中心主任譚光明在接受《科學新聞》採訪時表示,當前,生物醫學大數據的規模和產生速度遠遠超出了普通規模計算機的處理能力,亟需超算助力科學家從多維、立體、融合的數據中摸索出規律,從而更精確地輔助疾病的診斷和治療。
大數據是基礎戰略資源
事實上,自人類基因組計劃啟動以來,以下一代測序技術(NGS)和質譜技術(MS)為代表的各類組學技術得到了飛速發展,再加上傳統的顯微鏡技術、生化方法、免疫組織化學方法、生理體徵檢測和臨床影像拍攝技術等數據源的聚集,使得海量生物醫學數據正呈現指數級增長態勢。
「這些生物醫學大數據是國家基礎戰略資源也是重要資產。」中國醫學科學院醫學信息研究所副所長錢慶告訴《科學新聞》,生物醫學大數據主要包含以下特徵:一是數量大、複雜性高。例如,目前單個樣本的人類基因組和轉錄組測序數據量分別超過了100GB和30GB。二是內容與類型豐富。不僅包括臨床數據、生物組學數據,還包括醫藥研發與管理數據、醫療保險數據、行為與情緒數據等。三是存儲分散。醫學數據與信息往往存儲在不同機構所創建的資料庫中,具有異地、異構的特點。四是時效性強。比如醫學檢測時間、影像數據的時間函數、醫學文獻的半衰期等,均是反映相關數據時效特徵的重要指標。五是私密性。生物醫學數據不可避免地會涉及有關病人的姓名、年齡、病情等隱私內容。
也就是說,國家級樣本庫與數據中心應當承擔起大數據基礎建設的重要任務,建立百萬級中國人群基礎表型的基因組多樣性數據,作為臨床基因組學研究的基線。因此,對樣本和數據的管理、生產、調度、處理、使用都需要相關部門的投入和規劃,以保證數據的質量控制、使用效率和安全性。從長遠來看,這也為未來臨床研究提供了標準和對照數據,不僅能大大節省研究經費,同時也能提高研究質量。也就是說,工業化的獲取、生產與管理,才能保證生物醫學大數據能夠作為國家基礎戰略資源。
生物醫學大數據已經賦能臨床
不可否認,即便尚未引入信息科學的大型工具,這些大數據也賦予了醫生和臨床科研人員更多、更細緻的維度去了解疾病發生發展過程,大大拓展了醫學研究的深度和廣度。
截至2014年3月,美國人類基因組研究中心(NHGRI)基因組測序和全基因組關聯性分析(GWAS)目錄有3961條人類疾病相關的單核苷酸多態性(SNP)信息記錄在案,涉及571種疾病。而到2016年9月,NHGRI-GWAS目錄中的疾病相關SNP信息已經增長至24218條。
「可以說,目前對一些明確的、單基因突變引起的疾病,基因組測序已經能實現精準診斷,幫助臨床更好地區分不同疾病、施以更恰當治療。」北京大學第三醫院病理科分子病理實驗室武睿博士向《科學新聞》表示,21-三體症候群、新生兒遺傳耳聾基因篩查等都是測序技術在臨床的良好應用。
「我們還可以通過與檢測藥物濃度高低、效應強弱有關的藥物代謝酶、轉運體和受體的突變基因,調整給藥劑量或治療方案。」山東大學齊魯醫院臨床藥理研究所教授郭瑞臣在接受《科學新聞》採訪時說。
此外,生物醫學大數據目前也在腫瘤精準診療、優生優育、病原微生物檢測、疾病易感人群預防等方面發揮著作用。
亟需從數據中挖掘規律
「但是,對於複雜的、多基因改變引起的疾病,我們尚不能有效地解讀患者的生命數據信息,更談不上對這些疾病進行精準診斷、個體化治療和療效檢測。」武睿表示,除部分服從於孟德爾遺傳定律的單基因遺傳病外,多數疾病的發病往往涉及多重的分子生物學機制,並同時受到環境或個體行為等外部因素的影響。
以癌症患者為例,絕大多數突變都具有「個體特異性」,除了個別基因(例如EGFR等),同一個基因內,在不同患者中能找到相同突變的可能性微乎其微。不過,若從數據呈現的網絡調控模型來看,特定信號通路上的關鍵節點基因,儘管發生了不同突變,但驅動的下遊細胞內事件可能是相同的。
而現在生物醫學專家習慣性地將基因組數據與已有的知識體系進行「查對」(俗稱「查字典」),雖然這種方式在一定程度上解決了相應問題,但是並沒有將多維數據進行系統整合與分析,自然也無法從數據裡挖掘出更底層的知識和規律。
「這就需要我們有將生物學、醫學相關學科的知識轉化為數學模型的能力。」中國科學院計算技術研究所副研究員、中國科學院計算機研究所西部高等技術研究院常務副院長張春明向《科學新聞》表示,應充分利用現有的生物醫學數據,引入系統科學理論和視角,通過設計新的算法挖掘數據之間的相關關係,為解決現有的問題尋找新的路徑。最終,以生物醫學大數據推動生物醫學研究由原來的假設驅動向數據驅動的方式轉變。
這也是全球範圍內亟待解決的難題。
「畢竟,由於科學研究越來越專業化,學科門檻也越來越高,因此各個學科之間的壁壘事實上是越來越森嚴,並且現有的科研評價體系也不利於開展交叉研究。」華中科技大學生命科學與技術學院教授薛宇對《科學新聞》直言,目前我們對生物醫學大數據的應用還處於非常初級的階段。
高質量數據才能成就「算法」
不過,要想從紛繁複雜的數據中摸索出規律,並非易事。數據質量首當其衝。 遺憾的是,我國生物醫學大數據的現狀並不樂觀。數據的存儲分散、碎片化,標準多樣化,資料庫建設低水平重複,數據質量參差不齊、匯交共享機制不完善等問題,使得各種數據很難有效融合。
「並且,不同檢測機構從業人員的專業,儀器型號和配置、質控體系的設置等都會影響數據的質量及可比性。」神州醫療高級副總裁、SNOMED International全球管理委員會董事弓孟春接受《科學新聞》採訪時表示,國內外現行的檢測平臺缺乏相互質控驗證,參比文庫不完整,測序技術缺乏測序分析準確性的統一標準,這就很難準確地建立基因數據與臨床信息相對應的資料庫。
這一點也得到零氪科技首席數據科學家阮耀平的認同。他告訴《科學新聞》,目前,每家基因檢測公司雖各有特色,但參考的基因組資料庫和醫學資料庫主要來自國外,並且測序方法與解讀標準都不一樣,這勢必會影響結果的可靠性與可通用性。
採訪中,多位受訪專家也向記者表示,數據安全性更是他們關心的話題。
「生物醫學大數據蘊含了極其豐富的信息和知識,是關乎國家持續發展、人類生存與健康的重要戰略資源。」中南大學計算機學院院長王建新表示,使用生物醫學大數據一定要保護個體的隱私,對數據進行清洗。
但同時,王建新也強調,不要因為安全問題而把數據鎖死,而應加大基因組數據加密和共享技術的開發力度,以便在保證研究協同的情況下,避免患者隱私的洩露。
「我國也在逐步完善各方面的體系和機制建設,但還需加快法律法規的建設腳步。」錢慶建議還要健全倫理監管和審查機制,切實做到事前審批、事中監督和事後跟蹤,規範生物醫學研究和應用活動,從而推動科學技術的良性發展。
此外,數據的規範採集和標準化也是掣肘數據融合的關鍵因素。
「只有在不同信息系統之間的互操作性得以保證,信息共享才具有實際意義。而要實現互操作性就需要對數據結構、文件格式、傳輸標準、接口協議及語義控制等進行統一。」弓孟春表示,如果沒有統一,談生物醫學數據的共享及利用,則純屬「空中樓閣」。
這一點,錢慶也非常贊同。他表示,生物醫學大數據的應用發展,標準是前提,質量是保障。「我們有必要引入適宜的國際標準,並結合我國具體情況進行改進和優化以實現標準的本地化。在政策部門的牽頭下,推動建設一批國家標準、行業標準與團體標準,並配有相應的執行與監督管理。」
弓孟春提醒,讓數據大規模脫離產生這些數據並負有監管責任的醫療機構顯然是有巨大風險的。「但現有的醫學信息學技術體系可以保證在每家醫療機構的內部對數據進行治理,而各家機構甚至各個國家之間執行通用的數據模型、語義控制及質量控制標準,這將進一步支持真實世界研究,為臨床診療及政策決策提供真實世界證據。」
從假設驅動到數據驅動離不開「算力」
那麼,即便有了高質量的生物醫學大數據,有了相應的算法,就一定能摸索出疾病的發生發展規律麼?
譚光明給出的答案是否定的。他表示,光有數據和算法還遠遠不夠,必須要有強有力的算力支持。他舉例到,過去單一零散的數據,只需要在普通伺服器上用簡單程序處理和統計就可以;現在是多維海量的大數據,為了解決複雜生物醫學問題,要用多維海量的PB級(1PB=106GB)大數據對生命進行建模,那就要設計複雜的算法,而算法的複雜度和計算量遠遠超過了普通伺服器所能處理的規模,亟需高性能的算力資源支撐。
採訪中,記者了解到,中國科學院計算技術研究所高性能計算機研究中心(原國家智能計算機研究開發中心)一直以來都將生命科學數據處理作為研製高性能計算機的關鍵應用牽引之一。
「大數據的核心是利用數據的價值,而機器學習是利用數據價值的關鍵技術,對於大數據而言,機器學習是不可或缺的。相反,對於機器學習而言,數據越多越可能提升模型的精確性。」中國科學院院士、中國科學院合成生物學重點實驗室主任趙國屏說。
這在譚光明看來,勢必會產生一門新型交叉學科——計算醫學。「它致力於發展定量方法,通過應用數學、工程學和計算科學來智能化理解人類疾病的機理,並基於工業化的數據、算法、算力及生物醫學技術體系為醫學服務提供新洞見。」
文章開頭提到的吳雙,最後選擇藉助中國科學院計算技術研究所—哲源圖靈達爾文實驗室的數據分析方法,該分析結果建議醫生採用一種可能的治療方案。目前,經過這一方案的治療,吳雙體內已經沒有影像可見的腫瘤,血液腫瘤指標也回落至正常水平,生活逐步恢復平靜。
「未來,在計算醫學的引領下,臨床醫務工作者除了精確引導治療方案的實施,更要集中力量在全程臨床管理上,包括個性化藥物副作用管理、術後管理、康複方案管理、突發事件管理、預後管理、隨訪、準確定義個體化康復指標等。」圖靈達爾文實驗室主任牛鋼表示,未來誰能處理大數據,誰就能在臨床醫學的發展方向上「扛大旗」。