譚光明(左)與張春明正在分析數據。
2019年對於吳雙(化名)而言是最難熬的一年。年初,本以為是一場普通感冒引起的咳嗽,卻未曾想到在3個月後被診斷為中央型肺腺癌第四期,縱隔淋巴轉移,伴遠端腎上腺轉移。
「拿到診斷報告的那一刻,我沒有掉一滴眼淚。」說這句話的時候,吳雙轉頭看向窗外,故意將視線避開了記者的目光,但眼角卻滲出晶瑩的淚水。
吳雙,41歲,是一位都市職業女性。患病後,她和家人跑遍了北京多家知名的三甲醫院,嘗試過靶向藥物、化療、中藥等辦法,但病情都沒有得到緩解。「我還特地花了一萬多塊錢做了腫瘤基因檢測,很遺憾,報告顯示是沒有可用藥的基因突變。」
沒有相應的「可用藥」,又不能通過手術和放療進行積極幹預,這在臨床上只能「盲」用藥,即嘗試使用臨床上常用的一些藥物進行治療,再定期評估治療效果。但通常盲用藥物治療的效果只能「聽天由命」,而在醫院,像吳雙這樣的患者大有人在。
「即便能檢測到相應的基因突變,靶向藥物對不同患者的療效也並不相同。」中國工程院院士、中國醫學科學院腫瘤醫院主任醫師孫燕表示,腫瘤的發生是多基因聯合「發力」的結果,雖然通過基因檢測等手段可以得到海量的數據,但現有的認識仍集中在個別基因與治療腫瘤的關係,比如攜帶了致病性突變的BRCA1/2基因與乳腺癌、卵巢癌的關係,突變的EGFR基因與肺癌的關係等。「是否還會有其他基因的參與、每個基因發揮的作用如何,我們不得而知。」
其實,孫燕的這種困惑,也正是目前腫瘤領域最讓人「頭疼」的難題。對此,中國科學院計算技術研究所高性能計算機研究中心主任譚光明在接受《中國科學報》採訪時表示,當前,生物醫學大數據的規模和產生速度遠遠超出了普通規模計算機的處理能力,急需超算助力科學家從多維、立體、融合的數據中摸索出規律,從而更精確地輔助疾病的診斷和治療。
「查字典」式的有限應用
自人類基因組計劃啟動以來,以下一代測序技術(NGS)和質譜技術(MS)為代表的各類組學技術得到了飛速發展,再加上傳統的顯微鏡技術、生化方法、免疫組織化學方法、生理體徵檢測和臨床影像拍攝技術等數據源的聚集,使海量生物醫學數據呈現指數級增長態勢。
不可否認,即便尚未引入信息科學的大型工具,這些大數據也賦予了醫生和臨床科研人員更多、更細緻的維度去了解疾病發生發展過程,大大拓展了醫學研究的深度和廣度。
「比如,目前對一些明確的、單基因突變引起的疾病,基因組測序已經能實現精準診斷,幫助臨床更好地區分不同疾病、施以更恰當治療。」北京大學第三醫院病理科分子病理實驗室武睿博士表示,21—三體症候群、新生兒遺傳耳聾基因篩查等都是測序技術在臨床的良好應用。
但是,對於複雜的、多基因改變引起的疾病,我們尚不能有效地解讀患者的生命數據信息。以癌症患者為例,絕大多數突變都具有「個體特異性」,除了個別基因(例如EGFR等),同一個基因在不同患者中能找到相同突變的可能性微乎其微。不過,若從數據呈現的網絡調控模型來看,特定信號通路上的關鍵節點基因儘管發生了不同突變,但驅動的下遊細胞內事件可能是相同的。
現在生物醫學專家習慣性地將基因組數據與已有的知識體系進行「查對」(俗稱「查字典」)。「雖然這種方式在一定程度上解決了相應問題,但人體的複雜程度絕對是超乎想像的,真的有一本『字典』可查嗎?」哲源科技(中國科學院計算技術研究所孵化的一家構建生命數據解析平臺的人工智慧企業)營運長趙宇表示。
「這就需要我們有將生物學、醫學相關學科的知識轉化為數學模型的能力。」中國科學院計算技術研究所副研究員、中國科學院計算技術研究所西部高等技術研究院常務副院長張春明表示,應充分利用現有的生物醫學數據,引入系統科學理論和視角,通過設計新的算法挖掘數據之間的關係,為解決現有的問題尋找新的路徑。最終,以生物醫學大數據推動生物醫學研究由原來的假設驅動向數據驅動的方式轉變。
算法與算力助力大數據應用
但長期以來,醫生們受循證醫學訓練,更為強調「可靠」的知識。他們善於採集大樣本的臨床數據,並將基礎理論的研究與臨床經驗相結合,最後把臨床數據總結成臨床診療指南與路徑。
在精準醫療時代,清華大學人工智慧研究院教授楊斌認為,應該在循證醫學的基礎上,更強調患者個體的個性化診療,通過對患者的數據分析並結合臨床經驗,給出最佳治療方式。
「傳統循證醫學以群體證據作為核心依據,往往無法解釋個體差異。而精準醫學從基因、環境等個體因素考慮疾病在個體的發生發展過程和治療應答,與僅考慮患者共性的傳統循證醫學相比,能更好地詮釋個體差異,更好地提供個體化的藥物治療方案,更安全、更有效、更合理地配置醫療資源。」中國工程院院士、中國醫學科學院北京協和醫學院院校長王辰說。
此外,中國工程院院士樊代明也指出,傳統的生物醫學數據分析思維和方法難以適應大數據分析的需求。生物醫學大數據實現了以患者為維度的多源數據的整合,需要分析的數據如此之多,因此不再只依賴分析少量隨機抽樣的數據,也不再熱衷於探求數據之間難以捉摸的「因果關係」,而是更多關注數據的「相關關係」。與傳統隨機對照研究常用差異性統計分析方法不同,生物醫學大數據更多採用數據模型以及控制混雜的統計分析方法。
那麼,即便有了高質量的生物醫學大數據,有了相應的算法,就一定能摸索出疾病的發生發展規律麼?
譚光明給出的答案是否定的。他表示,光有數據和算法還遠遠不夠,必須要有強有力的算力支持。他舉例道,過去單一零散的數據,只需要在普通伺服器上用簡單程序處理和統計就可以;現在是多維海量的大數據,為了解決複雜生物醫學問題,要用多維海量的PB級(1PB=106GB)大數據對生命進行建模,那就要設計複雜的算法,而算法的複雜度和計算量遠遠超過了普通伺服器所能處理的規模,急需高性能的算力資源支撐。
計算醫學扛起數據分析的「大旗」
「基於此,面向人類健康大數據,我們不能簡單地將其理解為需要大規模存儲和處理的數據。大數據的概念有別於統計抽樣,它不是根據小規模抽樣調查來推測被觀察對象的全貌,而是試圖用對該對象的所有測量數據來刻畫對象。因此,大數據泛指能全面刻畫客觀對象所有數據的集合。」中國科學院計算技術研究所—哲源圖靈達爾文實驗室主任牛鋼表示。隨著數據量呈指數增長,數據更新速度不斷加快,精準醫學若想早日落地,急需計算機驅動的臨床決策支持系統。
這在譚光明看來,勢必會產生一門新型交叉學科——計算醫學。「它致力於發展定量方法,通過應用數學、工程學和計算科學來智能化理解人類疾病的機理,並基於工業化的數據、算法、算力及生物醫學技術體系為醫學服務提供新洞見。」
對此,譚光明從四個維度闡釋了計算醫學的內涵。首先,計算醫學以複雜性系統科學的整體論作為思維方式,去理解生物分子、細胞、組織器官、種群等多個生物層級結構之間相互作用中「湧現」出的新屬性,從系統的角度去捕捉疾病發生的機理;其次,計算醫學採用密集數據驅動的科學範式,挖掘隱藏於高維、高通量、多維融合的生物醫學大數據中的新洞見;再次,計算醫學將生物醫學領域的知識模型轉換為數學模型,以生物醫學大數據作為輸入參數,以人工智慧算法對模型進行迭代、訓練,輸出逼近於真實的生命系統結構與功能特徵,從而理解疾病發生的本質;最後,計算醫學以高性能計算為新一代計算基礎設施,為新科學發現提供數據存儲、計算精度和計算速度上的支撐。
「循證和計算都是實現精準的技術手段,計算醫學在更高維度上實現了循證。」張春明表示,未來,以基因測序為代表的數據生產一定會迎來免費的時代,數據挖掘成為最終的價值出口,立足生物醫學的科研和產業需求,我們構建了「生命信息引擎」,該引擎歸根到底就是面向生命醫學數據的計算機系統,屏蔽了海量數據的管理、理解和計算等方面的技術細節,讓生物醫學專家能夠便捷地利用信息技術解決行業問題。
文章開頭提到的吳雙,最後藉助「生命信息引擎」給出的數據分析結果,採用了一種可能的治療方案。目前,經過這一方案治療,她的體內已經沒有影像可見的腫瘤,血液腫瘤指標也回落至正常水平。
最後,張春明呼籲,生物學家、醫學專家和計算科學家攜起手共同豐富計算醫學的內涵,以期將疾病的預防、診斷和治療推向精準。
權威觀點
傳統的生物醫學數據分析思維和方法難以適應大數據分析的需求。生物醫學大數據更多採用數據模型及控制混雜的統計分析方法。
——中國工程院院士樊代明
我們發現的很多新的基因,是關鍵基因還是「沉默基因」?目前缺乏更廣泛和深入的研究。
——中國工程院院士孫燕
由於生物醫學數據種類繁多、數據分散、內部結構高維複雜,大數據分析比其他領域更困難。生物醫學領域如果仍只停留在採用字符串比對、搜索等傳統計算機技術,就難以挖掘生物醫學大數據的潛在高價值。
——中國工程院院士李國傑
作為醫生,需要轉變思想。未來每一個醫生都應該熟練應用智能工具處理海量信息,以尋求更加準確的診治方案。
——中國工程院院士胡盛壽
隨著數據規模的增加,傳統的數據模型和數據組織方式已經無法滿足海量數據的結構、數量快速增長以及數據結構不斷變化的管理需求。
——中國科學院院士賀林
伴隨大數據的累積而來的問題是如何將這些數據資源轉化為有價值的信息,並指導臨床實踐。
——中國科學院院士陸林
生命的整體性和疾病的複雜性,使信息化和大數據成為生命科學研究的必然。
——中國工程院院士王紅陽
大數據分析正在成為生物醫學領域的下一個前沿,將數據存儲、共享、分析和質量控制等技術融為一體,能不斷為大數據應用產業發展創造全新機遇。
——中國工程院院士劉昌孝
(張思瑋)