■牛鋼
隨著基因測序技術在腫瘤領域的應用,目前幾乎所有腫瘤都需要通過基因檢測尋找已知基因突變的方式,確定合適的臨床治療方案。比如,部分肺癌患者的腫瘤組織樣本中都會出現EGFR基因的特定變異。在這種情況下,如果檢測到21號外顯子上的L858R突變,患者會感到「非常幸運」,因為採用相應的EGFR-TKI類靶向藥物,很大機會能獲益。
一般來說,雖然在非小細胞肺癌組織裡總能看到大約100~300個非同義突變,但是只有大概20%的患者能檢測到EGFR變異。EGFR突變在肺腺癌患者中算是最高頻突變,其他可用藥的基因變異更低,例如ALK融合基因的頻率差不多為5%,NRTK1的突變頻率在千分之幾左右。而且,一旦發現同時有KRAS基因突變,這些變異的指導價值就基本上沒有了,KRAS突變往往導致腫瘤對各種TKI藥物耐藥,也就意味著患者的治療可能面臨困境。
「這麼一本厚厚的基因檢測報告,檢測到這麼多突變基因,但是為啥醫生看了之後還是給不出治療方案呢?」這通常是腫瘤患者在做完基因檢測後的疑惑。
而這是整個基因檢測行業的痛點。
「查字典」作用有限
事實上,如果按照「查字典」的方式為腫瘤患者進行基因組解讀,雖有一定效果,但多數結局會讓人失望。因為字典太「薄」了,大多數患者的基因組變異情況都沒有被收錄其中——不是觀察不到,而是解釋不了。
從機器學習的角度來說,這種「查字典」的方式可以被稱為「知識驅動」的學習方法,也就是說,從書中找答案。這種方法當然有優勢:循證證據比較充分,在患者案例中重複出現,與藥物療效對應關係明確。但也有明顯缺點:書本裡的知識太少,只能解決少數人的特定臨床問題,並不能解決廣大患者的普遍性問題。
目前的情況是,絕大多數基因檢測機構只注重生產數據,而對數據的解讀基本沒有差異,因為都是在同樣的知識庫裡「查字典」。
由於學科沿革的歷史原因,基因組學的研究主要是由實驗生物學家主導的,重點在於數據生產,因此數據分析更加偏愛「篩選」思路:從成千上萬的基因中篩選出與目標表型相關的個別標誌物用於臨床指導,比如EGFR L858R突變。採用這種模式主要原因還在於研究過程幾乎用不著複雜的數學模型,也就不必消耗巨大的算力,一兩個研究者在筆記本電腦上採用現成的分析軟體、甚至excel就能做。
不過,如果將藥物伴隨診斷的基因組學標誌物的發現比喻為從樹上摘桃子的話,這種通過「篩選」單個位點突變就能獲得明確標誌物的方式就好比摘低處的桃子,易得且成本優勢明顯,但畢竟這樣的桃子數量有限,目前基本被摘完。
數據驅動能產生新認知
生物學家能生產優質的數據並解釋數據代表的生物學和醫學意義,但是要求他們從這些數據中提煉複雜的規律卻是強人所難。此時,信息科學家便迎來了千載難逢的機會。
與「知識驅動」學習方法不同,信息科學家善於從「數據驅動」的學習中掌握規律。就像阿爾法狗那樣,不需要太多先驗知識,也不需要太多生物學理論,只有足夠多的數據就行。在大數據的基礎上,通過設計合適的算法,藉助強大的算力,機器就能從紛繁複雜的數據世界中為複雜的臨床場景建立模型。
這裡必須強調一個可靠的、全面的資料庫的重要性。這正是生物學家、臨床醫生、設備工程師過去數十年通力合作的重要結晶,例如TCGA資料庫,已經收錄了上萬名泛癌種患者的臨床信息、病理信息以及若干種高質量的高通量組學數據。
基於這些數據,信息科學家就可以發揮他們的能力。在建立算法時,他們並不會在意這些腫瘤中找到的各種基因變異是不是以前被發現過、在實驗室裡研究過、被注釋過。他們通過知識——數據混合驅動的方法,首先為各種細胞功能構造模型,然後又幫助每個突變基因都找到符合自己角色的功能模型,因此,在一個腫瘤組織內,他們就可以讓所有的突變都對當前腫瘤主要執行的細胞功能進行「投票」。可以預見,這種被眾多變異票選出來的才是當前腫瘤生長最依賴的細胞功能,那麼當然也是醫生應該奮力打擊的主要靶標。
簡單來說,信息科學家通過機器解讀就能從整體上回答以下問題:怎樣從包含噪聲的測序數據中分辨出真實腫瘤中的突變?大多數突變是不是都在合力幹一件事?如果是合力幹一件事,它們合謀做的事情又是什麼?搗毀它們「陰謀」的方法是什麼?人類目前有什麼武器可以用於搗毀「陰謀」?回答這些問題,機器或許比人類做得更好。而且這種解讀方式的人力成本更低,工業化程度更高,臨床應用的價值也更大,真正能夠實現質高價廉的精準醫學臨床實踐。
因此,臨床醫生和患者可以要求檢測更廣泛的腫瘤基因組區間,提供更多基因組變異信息讓機器做更好判斷;另外,在實際的臨床實踐中,當遇到一份檢測出了很多「沒有臨床意義」變異,但沒有檢出一個「有效變異」的基因測序報告時,我們先別輕易「拋棄」,可以交給信息科學家和他們的「機器解讀者」進行深度解讀。機器解讀者對報告的深度解讀,不僅能夠基於人類專家無法理解的腫瘤基因組變異判斷患者可能的癌種、病理分型、惡性程度和預後、可用藥信號通路的活性,還能分析腫瘤免疫相關的信號通路活性、各種一線靶向藥物的適用性、免疫藥物Pd-1抑制劑的超進展可能,以及針對上百種抗腫瘤藥物進行虛擬篩藥。
未來,計算科學和IT工業的發展,能快速驅動當前腫瘤的診斷與治療走出困境,邁入一個新的「桃花源」。
(作者系中國科學院計算技術研究所西部高等技術研究院研究員)
《中國科學報》 (2020-06-29 第3版 醫藥健康)