新技術的不斷湧現一直推動著現代生物學的發展:新技術(如重組DNA)的出現,使得分子生物學仍然是現代生物學的主流;新一代測序(NGS)技術的興起和暴髮式發展不僅在數量上,而且在質量上改變了生物學和醫學。
中國工程院院刊《Engineering》刊發《信息科學應引領未來的生物醫學研究》一文,在回顧生物醫學研究與數據科學和人工智慧的關係的基礎上,對未來生物醫學研究進行了展望。文章指出,隨著新技術的不斷出現,現代生物醫學的發展持續加速,由於所有生命系統基本上都受其自身DNA中信息的支配,因此信息科學對生物醫學的研究具有特別重要的意義。數據科學和人工智慧將在未來的精密醫學中起主導作用。
一、現代生物學和新技術
新技術的不斷湧現一直推動著現代生物學的發展。例如,在20世紀60年代末,曾有關於分子生物學衰落的討論(即從潛在大分子行為的角度理解生物現象的潛在局限)。這是因為當時許多科學家已經意識到傳統方法(如基於噬菌體的實驗)存在一定的局限性。該領域的幾位先驅,包括Francis Crick本人,隨後向新方向的挑戰發起探索。然而,隨著新技術(如重組DNA)的出現,所謂的分子生物學仍然是現代生物學的主流。更近的例子是,新一代測序(NGS)技術的興起和暴髮式發展不僅在數量上,而且在質量上改變了生物學和醫學。NGS最終將通過社會保險制度的變化等方式影響社會。在這篇評論中,筆者想在簡要回顧生物醫學研究與數據科學和人工智慧(AI)的關係之後,介紹筆者對未來生物醫學研究的看法。
二、信息科學在生物醫學中具有特殊的重要性
毫無疑問,使用計算機在科學研究的各個領域都很重要(如處理「信息」的設備)。然而筆者想強調,計算機的使用在生物(醫學科學)中具有特殊的重要性,因為所有的生命系統基本上都由它們自身的遺傳信息(DNA)控制。《紐約時報》中一篇關於Leroy Hood的文章中有一句名言:「生物學是一門信息科學」。當然,我們還遠遠沒有達到只對基因組DNA序列進行理論研究就能理解生物學現象的地步。但計算研究的相對重要性無疑將在生物醫學領域得到提高,即使是實驗研究也會得到機器人和(或)人工智慧的極大幫助。要了解複雜的生物醫學現象,如癌症,我們就需要考慮系統(即在許多條件下,諸多基因產物與細胞類型之間的相互作用)。如果沒有計算機模擬等計算技術的幫助,這樣的努力是不可能得到結果的。
三、數據科學很適合生物學
生物學的另一個重要特徵是,迄今為止,在生物學上還沒有發現(或很少)與牛頓定律等價的主要定律或原理。著名物理學家Ernest Rutherford曾說「所有的科學要麼是物理,要麼是集郵」。生物學或許是他心中一個「集郵」的典型例子。即使過了一個世紀,這種情況也沒有太大改變。生物學的這一特徵可能是與生俱來的,因為生物系統是以一種相當短視的方式進化的,類似於自然語言的發展。如果生物系統和自然語言的進化類似,那麼研究它們的有效方法也應該有一些共同之處。的確,就像編纂字典對自然語言研究的重要性一樣,在生物學和醫學領域,建立用於儲存和組織大量數據的資料庫也非常重要。例如,核心學術期刊Nucleic Acids Research(牛津大學出版社出版)每年的第一期都以資料庫為主題;另一個例子是,諸如隱馬爾可夫模型(HMM)等概率建模方法已經在這兩個領域得到了成功的應用。筆者相信這些事實證明了數據科學在生物醫學中的重要性。
實際上,現代生物學作為一門數據驅動科學已經取得了很大的進步。在過去,人們通過巧妙的(小規模的)實驗來證明某些假設;與此相反,如今通過處理大量系統化產生的無偏數據可以得到新的知識或假設,這種方法有時被稱為「從數據到知識」(D2K)。這正是需要數據科學的地方,即使不知道基本原理,我們對生物醫學的理解也應該在數據科學的幫助下加深至足以造福人類的程度。
四、人工智慧和生物醫學——回顧
在計算機科學中,對人工智慧的研究(這裡,筆者只是將人工智慧定義為嘗試使計算機像人類一樣更「智能化」)有著悠久的歷史,包括各種各樣的嘗試,其中一些與生物醫學密切相關。例如,在20世紀70年代初,一個名為MYCIN的診斷細菌感染性疾病的電腦程式對社會產生了巨大的影響;另一個例子是,在20世紀70年代末,史丹福大學的MOLGEN項目將基於知識的問題解決方法應用於多個案例,包括設計遺傳學實驗。當筆者還是一個博士生時,選擇了應用AI的主題——更具體地說,是基於知識/規則的專家系統——來解釋新確定的基因組序列。實際上,筆者構建了一個「if-then」類型的專家系統,用於從胺基酸序列預測蛋白質的亞細胞定位。這些規則是根據已知與亞細胞位置相關的各種蛋白質分類信號和序列特徵(如胺基酸組成)來制定的。該系統被命名為PSORT,並用於國際酵母基因組計劃。後來,我們利用機器學習技術(k最近鄰算法)全面升級了系統,使其更容易在頻繁更新的訓練數據下完成更新和優化。它是通過網際網路運行的,當時網際網路還處於起步階段。此後,預測因子PSORT家族得到了分子生物學家的廣泛應用。目前,人工智慧應用於生物醫學的主流似乎是深度學習(見下文),但筆者認為傳統的嘗試在生物醫學中使用知識庫仍然很重要。這樣的研究現在活躍在語義網領域。
五、人工智慧與生物醫學
近年來,人工智慧的影響已幾度引發人們的研究熱情。很明顯,我們現在看到的這種浪潮,很大程度上是由深度學習和相關技術的成功引起的。在生物學領域,一個裡程碑可能是人工智慧最近在蛋白質結構預測的關鍵評估(CASP)比賽中的獲勝,該比賽自1994年以來每年舉行一次。在CASP中,參賽者得到一組摺疊[三維(3D)]結構未知的胺基酸序列的蛋白質,並提交他們預測的3D結構,由組織者嚴格評審。在最近的第十三屆CASP中,由DeepMind團隊(該團隊因其在傳統圍棋遊戲中的成功而聞名)開發的AlphaFold預測系統顯示出了最好的預測精度。蛋白質摺疊這一基本問題已經被研究了很多年,所以這一結果的意義非凡,儘管它並不意味著問題本身已經完全解決。因此,類似的方法可能會對解決DNA序列解釋中存在的問題很有用,這應該有利於個性化醫療。例如,人工智慧可能有助於識別每個個體的基因組序列中潛在的與疾病相關的突變。事實上,一個商業化的基於人工智慧的系統(the IBM Watson for Oncology)根據各種可用數據為醫生提供優先治療方案。最近,有一項針對中國癌症患者的人工智慧系統與臨床實踐的一致性研究被發表。這種技術毫無疑問有助於:①加速對大量患者的個性化診斷;②及時更新系統以使其與新傳入的數據相匹配;③優化針對特定族群的系統。下一個巨大的挑戰可能是將這類機器學習方法與上述知識型方法相結合。
六、現代生物醫學通過NGS產生大量數據
正如筆者上面提到的,一切生命系統都是基於它們被編碼成DNA序列的信息(也就是基因組信息)而構成的。NGS技術的最新進展使得以合理的成本(約1000 USD或更少)測定每個個體的整個基因組成為可能,這是一個大約3.3×109 個鹼基的序列(實際上,每個個體基本上有兩個來自雙親的基因組)(圖1)。
NGS在很多方面對於了解基因組DNA中包含的信息是很有用的:
①由於大多數疾病都與基因組的缺陷或變異有關,因此將患者和健康人的基因組DNA序列進行比較,應該有助於確定哪些部分的差異與疾病有關。這種方法被稱為全基因關聯研究(GWAS)。一旦發現DNA的任何候選位置(即所在地)和某種表型,就可以採用另一種被稱為DNA編輯的技術[通過規律成簇間隔短回文重複(CRISPR)/Cas系統]來培養細胞以確認這種關係。
②與此類似,應該對不同物種和(或)許多個體的基因組序列進行廣泛的比較,以確定DNA的哪些部分是相同的(即保守的),因為這些區域可能有相同的功能。同樣有趣的是,利用這樣的比較可以弄清一個物種基因組的新變化將引發什麼樣的進化創新。例如,由於人類基因組和黑猩猩(以及其他靈長類動物)的基因組非常相似,因此了解人類基因組之間的關鍵差異是非常重要的。
③重要的是,DNA序列通過表觀遺傳學機制直接和間接地影響著我們的生活。例如,現在已經證實,基因讀取活躍的DNA區域處於暴露的結構中,並且在DNA本身或其結合蛋白(組蛋白)上標記有特殊的化學修飾。這些標記被用作一種細胞記憶。這些機制似乎是理解單個受精卵如何系統地產生各種細胞的關鍵。有趣的是,NGS技術不僅用於「讀取」DNA序列,還可以通過染色質免疫沉澱測序(ChIP-seq)和Hi-C 等技術來確定各種表觀遺傳狀態。最近,甚至有可能從單個細胞(通過單細胞測序/表觀基因組學)獲得這樣的數據,從而能夠在細胞水平上精確追蹤一些更簡單的生物體的整個發育過程。這種單細胞技術也有助於理解癌細胞的異質性:一種能夠促進腫瘤生長的新的體細胞突變如何在腫瘤細胞群中發生;具有這種突變的細胞亞群如何隨著腫瘤的生長而增殖;以及一些細胞是如何獲得在體液中循環的能力,從而導致癌症擴散到遠離其起源的身體部位(即轉移)。事實上,即使在癌症的相對早期階段,血液循環中也有來自腫瘤細胞的DNA碎片。以預測患者為目的而對這種DNA[無細胞DNA(cfDNA)]進行檢測的技術被稱為液體活檢,它將徹底改變早期癌症檢測。
④DNA測序不僅適用於純化DNA樣本,還適用於混合DNA,即來自多個物種的DNA(宏基因組)。一個典型的例子是腸道細菌的宏基因組測序,由此我們可以估計腸道細菌的大致組成。眾所周知,腸道細菌通過各種代謝產物(化合物)與人體發生作用,以多種方式影響人類的健康,所以這些信息對於了解人類健康是非常有價值的。因此,結合使用高通量質譜儀系統獲得的代謝組數據,我們可以獲得更精確的健康狀況組合。
綜上所述,NGS可以運用到生物醫學的多個方面,人們將持續努力,以產生大量真實的數據(圖2)。NGS性能提高的速度甚至超過了摩爾定律(圖1)。這種情況必須通過數據科學和人工智慧來解決——事實上,這些技術應該引領生物醫學,而不僅僅是幫助其解決問題。
圖1 與摩爾定律相比,人類基因組測序成本的變化趨勢。虛線代表摩爾定律,其繪製具有一定隨機性
圖2 公共資料庫中的NGS數據以驚人的速度增長[美國國立衛生研究院(NIH),國家生物技術信息中心(NCBI)的序列讀取存檔(SRA)資料庫]。Y軸以對數刻度表示資料庫的規模。實線代表總庫數,虛線代表開放的庫(即資料下載不受任何限制)。截至2019年6月,SRA總共擁有2.9×1016個庫
七、結論
大約20年前,當人類基因組計劃啟動時,筆者耳聞過生物學與天氣預報之間一個有趣的類比:在我們的童年時代,天氣預報是由經驗豐富的專業人士來完成的,但他們的預報並不十分可靠。如今,數據的組合(如溫度、溼度和氣壓)可以在多個網格點獲得,並輸入超級計算機中。因此,基於這些模擬結果的預測變得更加準確。與之類似,在大量點(如單個細胞)測得的精確數據的組合(如上面介紹的各類NGS數據)將用於計算預測各種事情(如個人在未來10年內患病的潛在風險)。這些方法目前在多組學和(或)精準醫療的背景下被提到。數據科學和人工智慧對於這些數據的綜合解釋和模擬都將變得至關重要。這些技術將表明需要什麼樣的附加信息,以及什麼樣的實驗來證明生成的假設。因此,未來10年對於生物醫學來說將會更加激動人心。
註:本文內容呈現形式略有調整,若需可查看原文。
改編原文:
Kenta Nakai.Information Science Should Take a Lead in Future Biomedical Research[J].Engineering,2019,5(6):1155-1158.
來源:中國工程院院刊