信息科學引領未來生物醫學研究

2020-10-11 中國工程科技知識中心

新技術的不斷湧現一直推動著現代生物學的發展:新技術(如重組DNA)的出現,使得分子生物學仍然是現代生物學的主流;新一代測序(NGS)技術的興起和暴髮式發展不僅在數量上,而且在質量上改變了生物學和醫學。


中國工程院院刊《Engineering》刊發《信息科學應引領未來的生物醫學研究》一文,在回顧生物醫學研究與數據科學和人工智慧的關係的基礎上,對未來生物醫學研究進行了展望。文章指出,隨著新技術的不斷出現,現代生物醫學的發展持續加速,由於所有生命系統基本上都受其自身DNA中信息的支配,因此信息科學對生物醫學的研究具有特別重要的意義。數據科學和人工智慧將在未來的精密醫學中起主導作用。



一、現代生物學和新技術


新技術的不斷湧現一直推動著現代生物學的發展。例如,在20世紀60年代末,曾有關於分子生物學衰落的討論(即從潛在大分子行為的角度理解生物現象的潛在局限)。這是因為當時許多科學家已經意識到傳統方法(如基於噬菌體的實驗)存在一定的局限性。該領域的幾位先驅,包括Francis Crick本人,隨後向新方向的挑戰發起探索。然而,隨著新技術(如重組DNA)的出現,所謂的分子生物學仍然是現代生物學的主流。更近的例子是,新一代測序(NGS)技術的興起和暴髮式發展不僅在數量上,而且在質量上改變了生物學和醫學。NGS最終將通過社會保險制度的變化等方式影響社會。在這篇評論中,筆者想在簡要回顧生物醫學研究與數據科學和人工智慧(AI)的關係之後,介紹筆者對未來生物醫學研究的看法


二、信息科學在生物醫學中具有特殊的重要性


毫無疑問,使用計算機在科學研究的各個領域都很重要(如處理「信息」的設備)。然而筆者想強調,計算機的使用在生物(醫學科學)中具有特殊的重要性,因為所有的生命系統基本上都由它們自身的遺傳信息(DNA)控制。《紐約時報》中一篇關於Leroy Hood的文章中有一句名言:「生物學是一門信息科學」。當然,我們還遠遠沒有達到只對基因組DNA序列進行理論研究就能理解生物學現象的地步。但計算研究的相對重要性無疑將在生物醫學領域得到提高,即使是實驗研究也會得到機器人和(或)人工智慧的極大幫助。要了解複雜的生物醫學現象,如癌症,我們就需要考慮系統(即在許多條件下,諸多基因產物與細胞類型之間的相互作用)。如果沒有計算機模擬等計算技術的幫助,這樣的努力是不可能得到結果的。


三、數據科學很適合生物學


生物學的另一個重要特徵是,迄今為止,在生物學上還沒有發現(或很少)與牛頓定律等價的主要定律或原理。著名物理學家Ernest Rutherford曾說「所有的科學要麼是物理,要麼是集郵」。生物學或許是他心中一個「集郵」的典型例子。即使過了一個世紀,這種情況也沒有太大改變。生物學的這一特徵可能是與生俱來的,因為生物系統是以一種相當短視的方式進化的,類似於自然語言的發展。如果生物系統和自然語言的進化類似,那麼研究它們的有效方法也應該有一些共同之處。的確,就像編纂字典對自然語言研究的重要性一樣,在生物學和醫學領域,建立用於儲存和組織大量數據的資料庫也非常重要。例如,核心學術期刊Nucleic Acids Research(牛津大學出版社出版)每年的第一期都以資料庫為主題;另一個例子是,諸如隱馬爾可夫模型(HMM)等概率建模方法已經在這兩個領域得到了成功的應用。筆者相信這些事實證明了數據科學在生物醫學中的重要性。


實際上,現代生物學作為一門數據驅動科學已經取得了很大的進步。在過去,人們通過巧妙的(小規模的)實驗來證明某些假設;與此相反,如今通過處理大量系統化產生的無偏數據可以得到新的知識或假設,這種方法有時被稱為「從數據到知識」(D2K)。這正是需要數據科學的地方,即使不知道基本原理,我們對生物醫學的理解也應該在數據科學的幫助下加深至足以造福人類的程度。


四、人工智慧和生物醫學——回顧


在計算機科學中,對人工智慧的研究(這裡,筆者只是將人工智慧定義為嘗試使計算機像人類一樣更「智能化」)有著悠久的歷史,包括各種各樣的嘗試,其中一些與生物醫學密切相關。例如,在20世紀70年代初,一個名為MYCIN的診斷細菌感染性疾病的電腦程式對社會產生了巨大的影響;另一個例子是,在20世紀70年代末,史丹福大學的MOLGEN項目將基於知識的問題解決方法應用於多個案例,包括設計遺傳學實驗。當筆者還是一個博士生時,選擇了應用AI的主題——更具體地說,是基於知識/規則的專家系統——來解釋新確定的基因組序列。實際上,筆者構建了一個「if-then」類型的專家系統,用於從胺基酸序列預測蛋白質的亞細胞定位。這些規則是根據已知與亞細胞位置相關的各種蛋白質分類信號和序列特徵(如胺基酸組成)來制定的。該系統被命名為PSORT,並用於國際酵母基因組計劃。後來,我們利用機器學習技術(k最近鄰算法)全面升級了系統,使其更容易在頻繁更新的訓練數據下完成更新和優化。它是通過網際網路運行的,當時網際網路還處於起步階段。此後,預測因子PSORT家族得到了分子生物學家的廣泛應用。目前,人工智慧應用於生物醫學的主流似乎是深度學習(見下文),但筆者認為傳統的嘗試在生物醫學中使用知識庫仍然很重要。這樣的研究現在活躍在語義網領域。


五、人工智慧與生物醫學


近年來,人工智慧的影響已幾度引發人們的研究熱情。很明顯,我們現在看到的這種浪潮,很大程度上是由深度學習和相關技術的成功引起的。在生物學領域,一個裡程碑可能是人工智慧最近在蛋白質結構預測的關鍵評估(CASP)比賽中的獲勝,該比賽自1994年以來每年舉行一次。在CASP中,參賽者得到一組摺疊[三維(3D)]結構未知的胺基酸序列的蛋白質,並提交他們預測的3D結構,由組織者嚴格評審。在最近的第十三屆CASP中,由DeepMind團隊(該團隊因其在傳統圍棋遊戲中的成功而聞名)開發的AlphaFold預測系統顯示出了最好的預測精度。蛋白質摺疊這一基本問題已經被研究了很多年,所以這一結果的意義非凡,儘管它並不意味著問題本身已經完全解決。因此,類似的方法可能會對解決DNA序列解釋中存在的問題很有用,這應該有利於個性化醫療。例如,人工智慧可能有助於識別每個個體的基因組序列中潛在的與疾病相關的突變。事實上,一個商業化的基於人工智慧的系統(the IBM Watson for Oncology)根據各種可用數據為醫生提供優先治療方案。最近,有一項針對中國癌症患者的人工智慧系統與臨床實踐的一致性研究被發表。這種技術毫無疑問有助於:①加速對大量患者的個性化診斷;②及時更新系統以使其與新傳入的數據相匹配;③優化針對特定族群的系統。下一個巨大的挑戰可能是將這類機器學習方法與上述知識型方法相結合。


六、現代生物醫學通過NGS產生大量數據


正如筆者上面提到的,一切生命系統都是基於它們被編碼成DNA序列的信息(也就是基因組信息)而構成的。NGS技術的最新進展使得以合理的成本(約1000 USD或更少)測定每個個體的整個基因組成為可能,這是一個大約3.3×109 個鹼基的序列(實際上,每個個體基本上有兩個來自雙親的基因組)(圖1)。


NGS在很多方面對於了解基因組DNA中包含的信息是很有用的


由於大多數疾病都與基因組的缺陷或變異有關,因此將患者和健康人的基因組DNA序列進行比較,應該有助於確定哪些部分的差異與疾病有關。這種方法被稱為全基因關聯研究(GWAS)。一旦發現DNA的任何候選位置(即所在地)和某種表型,就可以採用另一種被稱為DNA編輯的技術[通過規律成簇間隔短回文重複(CRISPR)/Cas系統]來培養細胞以確認這種關係。


②與此類似,應該對不同物種和(或)許多個體的基因組序列進行廣泛的比較,以確定DNA的哪些部分是相同的(即保守的),因為這些區域可能有相同的功能。同樣有趣的是,利用這樣的比較可以弄清一個物種基因組的新變化將引發什麼樣的進化創新。例如,由於人類基因組和黑猩猩(以及其他靈長類動物)的基因組非常相似,因此了解人類基因組之間的關鍵差異是非常重要的。


③重要的是,DNA序列通過表觀遺傳學機制直接和間接地影響著我們的生活。例如,現在已經證實,基因讀取活躍的DNA區域處於暴露的結構中,並且在DNA本身或其結合蛋白(組蛋白)上標記有特殊的化學修飾。這些標記被用作一種細胞記憶。這些機制似乎是理解單個受精卵如何系統地產生各種細胞的關鍵。有趣的是,NGS技術不僅用於「讀取」DNA序列,還可以通過染色質免疫沉澱測序(ChIP-seq)和Hi-C 等技術來確定各種表觀遺傳狀態。最近,甚至有可能從單個細胞(通過單細胞測序/表觀基因組學)獲得這樣的數據,從而能夠在細胞水平上精確追蹤一些更簡單的生物體的整個發育過程。這種單細胞技術也有助於理解癌細胞的異質性:一種能夠促進腫瘤生長的新的體細胞突變如何在腫瘤細胞群中發生;具有這種突變的細胞亞群如何隨著腫瘤的生長而增殖;以及一些細胞是如何獲得在體液中循環的能力,從而導致癌症擴散到遠離其起源的身體部位(即轉移)。事實上,即使在癌症的相對早期階段,血液循環中也有來自腫瘤細胞的DNA碎片。以預測患者為目的而對這種DNA[無細胞DNA(cfDNA)]進行檢測的技術被稱為液體活檢,它將徹底改變早期癌症檢測。


DNA測序不僅適用於純化DNA樣本,還適用於混合DNA,即來自多個物種的DNA(宏基因組)。一個典型的例子是腸道細菌的宏基因組測序,由此我們可以估計腸道細菌的大致組成。眾所周知,腸道細菌通過各種代謝產物(化合物)與人體發生作用,以多種方式影響人類的健康,所以這些信息對於了解人類健康是非常有價值的。因此,結合使用高通量質譜儀系統獲得的代謝組數據,我們可以獲得更精確的健康狀況組合。


綜上所述,NGS可以運用到生物醫學的多個方面,人們將持續努力,以產生大量真實的數據(圖2)。NGS性能提高的速度甚至超過了摩爾定律(圖1)。這種情況必須通過數據科學和人工智慧來解決——事實上,這些技術應該引領生物醫學,而不僅僅是幫助其解決問題。


圖1 與摩爾定律相比,人類基因組測序成本的變化趨勢。虛線代表摩爾定律,其繪製具有一定隨機性


圖2 公共資料庫中的NGS數據以驚人的速度增長[美國國立衛生研究院(NIH),國家生物技術信息中心(NCBI)的序列讀取存檔(SRA)資料庫]。Y軸以對數刻度表示資料庫的規模。實線代表總庫數,虛線代表開放的庫(即資料下載不受任何限制)。截至2019年6月,SRA總共擁有2.9×1016個庫


七、結論


大約20年前,當人類基因組計劃啟動時,筆者耳聞過生物學與天氣預報之間一個有趣的類比:在我們的童年時代,天氣預報是由經驗豐富的專業人士來完成的,但他們的預報並不十分可靠。如今,數據的組合(如溫度、溼度和氣壓)可以在多個網格點獲得,並輸入超級計算機中。因此,基於這些模擬結果的預測變得更加準確。與之類似,在大量點(如單個細胞)測得的精確數據的組合(如上面介紹的各類NGS數據)將用於計算預測各種事情(如個人在未來10年內患病的潛在風險)。這些方法目前在多組學和(或)精準醫療的背景下被提到。數據科學和人工智慧對於這些數據的綜合解釋和模擬都將變得至關重要。這些技術將表明需要什麼樣的附加信息,以及什麼樣的實驗來證明生成的假設。因此,未來10年對於生物醫學來說將會更加激動人心。


註:本文內容呈現形式略有調整,若需可查看原文。


改編原文:

Kenta Nakai.Information Science Should Take a Lead in Future Biomedical Research[J].Engineering,2019,5(6):1155-1158.


來源:中國工程院院刊

相關焦點

  • 生物科學與生物醫學工程專業的研究領域相似嗎
    生物科學與生物醫學工程專業的研究領域相似嗎?有些學生確實比較喜歡生物學科哈!家長們在給孩子進行志願填報的時候,看見和生物相關的專業就報,但是您是否知道生物學領域大學專業有三個二級專業類:生物科學、生物工程和生物醫學工程,就不怕專業之間有區別嗎?
  • 邀請函 | 基因科學 引領未來,2020年賽默飛基因科學與臨床測序業務...
    基因科學,引領未來圍繞「基因科學,引領未來」主題,賽默飛將在北京,上海,廣州和武漢四地舉辦基因科學與臨床測序業務高端用戶會,召集行業專家分享一線經驗,為基因分析領域人士搭建交流平臺,助力基因測序研究與應用發展。
  • 西湖大學首屆全球人才招募大會,揭示未來生物醫學發展的三大方向
    ,從目前西湖大學的學科設定和人才儲備來看,西湖大學主要以生物醫學為主要發展發現,目前開設的三大學科都和生物醫學緊密地聯繫在一起。生命科學學院將有機地整合現代生物學與醫學,並與多學科積極交叉、融合,在多個前沿研究領域領先世界;研究成果既能成為知識的經典,也可直接帶來應用的效益。
  • 生物科學、生物醫學、動物科學、動物醫學有什麼區別,就業如何?
    一、 生物科學專業1、簡介:生物科學,有的高校也稱生命科學專業,非常有前景的專業,屬於基礎學科,主要培養學生學習生物科學技術方面的基本理論、基本知識,學生將受到應用基礎研究和技術開發方面的科學思維和科學實驗訓練,進而具有較好的科學素養及初步的教學
  • 交叉信息研究院曾堅陽研究組提出從大規模科學文獻中提取生物醫學...
    清華新聞網6月10日電 近日,清華大學交叉信息研究院曾堅陽研究組成功開發了從大規模科學文獻中提取生物醫學實體關係的深度學習模型,相關研究成果「基於機器學習的大規模生物醫學關係自動抽取技術」(A novel machine learning framework for automated biomedical relation extraction
  • 地理信息系統在醫學媒介生物研究中的應用
    彭淑瓊(蛇口出入境檢驗檢疫局,深圳 518054)    摘要 地理信息系統(Geographic InformationSystem,GIS)作為綜合處理和分析地理空間數據的一種技術系統,被廣泛應用於醫學媒介生物研究中。本文系統地論述了地理信息系統的含義及其在鼠類、蚊類、蠅類等媒介生物防治中的應用概況。
  • 瑞希重慶引領生物醫學技術,兩年斬獲多個獎項
    瑞希(重慶)生物科技有限公司(以下簡稱「瑞希重慶」)位於重慶國際科技企業孵化園,是國內領先的生物醫學材料研發企業,在世界上率先運用人工智慧從事生物醫學材料的研究設計、產品開發和技術服務,致力於成為生物醫學材料領域的引領者。
  • 生物醫學工程與技術學院獲國家級新工科研究與實踐項目
    近日,教育部辦公廳印發了《關於公布第二批新工科研究與實踐項目的通知》。此次公布的新工科研究與實踐項目共845項,包括273個新工科綜合改革類項目和572個新工科專業改革類項目。生物醫學工程與技術學院王索剛老師申報的「多學科融合的醫學院校生物醫學工程專業學生創新能力培養的實踐探索」項目獲批新工科專業改革類項目。
  • 第九屆全國生物信息學與系統生物學學術大會舉行—新聞—科學網
  • 生物科學、生物技術、生物工程、生物醫學工程四個專業的區別
    實際情況到底怎麼樣,生物類專業到底能不能學,今天就來給大家分析一下。 我們一般說的生物類專業主要有生物科學、生物技術、生物工程、生物醫學工程這四個專業。但實際上,生物科學和生物技術屬於理學類專業,而生物工程和生物醫學工程屬於工學類專業。我們先來看看這四個專業所學的主要課程和就業方向。
  • 信息學院舉辦生物醫學工程系列講座
    7月6日下午,應信息學院大師講席II教授、美國華盛頓大學教授高大勇博士的邀請,中科院醫工所研究員、美國華盛頓大學兼職教授邱本勝博士與美國華盛頓大學博士生梁鑫來信息學院作精彩學術報告。報告由高大勇教授和美國芝加哥大學教授、中國科大大師講席教授高家紅博士共同主持。
  • 生物信息學專業十強
    學生畢業後可在各級生物信息學的研究機構、高等學校、企事業單位以及在研究和成果產業化過程中涉及到生物信息學的相關部門,從事科學研究、教學和管理工作我國生物學本科教育主要圍繞兩個專業——生物科學和生物技術進行,而生物信息學相關課程通常作為這兩個專業高年級學生的選修課,且要求學生們已修完大部分專業必修課以及一些計算機課程,如C語言等。
  • 《科學》社論:模式生物研究關乎人類健康
    《科學》社論:模式生物研究關乎人類健康未來對果蠅和線蟲的研究將為疾病治療提供最短和最有效的途徑
  • 英開展全球最大生物醫學成像研究
    原標題:英開展全球最大生物醫學成像研究   有助提高對疾病的認識和診斷   圖像來源:Jimmy Bell, 威斯敏斯特大學   本報訊有史以來最大規模的健康成像研究將很快讓研究人員能夠到英國人的肚子裡轉一圈。英國生物樣本庫(位於斯託克皮特市的一家非營利生物學數據存儲庫)於4月14日宣布,它計劃在未來6年到8年對10萬人的器官進行掃描。
  • 【學術前沿】疫情之下的生物醫學研究:危險與機會
    來自生物醫學科學各個領域的病毒學家、免疫學家、遺傳學家、分子生物學家、肺生物學家、流行病學家和計算生物學家等,與眾多學科的臨床醫生一起,正在熱火朝天地工作,以解答新冠病毒的相關問題,加速診斷測試,並使疫苗和治療方法的研發成為可能。下至初出茅廬的實習生、上至經驗豐富的部門負責人,所有科學家都在捲起袖子加油幹,做出能有助於更快地克服危機、減少傷亡及社會損失的科學貢獻。
  • 學生物還是醫學?澳洲這6所大學的生物醫學專業讓你不再徘徊!
    墨爾本大學生物醫學學位一共提供了13個專業研究方向供學生選擇:生物化學和分子生物學、生物工程系統、生物技術、細胞和發育生物學、遺傳學、衛生信息學、人體結構和功能、微生物學和免疫學、病理學、生理學、免疫學、神經科學、藥理學。
  • 解析麥考瑞大學醫學科學專業
    v場新冠疫情讓新藥物研製合成、基因技術、疫苗研發、神經網絡研究、幹細胞生物學等曾經陌生的名詞,成為了人們日常談論的話題。因此,將科學帶入醫學的醫學科學專業在這場疫情當中成為炙手可熱的專業。什麼是醫療科學?
  • 走進學域(一):生命科學與生物醫學工程
    面向健康與疾病的分子與細胞機械生物學(Molecular and Cellular Mechanobiology in Health and Disease)生物和生物醫學影像學(Biological and Biomedical Imaging)生物醫學信號與系統識別
  • 華健安康董事長張建國:未來中國幹細胞領域研究將引領全球
    隨著再生醫療醫學領域在近年來的快速發展迅速,在醫學界不斷發展完善的過程中,再生生物醫學做出了巨大貢獻。如今,幹細胞治療成為再生臨床醫學領域中的最先進治療手段。近日,國內多家權威機構共同開展單位也舉辦活動,評選"2020年幹細胞行業的優秀品牌企業"評選活動,旨在提高國內幹細胞行業的整體品牌,加快中國幹細胞行業的發展步伐。
  • 大師講堂預告 數據科學遇上醫療健康: 生物醫學研究轉化至精準醫療服務
    Savageau講席教授、密西根大學計算醫學與生物信息學系系主任、密西根大學醫學院精神科及內科教授以及密西根數據研究院聯合主任。數據科學是推動全球科技發展及轉化的關鍵力量,在生物醫學研究與醫療領域更是如此,因為很長一段時間計算機化、數學和數據分析在這些領域發展緩慢。Prof. Brian D. Athey將與大家講解數據科學的基本原則、研究範圍,並展望其將生物醫學研究和醫療轉變為精準醫療的美好前景,從而造福於人類健康醫療事業。