當AI遇到生物-深度學習在生物研究中的應用案例列表

2021-02-20 混沌巡洋艦

深度學習究竟將如何改變未來,一個具有光明前景的領域就是其在醫療以及生物學相關問題上的應用,在相關論文預印本網站bioRxiv上,可以找到很多相關的文章。由於這個領域的進步很快,深度學習助力基因科技這篇一年前寫的文章,現在看來已有些過時。本篇文章列出了部分現有的應用深度學習技術處理醫學和生物學問題的工具,從這個列表中,可以看出當前深度學習在該領域的挑戰和局限,也可以全面的了解深度學習在計算生物學,醫學影像及生物信息等學科所具有的廣泛應用場景。

深度學習+生物的論文發表數量

發表的論文中所用的模型的比例

1>藥物研發類

1)藥物研發中需要預測不同結構的分子相互作用的情況,這可以大幅節省研發的時間和金錢成本。通過使用實驗驗證的數據,Ryan Adams將分子中的原子看成圖中的點,將原子間的化學鍵看成是圖的邊,使用卷積神經網絡預測全新的分子的性質,這項技術又被稱為分子指紋,具體參考 https://github.com/HIPS/neural-fingerprint。

藥物分子間相互作用的示例圖

2)ORGAN 使用強化學習和對抗神經網絡來自動化的指導新藥的研發過程,該模型能夠按照指定的目標,去尋找符合要求的藥物的分子結構。這種方法本來是一個通用的框架,適合各種類型的離散型數據,包括文本,樂譜,而這裡針對藥物研發的問題進行了針對性的優化,參考 https://github.com/gablg1/ORGAN

3)使用強化學習來從頭開始生成藥物序列,上述的兩個工具,還只是輔助藥物的研發,而通過RNN和強化學習的結合,https://github.com/MarcusOlivecrona/REINVENT中介紹的工具,可以從一個分子開始,生成只在特定的受體被激活的分子序列,例如針對多巴胺2型受體,這個工具生成的序列經過實驗驗證,95%都滿足需求。

4)DeepChem,這是一個python庫,應用了LSTM和卷積神經網絡,作為一個可以從小樣本中學習的計算化學工具DeepChem不止可以應用在藥物的研發,還可以用在材料科學,量子化學的研究中。

2>基因組學

1)DeepVariant,這是一個2016年由谷歌的Deep Mind團隊推出的工具,通過將基因數據轉化成圖像,再通過圖像識別的模型,找出基因中有差異的部分,如下圖所示,該工具在升級之後,在多項標準的檢測指標中表現的和傳統方法相差不多。https://github.com/google/deepvariant

DeepVariant的原理示意圖

2)ADAGE ,這是一個用降噪自編碼器來分析基因表達數據的工具,所謂的基因表達量數據,就是針對每個基因,在不同的細胞中檢測有多少RNA從其中轉錄,從而得出對應的基因產生了多少影響。通過對高緯度的基因表達量數據進行降維,ADAGE可以識別出不同樣本間的相互關係,相比於傳統的PCA或ICA的方法,ADAGE能夠更準確在表達量都較低的情況下識別出具有生物學意義的基因。https://github.com/greenelab/adage,類似的工具(使用相近的模型,實現相似的目地)還包括https://www.biorxiv.org/content/early/2017/11/05/214122 , http://biorxiv.org/content/early/2015/11/16/031906 , https://github.com/uci-cbcl/D-GEX 等,這裡就不一一列出了。

3)DanQ,DNA序列中編碼蛋白質的區域被稱為基因區,然而這隻佔序列總長度的2%,其他的序列有些作用是調控基因的表達,例如讓一些基因多翻譯一些,讓另一些少翻譯一些,而更多的部分,則不明確有什麼功能。通過深度學習中的RNN或CNN等模型,可以預測基因中那一段是有調控作用的。類似的工具還有Basset DeepSEA DeepBind DeepMotif PEDLA FIDDLE, 從工具的數量上可以看出,這個領域的研究是相對容易出成果,也是具有較大潛力的。

4)DeepCpG,這是一個用來預測不同細胞的基因組上那些未知會被甲基化的工具,甲基化意味著通過表觀遺傳學(點擊查看表觀遺傳學是什麼)改變了基因的表達,而基因上會發生甲基化的位置,和其附近的序列有關,因此可以進行預測。類似的還有針對單細胞測序開發的工具,參考http://www.nature.com/articles/srep19598

     

3> 其他應用

1)和病人相關的一個重要應用場景是隱私保護,如何保證患者的生理數據能夠有效的匿名化,是一個很重要的問題。通過使用對抗神經網絡GAN,SPRINT這個工具可以生成和真實的患者數據類似的數據,但這些生成的數據無法對應到具體的患者,這樣增加了對患者隱私的保護,可以增加患者共享自己數據的意願,具體參考https://github.com/greenelab/SPRINT_gan 。

2)預測衰老標記,人的年齡不止是身份證上寫的那個,更關鍵的是你的身體是否還像年輕人那樣,Young AI是一個集合了21個深度學習模型的集成模型,只需要通過你體檢得出的19項生理指標,這個模型就可以預測你的實際年齡,平均誤差只有5.9年,這項工具將可以用於自我評估自己的衰老狀況。http://www.aging.ai

3)Deep Heart 通過可穿戴設備檢測的心跳數據提前預測中風的發作,從而為用戶贏得搶救所需的時間,準確度高達97%。原理是因為心臟及各種動脈,靜脈,胃,食管都連在植物性神經系統上,而心率變異率的變化與這些器官的狀態有關,Deep heart  就可以通過加速度計和心率變異率的檢測,來判斷某個人是否有高血壓或呼吸異常。

4)生物實驗中,每一個批次的實驗,甚至是不同的實驗操作者,都會引起系統性的誤差,這被稱為Batch Effect 批次效應。https://academic.oup.com/bioinformatics/article-abstract/33/16/2539/3611270 中提出了使用深度學習而不是傳統的統計學來消除單細胞測序中的批次差異的工具,如果一個實驗完成了兩次,那這兩次之中的差異就是批次差異,如果能通過訓練神經網絡,使其可以重複出兩次實驗之間的差異,那麼就可以通過去除上述的差異來去除批次效應。

參考資料

https://github.com/hussius/deeplearning-biology

更多閱讀

深度學習入門最少需要知道什麼?

深度學習入門書單

相關焦點

  • AI+大數據在生物醫藥領域中的應用及發展
    [億歐導讀] 目前,AI與大數據在醫藥領域的科研和產業發展方興未艾,毫無疑問,AI和大數據和生物醫藥領域的融合必將不斷的深化和廣化,更多的成功案例將不斷湧現。3.發掘藥物靶點現代新藥研究與開發的關鍵是尋找、確定和製備藥物靶點。靶點是指藥物在體內的作用結合位點,包括基因位點、受體、酶、離子通道和核酸等生物大分子。AI系統可以從每個設計周期裡的現有數據資源中學習,其原理與人類的學習方式相似,但AI在識別多種微妙變化以平衡藥效、選擇性和藥代動力學方面要更加高效。
  • 機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用...
    原標題:機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用高級研修班通信和信息技術創新人才培養工程項目辦公室 通人辦〔2018〕 第5號 機器學習、深度學習算法原理與案例實踐暨Python
  • 一文讀懂深度學習中的矩陣微積分,fast.ai創始人&ANTLR之父出品
    這位ANTLR之父和fast.ai創始人Jeremy Howard一起推出了一篇免費教程,旨在幫你快速入門深度學習中的矩陣微積分。簡明,易懂。DeepMind研究科學家Andrew Trask評價說:如果你想跳過不相干的內容,一文看盡深度學習中所需的數學知識,那麼就是這份資源沒錯了。只需一點關於微積分和神經網絡的基礎知識,就能單刀直入,開始以下的學習啦。
  • 深度學習中的NumPy基礎
    與機器學習和深度學習應用工作涉及複雜的數字操作與大量的數據集。與純 Python 實現相比,NumPy 使得實現這些操作相對簡單和有效。從核心上說,NumPy 實現了Python(n 維數組)數據結構,類似於常規的 Python 列表。大多數程式語言只有數組的概念。Python 實現了列表,它作為數組工作,但是有區別。
  • 吳博:目標檢測集成框架在醫學圖像 AI 輔助分析中的應用 | AI 研習...
    如何與醫生合作做好 AI 雷鋒網 AI 研習社將其分享內容整理如下:今天給大家講一下目標檢測集成框架在醫學圖像 AI 輔助分析中的應用。但在實操過程中,我們發現將醫學影像當成一個分類問題來處理,任務設置未免過於宏大和粗放。深度學習的模型具有黑盒模型的特點,特點就是端到端(end to end)一步到位,從輸入到輸出而不管中間的過程,雖然也能實現較好的結果,卻往往令人對整個學習過程,知其然而不知其所以然。
  • Mantis Vision助力百度AI 促進3D生物識別的應用及發展
    Mantis Vision來自以色列,14年來專注於3D及計算機視覺技術領域的技術研發和應用推廣,於2018年10月起開始與百度大腦人臉識別團隊就3D技術在生物識別領域的行業應用開展深度合作。基於Mantis Vision所專利的掩膜編碼結構光和其它相關專利,Mantis Vision在中國的合資子公司暨「螳螂慧視科技有限公司」,為百度大腦人臉識別提供了全球領先的3D生物特徵數據採集設備,從而提升了所採集的生物樣本3D數據精度,這些數據用於幫助百度大腦人臉識別團隊開發全球領先的3D生物識別算法。
  • 用於深度強化學習的結構化控制網絡(ICML 論文講解)
    通過將特定問題的先驗結合到架構中,所提出的架構有可能改進更廣泛的控制任務。我們採用生物中心模擬生成器(CPG)作為非線性控制模塊部分的結構來研究運動任務這個案例,結果了表面的該運動任務的性能被極大提高。
  • 零基礎入門深度學習(六):圖像分類任務之LeNet和AlexNet
    :0001 導讀本課程是百度官方開設的零基礎入門深度學習課程,主要面向沒有深度學習技術基礎或者基礎薄弱的同學,幫助大家在深度學習領域實現從0到1+的跨越。>個性化推薦算法的原理、實踐本周為開講第四周,百度深度學習技術平臺部資深研發工程師孫高峰,開始講解計算機視覺中圖像分類任務。
  • AI+醫療「最佳掘金案例」榜單出爐,致敬寒冬中的「持炬者」
    從2016年開始,基於深度學習的AI技術成為了革新各個行業的一大利器,醫療是其中最火熱的領域之一。從「替代醫生」到「輔助醫生」,從「單點突破」到「全病種理念」,從「技術研發」到「商業落地」。短短三年時間裡,AI醫療經歷了一個急劇變化的過程。
  • 前沿研究丨深度學習在醫學超聲圖像分析中的應用
    中國工程院院刊《Engineering》刊發《深度學習在醫學超聲圖像分析中的應用綜述》一文,旨在全面而系統地總結深度學習在醫學超聲圖像分析中的應用,主要是在典型的任務及其在不同解剖結構中的應用。文章指出,在醫學超聲圖像分析中,深度學習展示了巨大的應用潛力,簡要介紹了一些流行的深度學習結構,討論了深度學習方法在超聲圖像分析的各種特定任務(如圖像分類、物體檢測與目標分割)中的應用。文章指出了深度學習在醫學超聲圖像分析應用中所面臨的挑戰以及潛在的發展趨勢。
  • 學者呼籲:人工智慧應用於生物醫學研究,需要透明度和可複製性
    :科學研究需要獨立研究人員具有仔細審查研究結果的能力,能夠利用研究材料再現主要結果,並在今後的研究中加以利用。對於高度複雜的深度學習模型,計算機代碼中的細微差別可能會對結果產生顯著影響,因此,以計算機代碼來訓練模型並得出結果對於研究的可複製性至關重要。McKinney等人指出,用於訓練模型的代碼「大量依賴於內部工具、基礎設施和硬體」,並聲稱「代碼的發布因此是不可能的」。
  • Xilinx、Spline.AI、AWS 推出 X 射線分型深度學習模型和參考設計
    開源的自適應深度學習模型,助力醫療設備製造商和醫療服務提供商快速開發經過訓練的模型,面向臨床和放射醫學應用這種高性能模型部署在賽靈思 Zynq® UltraScale+™ MPSoC ZCU104 器件之上,並採用了賽靈思深度學習處理器單元(DPU)。該 DPU 是一種軟 IP 張量加速器,它的強大功能足以支持運行各種神經網絡,其中包括用於分型和疾病檢測的神經網絡。
  • 這個生物醫藥AI應用靠譜嗎?先回答矽谷頂尖風投六個問題
    因為大型製藥公司已經意識到這樣一個事實,即機器學習提供了革新藥物發現和開發的潛力。一家主要的製藥公司將出資收購一家 AI 藥物初創公司,將其技術和人才引入到公司內部。生物醫藥價值鏈上每個環節——從藥物發現、診斷開發到醫療保健提供技術,人工智慧都具有巨大潛力。人工智慧在生物領域的新應用如此之多——似乎每天都有更多的應用出現——以致於人們越來越難以從噪音中分辨出信號。
  • 十行代碼就能搞定深度學習?飛槳框架高層API,輕鬆玩轉AI
    機器之心發布機器之心編輯部嚮往深度學習技術,可是深度學習框架太難學怎麼辦?百度傾心打造飛槳框架高層 API,零基礎也能輕鬆上手深度學習,一起來看看吧?另:文末有福利,一定要看完呦~高層 API,What深度學習作為人工智慧時代的核心技術,近年來無論學術、還是工業領域,均發揮著愈加重要的作用。然而,深度學習理論太難學,開發過程太複雜,又將許多人拒之於深度學習的門外。
  • 深度學習之父Geoffrey Hinton:AI實為反向傳播,計算機與生物結合可...
    Jacobs透露,之所以將研究所建在多倫多是因為「深度學習之父」——Geoffrey Hinton也在此地,他是AI浪潮翻湧之下的技術靠山。「回顧過去的30年時間,Geoff可以稱之為深度學習,也就是我們所認為AI領域的愛因斯坦。在AI領域的頂尖人才中,Hinton一人貢獻的可引用文獻數比位列他其後三人的總和還要多。
  • 深度| 卷積神經網絡十五問:CNN與生物視覺系統的研究探索
    在對技術宅的普遍反感和深度學習/人工智慧(會值多少錢?)的過度炒作氛圍中,不管你得到了什麼模型,某些人都會厭惡它。所以在這裡我希望使用一個簡單(但很長)的問答形式來相對合理且準確地闡釋使用 CNN 建模生物視覺系統的情況。這個子領域很大程度上仍處於發展階段,所以文中不會有太多確定無疑的事實,但我會儘可能引述。
  • 全球與中國生物燃料乙醇行業現狀分析與發展趨勢研究報告(2020年版)
    《全球與中國生物燃料乙醇行業現狀分析與發展趨勢研究報告(2020年版)》是目前生物燃料乙醇領域最專業和全面系統的深度市場研究報告之一。  、下遊客戶及產業調查分析,並介紹生物燃料乙醇營銷渠道,行業發展趨勢及投資策略建議,最後採用案例的模式分析了生物燃料乙醇新項目SWOT分析和投資可行性研究。
  • 一文帶你讀懂深度學習:AI 認識世界的方式如同小孩
    然後試著從數據中提取一串圖案用來探測並識別周圍世界的物體。這種自底向上的研究方法在一些哲學家和心理學家的理論中也可以找到,比如約翰·密爾。上世紀八十年代,科學家找到了一種令人信服的方式應用這種自底向上的方式讓計算機在數據中尋找有價值的圖案。」神經網絡「系統通過神經元將視網膜上的光圖案再現了你周圍的環境。神經網絡也是一樣的圖案。
  • 半機械人」生物的新突破,使人類和AI融合成為可能
    有趣的是,近日,德拉瓦大學的一組研究人員開發了一種新的、生物相容的電子植入物聚合物塗層,這可能是更好地理解這種生物黑盒子的關鍵。該研究的主要作者,德拉瓦大學生物醫學工程教授 David Martin 表示,目前的技術正在被用於開發生物相容的電子產品,如起搏器,耳蝸植入物和深度大腦刺激。
  • DIA年會專題 深度基因數據與深度臨床數據在新藥研發中的應用
    「新興技術和數位化醫療」專場,並由創始人、總裁兼執行長許強博士發表主題為「深度基因數據與深度臨床數據在新藥研發中的應用」的專題演講, 分享了數據驅動的真實世界臨床研究方案如何為生物製藥公司提供強大的數據挖掘能力,為腫瘤藥物的開發和商業化提供助力,並且以中國癌症患者真實世界數據(RWD)帶來的挑戰與機遇為切入點,闡述了領星生物如何運用中國癌症患者的真實世界全面的基因組數據以及縱深臨床數據