深度學習究竟將如何改變未來,一個具有光明前景的領域就是其在醫療以及生物學相關問題上的應用,在相關論文預印本網站bioRxiv上,可以找到很多相關的文章。由於這個領域的進步很快,深度學習助力基因科技這篇一年前寫的文章,現在看來已有些過時。本篇文章列出了部分現有的應用深度學習技術處理醫學和生物學問題的工具,從這個列表中,可以看出當前深度學習在該領域的挑戰和局限,也可以全面的了解深度學習在計算生物學,醫學影像及生物信息等學科所具有的廣泛應用場景。
深度學習+生物的論文發表數量
發表的論文中所用的模型的比例
1>藥物研發類
1)藥物研發中需要預測不同結構的分子相互作用的情況,這可以大幅節省研發的時間和金錢成本。通過使用實驗驗證的數據,Ryan Adams將分子中的原子看成圖中的點,將原子間的化學鍵看成是圖的邊,使用卷積神經網絡預測全新的分子的性質,這項技術又被稱為分子指紋,具體參考 https://github.com/HIPS/neural-fingerprint。
藥物分子間相互作用的示例圖
2)ORGAN 使用強化學習和對抗神經網絡來自動化的指導新藥的研發過程,該模型能夠按照指定的目標,去尋找符合要求的藥物的分子結構。這種方法本來是一個通用的框架,適合各種類型的離散型數據,包括文本,樂譜,而這裡針對藥物研發的問題進行了針對性的優化,參考 https://github.com/gablg1/ORGAN
3)使用強化學習來從頭開始生成藥物序列,上述的兩個工具,還只是輔助藥物的研發,而通過RNN和強化學習的結合,https://github.com/MarcusOlivecrona/REINVENT中介紹的工具,可以從一個分子開始,生成只在特定的受體被激活的分子序列,例如針對多巴胺2型受體,這個工具生成的序列經過實驗驗證,95%都滿足需求。
4)DeepChem,這是一個python庫,應用了LSTM和卷積神經網絡,作為一個可以從小樣本中學習的計算化學工具DeepChem不止可以應用在藥物的研發,還可以用在材料科學,量子化學的研究中。
2>基因組學
1)DeepVariant,這是一個2016年由谷歌的Deep Mind團隊推出的工具,通過將基因數據轉化成圖像,再通過圖像識別的模型,找出基因中有差異的部分,如下圖所示,該工具在升級之後,在多項標準的檢測指標中表現的和傳統方法相差不多。https://github.com/google/deepvariant
DeepVariant的原理示意圖
2)ADAGE ,這是一個用降噪自編碼器來分析基因表達數據的工具,所謂的基因表達量數據,就是針對每個基因,在不同的細胞中檢測有多少RNA從其中轉錄,從而得出對應的基因產生了多少影響。通過對高緯度的基因表達量數據進行降維,ADAGE可以識別出不同樣本間的相互關係,相比於傳統的PCA或ICA的方法,ADAGE能夠更準確在表達量都較低的情況下識別出具有生物學意義的基因。https://github.com/greenelab/adage,類似的工具(使用相近的模型,實現相似的目地)還包括https://www.biorxiv.org/content/early/2017/11/05/214122 , http://biorxiv.org/content/early/2015/11/16/031906 , https://github.com/uci-cbcl/D-GEX 等,這裡就不一一列出了。
3)DanQ,DNA序列中編碼蛋白質的區域被稱為基因區,然而這隻佔序列總長度的2%,其他的序列有些作用是調控基因的表達,例如讓一些基因多翻譯一些,讓另一些少翻譯一些,而更多的部分,則不明確有什麼功能。通過深度學習中的RNN或CNN等模型,可以預測基因中那一段是有調控作用的。類似的工具還有Basset DeepSEA DeepBind DeepMotif PEDLA FIDDLE, 從工具的數量上可以看出,這個領域的研究是相對容易出成果,也是具有較大潛力的。
4)DeepCpG,這是一個用來預測不同細胞的基因組上那些未知會被甲基化的工具,甲基化意味著通過表觀遺傳學(點擊查看表觀遺傳學是什麼)改變了基因的表達,而基因上會發生甲基化的位置,和其附近的序列有關,因此可以進行預測。類似的還有針對單細胞測序開發的工具,參考http://www.nature.com/articles/srep19598
3> 其他應用
1)和病人相關的一個重要應用場景是隱私保護,如何保證患者的生理數據能夠有效的匿名化,是一個很重要的問題。通過使用對抗神經網絡GAN,SPRINT這個工具可以生成和真實的患者數據類似的數據,但這些生成的數據無法對應到具體的患者,這樣增加了對患者隱私的保護,可以增加患者共享自己數據的意願,具體參考https://github.com/greenelab/SPRINT_gan 。
2)預測衰老標記,人的年齡不止是身份證上寫的那個,更關鍵的是你的身體是否還像年輕人那樣,Young AI是一個集合了21個深度學習模型的集成模型,只需要通過你體檢得出的19項生理指標,這個模型就可以預測你的實際年齡,平均誤差只有5.9年,這項工具將可以用於自我評估自己的衰老狀況。http://www.aging.ai
3)Deep Heart 通過可穿戴設備檢測的心跳數據提前預測中風的發作,從而為用戶贏得搶救所需的時間,準確度高達97%。原理是因為心臟及各種動脈,靜脈,胃,食管都連在植物性神經系統上,而心率變異率的變化與這些器官的狀態有關,Deep heart 就可以通過加速度計和心率變異率的檢測,來判斷某個人是否有高血壓或呼吸異常。
4)生物實驗中,每一個批次的實驗,甚至是不同的實驗操作者,都會引起系統性的誤差,這被稱為Batch Effect 批次效應。https://academic.oup.com/bioinformatics/article-abstract/33/16/2539/3611270 中提出了使用深度學習而不是傳統的統計學來消除單細胞測序中的批次差異的工具,如果一個實驗完成了兩次,那這兩次之中的差異就是批次差異,如果能通過訓練神經網絡,使其可以重複出兩次實驗之間的差異,那麼就可以通過去除上述的差異來去除批次效應。
參考資料
https://github.com/hussius/deeplearning-biology
更多閱讀
深度學習入門最少需要知道什麼?
深度學習入門書單