歐洲分子生物學實驗室於4月11日在Nature Reviews Drug Discovery發表了一篇關於機器學習在drug-develop開發中應用的綜述文章,該文章概述了當前機器學習中使用的工具和技術,並概述了迄今為止機器學習在關鍵drug-develop領域中取得的進展。
drug-develop的道路向來漫長、複雜並受諸多因素影響。機器學習(Machine learning)方法為drug-develop發現提供了一系列工具,同時為還提供了眾多高質量的數據信息。機器學習可以應用於drug-develop的所有階段,包括靶標驗證,預後生物標記物的鑑定和試驗中數字pathology數據的分析。目前許多公司已經將投資目標轉向機器學習領域,通過支持機器學習方法的開發,促進drug-develop研發。
圖1. drug-develop發現過程中機器學習的應用及其所具有的數據特徵
如圖1,機器學習方法已被應用於drug-develop開發的各個步驟中。一個好的機器學習模型可以很好的將訓練集數據泛化到手頭的測試數據。泛化能力是指機器學習算法對新鮮樣本的適應能力。如圖2,每種計算方法的預測準確度、訓練速度和它們可以處理的變量數量各不相同。
圖2. 機器學習工具及其藥物發現應用
ADME:吸收、分布、代謝和排洩;CNN:卷積神經網絡;CT:計算機斷層掃描;DAEN:深度自動編碼器神經網絡;DNN:深度神經網絡;GAN:生成對抗網絡;MRI:磁共振成像;NLP:自然語言處理;PK:藥代動力學;RNAi:RNA幹擾;RNN:遞歸神經網絡;SVM:支持向量機;SVR:支持向量回歸。
但機器學習方法的普遍應用會產生許多問題。例如,目前小分子設計領域尚未解決的問題是應用什麼描述符代表化學結構。小分子結構存在大量的表示方法,從簡單的圓形指紋如擴展連接指紋(Extended-connectivity fingerprint),到複雜的對稱函數(如圖3)。目前尚不清楚哪種結構表示最適合哪種小分子設計。在化學信息學領域機器學習研究的增加可能會為結構表徵的最佳選擇提供指導。
圖3. 在機器學習模型中化合物結構表示方法所面臨的挑戰
利用預測生物標誌物來實現drug-develop(如圖4),可以使用關於clinical數據的機器學習方法生成drug-develop敏感性預測模型,然後應用來自早期clinical patient樣品的數據測試該模型。一旦經過驗證,該模型便可用於患者分層或疾病指徵選擇,從而支持drug-develop的clinical開發並推斷其作用機制。
圖4. 利用預測生物標誌物來支持藥物的研發
EN:彈性網;IHC:免疫組化;MOA:行動機制;RF:隨機森林;SVM:支持向量機。
深度學習框架可以使用圖像分割或特定特徵的檢測,取代基本pathology圖像識別任務(如細胞核,上皮細胞或小管的分割,淋巴細胞檢測,有絲分裂檢測或腫瘤分類)中的傳統特徵,並且更準確的預測desease。
圖5. 將機器學習算法應用於計算病理學任務
目前機器學習方法已被應用於drug-develop發現的各個領域,特別是組學分析和成像數據分析。機器學習算法在語音識別、自然語言處理、計算機視覺和其他應用中也很成功。應用這種與網際網路技術融合從而收集數據的機器學習方法,可以顯著提高此類算法的預測能力,有助於clinical方案制定、提高效益、獲取生物標誌物和降低drug副作用。
資料來源:Jessica Vamathevan, Dominic Clark, Paul Czodrowski, et. "Applications of machine learning in drug discovery and development." Nature Reviews Drug Discovery (2019).