機器學習在生命科學中的應用

2020-12-15 中大唯信

歐洲分子生物學實驗室於4月11日在Nature Reviews Drug Discovery發表了一篇關於機器學習在drug-develop開發中應用的綜述文章,該文章概述了當前機器學習中使用的工具和技術,並概述了迄今為止機器學習在關鍵drug-develop領域中取得的進展。

drug-develop的道路向來漫長、複雜並受諸多因素影響。機器學習(Machine learning)方法為drug-develop發現提供了一系列工具,同時為還提供了眾多高質量的數據信息。機器學習可以應用於drug-develop的所有階段,包括靶標驗證,預後生物標記物的鑑定和試驗中數字pathology數據的分析。目前許多公司已經將投資目標轉向機器學習領域,通過支持機器學習方法的開發,促進drug-develop研發。

圖1. drug-develop發現過程中機器學習的應用及其所具有的數據特徵

如圖1,機器學習方法已被應用於drug-develop開發的各個步驟中。一個好的機器學習模型可以很好的將訓練集數據泛化到手頭的測試數據。泛化能力是指機器學習算法對新鮮樣本的適應能力。如圖2,每種計算方法的預測準確度、訓練速度和它們可以處理的變量數量各不相同。

圖2. 機器學習工具及其藥物發現應用

ADME:吸收、分布、代謝和排洩;CNN:卷積神經網絡;CT:計算機斷層掃描;DAEN:深度自動編碼器神經網絡;DNN:深度神經網絡;GAN:生成對抗網絡;MRI:磁共振成像;NLP:自然語言處理;PK:藥代動力學;RNAi:RNA幹擾;RNN:遞歸神經網絡;SVM:支持向量機;SVR:支持向量回歸。

但機器學習方法的普遍應用會產生許多問題。例如,目前小分子設計領域尚未解決的問題是應用什麼描述符代表化學結構。小分子結構存在大量的表示方法,從簡單的圓形指紋如擴展連接指紋(Extended-connectivity fingerprint),到複雜的對稱函數(如圖3)。目前尚不清楚哪種結構表示最適合哪種小分子設計。在化學信息學領域機器學習研究的增加可能會為結構表徵的最佳選擇提供指導。

圖3. 在機器學習模型中化合物結構表示方法所面臨的挑戰

利用預測生物標誌物來實現drug-develop(如圖4),可以使用關於clinical數據的機器學習方法生成drug-develop敏感性預測模型,然後應用來自早期clinical patient樣品的數據測試該模型。一旦經過驗證,該模型便可用於患者分層或疾病指徵選擇,從而支持drug-develop的clinical開發並推斷其作用機制。

圖4. 利用預測生物標誌物來支持藥物的研發

EN:彈性網;IHC:免疫組化;MOA:行動機制;RF:隨機森林;SVM:支持向量機。

深度學習框架可以使用圖像分割或特定特徵的檢測,取代基本pathology圖像識別任務(如細胞核,上皮細胞或小管的分割,淋巴細胞檢測,有絲分裂檢測或腫瘤分類)中的傳統特徵,並且更準確的預測desease。

圖5. 將機器學習算法應用於計算病理學任務

目前機器學習方法已被應用於drug-develop發現的各個領域,特別是組學分析和成像數據分析。機器學習算法在語音識別、自然語言處理、計算機視覺和其他應用中也很成功。應用這種與網際網路技術融合從而收集數據的機器學習方法,可以顯著提高此類算法的預測能力,有助於clinical方案制定、提高效益、獲取生物標誌物和降低drug副作用。

資料來源:Jessica Vamathevan, Dominic Clark, Paul Czodrowski, et. "Applications of machine learning in drug discovery and development." Nature Reviews Drug Discovery (2019).

相關焦點

  • GEN:人工智慧在生命科學中的6個重大應用
    本文參考了全球五大製藥公司對人工智慧技術的分析。雖然已有的分析提供了一個廣泛的調查,涵蓋了生命科學和生物技術行業應用的所有主要趨勢,但是這篇最新文章在其基礎之上重點強調了TechEmergence認為的近期最有意義的六個AI應用趨勢。 1 .診斷疾病 醫學面臨的最大挑戰是疾病的正確診斷和識別,這也是機器學習發展的重中之重。2015年的一份報告顯示,針對超800種癌症的治療方案正在臨床試驗中。
  • 人工智慧在生命科學上是如何應用的
    出於這個原因,5月1日,GEN網站列出了人工智慧在生命科學領域最有價值的六個應用。 本文參考了全球五大製藥公司對人工智慧技術的分析。雖然現有的分析提供了涵蓋生命科學和生物技術行業應用的所有主要趨勢的廣泛調查,但這篇最新文章突出強調了TechEmergence認為最相關的六項最新認證。應用趨勢。
  • 機器學習在現實生活中到底有哪些應用?
    【IT168 資訊】 通俗的說,機器學習就是基於一些高度複雜的算法和技術,在一個非生命的物體、機器或系統中構建人類行為。製造一臺能夠符合數十億用戶期望的人腦複製品的機器絕不是一件容易的事。但也有一些項目正在解決基於情境、情感和思考等複雜的任務。
  • 【科學綜述】機器學習在熱電材料領域的應用
    這篇綜述總結了熱電材料研究領域常用的機器學習方法,系統地介紹了它們在材料結構、電子輸運和熱電輸運等性質上的應用案例和相關研究進展,並對該領域的發展前景進行了展望。近年來,得益於大數據科學和人工智慧的快速發展,材料信息學為加速材料的研究提供了一種新的思路[12]。機器學習作為材料信息學的核心技術之一已經在材料科學領域有諸多應用,例如鈣鈦礦光伏材料的設計[13]、鋰電池的性能評估[14]、高效催化材料的篩選[15]等等。
  • 算法應用|機器學習python應用,初識機器學習是怎樣滴感受?
    2、必須非常深入地學習和理解在scikit- learn中使用的機器學習的理論和算法。實際上也不需要,除非你是這一方向的碩士甚至博士學位的學習者。機器學習不同的算法涉及的知識點是非常廣闊的,要做到每一種算法的理論知識的學習都非常深入,是比較難的,實際上簡單的機器學習應用中,只需要了解不同算法的基礎知識就可以使用了。
  • 距離及其在機器學習中應用
    向量之間的距離,是機器學習的重要概念,但並非只有一種定義方式,這裡暫且列出幾種,在後續內容中還會提到其他形式的「距離」。在科學計算中,我們常常使用SciPy提供的函數。在機器學習中,如果要度量「相似度」,可以使用某種類型的距離。例如,在k近鄰分類算法中,通過計算測試實例與訓練實例之間的距離,以確定該測試實例屬於哪一個類別。從Scikit-learn庫提供的k近鄰分類算法模型可以看出對距離類型的設置。
  • 機器學習在生活中的九大有趣應用
    人工智慧現在已經變得無處不在了,生活中有很多關於它的應用,可能你正在以某種方式使用它,但你卻不知道它。人工智慧最流行的應用之一是機器學習,它是人工智慧的核心,是使計算機具有智能的根本途徑。本文我們為大家分享了一些我們每天使用的機器學習的例子,可能有的應用中你都不知道它們是由機器學習驅動的。
  • 用於數據科學和機器學習的Python編程
    Python可用於開發各種應用程式,從Web,基於桌面GUI的程序/應用程式到科學和數學程序以及機器學習和其他大數據計算系統。讓我們探討Python在機器學習,數據科學和數據工程中的應用。機器學習機器學習是一種相對較新且不斷發展的系統開發範例,很快成為公司和程式設計師理解和使用的強制性要求。有關背景,請參閱我們之前關於機器學習的文章。由於機器學習應用程式的複雜,科學計算性質,Python被認為是最合適的程式語言。這是因為其廣泛和成熟的數學和統計庫集合,可擴展性,易用性以及科學界的廣泛採用。
  • 鳶尾花預測:如何創建機器學習Web應用程式?
    圖源:unsplash數據科學的生命周期主要包括數據收集、數據清理、探索性數據分析、模型構建和模型部署。作為數據科學家或機器學習工程師,能夠部署數據科學項目非常重要,這有助於完成數據科學生命周期。通過既有框架(如Django或Flask)對傳統機器學習模型進行部署,可能是一項艱巨耗時的任務。本文就將展示如何在Python庫中使用streamlit,用不到50行的代碼構建一個簡單的基於機器學習的數據科學web應用程式。
  • Aura 以機器學習為核心的數據驅動型應用開發平臺
    而對於數據驅動型的應用,程序語義和數據本身的特性相關度高,很可能隨時間變化而需要進行增量訓練或者增強。這使得數據驅動型應用的生命周期對持續性的人員投入要求較高。Aura底層是業界最領先的技術,包括人工智慧和機器學習技術的領先框架和大數據處理技術。連接底層和高層應用開發的是科學高效的應用開發環境。Aura提供了兩種方式與用戶交互進行應用開發:(a)適用於數據科學家或具有編程技能的分析師的強大筆記本(b)積累了科學方法和最佳實應用開發踐的嚮導式的數據分析和建模場景。機器學習和人工智慧的技能知識門檻較高,為了簡化學習曲線。
  • 如何把科學計算和機器學習結合,更好的解決實際問題 | 《AI+科學彙編》
    從模型優化的角度,我們不必把目標定在解決形式上,而可以關心在具體的問題,將低維的結構融合到可靠的科學模型中。 史作強:科學計算領域非常大,存在各種不同的問題。從大的角度來看,科學計算的這些研究人員想做一些機器學習的問題,最重要要有轉化的過程,即把機器學習問題轉化成熟悉的科學計算的語言或者數學工具。
  • 超微研究 — 元素分析在生命科學研究中的應用
    而在生命科學領域中,由於樣本對束流敏感、原子序數低,元素差異小等原因,使其應用受到限制。隨著分析技術的發展,分析型電鏡與元素分析配件的結合,逐漸實現了元素分析在生命科學研究中的應用。那麼,生命科學研究中為什麼要使用元素分析?元素分析又有哪些作用呢?
  • 等你在2118:探索機器學習算法生命周期
    【導讀】1月22日,統計學家Venkat Raman發布了一篇比較有意思的博文,作者探討了到2118年,即未來一百年中機器學習中一些算法可能的興衰存亡
  • MLflow:一種機器學習生命周期管理平臺
    除了軟體研發中的常見挑戰外,機器學習開發人員還面臨著新的挑戰,包括實驗管理(跟蹤結果是由哪些參數,代碼和數據導致的); 可重複性(稍後可以在相同的運行環境中執行相同的代碼); 部署模型到生產環境; 以及數據治理(審計在整個機構中使用的模型和數據。)。 圍繞ML生命周期的這些關於工作流的挑戰,通常是在生產環境中使用機器學習並在機構內部對其擴展的最大障礙。
  • 區別於數據科學:構建機器學習工程平臺意味著什麼?
    我試著給數據科學下了一個定義:· 從廣義上講,數據科學是一門應用科學過程從數據中獲得見解的學科· 機器學習工程是一門用機器學習構建應用程式的學科可以看出,這裡顯然有很多重疊。兩者都包括了機器學習的學科,不同之處主要在於各自的目標。
  • 機器學習技術在地震領域的應用設想
    機器學習是計算機科學的一個子領域,主要研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識和技能,並重新組織已有的知識結構,使之不斷改善自身的性能。機器學習是人工智慧的核心,是使計算機具有智能的根本途徑。機器學習的代表作:阿爾法元作為一項科學嘗試,機器學習在人工智慧領域不斷探索,現在已初有成績。
  • 新加坡國立大學數據科學與機器學習碩士專業介紹
    該項目是由數學系,統計系,計算機系等系所聯合開辦的為期一至兩年的碩士生項目,受到了新加坡國立大學著名的數據科學研究人員以及來自行業的數據科學家的支持,並提供多種數據科學專業課程,它的課程包含了計算機科學、數學和統計學、數據分析和機器學習等領域的跨學科學習。
  • 數據科學和機器學習的最佳Python庫
    數據科學和機器學習是該時代最需求的技術,這一需求促使每個人都學習不同的庫和軟體包以實現它們。這篇博客文章將重點介紹用於數據科學和機器學習的Python庫。這些是您掌握市場上最被炒作的兩項技能的庫。以下是此博客中將涉及的主題列表:數據科學與機器學習導論為什麼要使用Python進行數據科學和機器學習?
  • 軟體應用丨吐血推薦,B站最強學習資源匯總(數據科學,機器學習,python)
    強調在知識的廣度、深度和趣味性之間尋找最佳平衡點,在生動幽默中講述數據挖掘的核心思想、關鍵技術以及一些在其它相關課程和教科書中少有涉及的重要知識點,適合對大數據和數據科學感興趣的各專業學生以及工程技術人員學習。
  • Score Function Trick及其在機器學習中的應用
    引機器學習中有很多有意思的 Trick,Deepmind 的 Shakir Mohamed (http://blog.shakirm.com) 維護了一個高質量的博客,其中寫了一系列的機器學習 Trick,包括 Score Function 和 Reparameterisation。