機器學習在生命科學中的應用

2020-11-29 中大唯信

歐洲分子生物學實驗室於4月11日在Nature Reviews Drug Discovery發表了一篇關於機器學習在drug-develop開發中應用的綜述文章,該文章概述了當前機器學習中使用的工具和技術,並概述了迄今為止機器學習在關鍵drug-develop領域中取得的進展。

drug-develop的道路向來漫長、複雜並受諸多因素影響。機器學習(Machine learning)方法為drug-develop發現提供了一系列工具,同時為還提供了眾多高質量的數據信息。機器學習可以應用於drug-develop的所有階段,包括靶標驗證,預後生物標記物的鑑定和試驗中數字pathology數據的分析。目前許多公司已經將投資目標轉向機器學習領域,通過支持機器學習方法的開發,促進drug-develop研發。

圖1. drug-develop發現過程中機器學習的應用及其所具有的數據特徵

如圖1,機器學習方法已被應用於drug-develop開發的各個步驟中。一個好的機器學習模型可以很好的將訓練集數據泛化到手頭的測試數據。泛化能力是指機器學習算法對新鮮樣本的適應能力。如圖2,每種計算方法的預測準確度、訓練速度和它們可以處理的變量數量各不相同。

圖2. 機器學習工具及其藥物發現應用

ADME:吸收、分布、代謝和排洩;CNN:卷積神經網絡;CT:計算機斷層掃描;DAEN:深度自動編碼器神經網絡;DNN:深度神經網絡;GAN:生成對抗網絡;MRI:磁共振成像;NLP:自然語言處理;PK:藥代動力學;RNAi:RNA幹擾;RNN:遞歸神經網絡;SVM:支持向量機;SVR:支持向量回歸。

但機器學習方法的普遍應用會產生許多問題。例如,目前小分子設計領域尚未解決的問題是應用什麼描述符代表化學結構。小分子結構存在大量的表示方法,從簡單的圓形指紋如擴展連接指紋(Extended-connectivity fingerprint),到複雜的對稱函數(如圖3)。目前尚不清楚哪種結構表示最適合哪種小分子設計。在化學信息學領域機器學習研究的增加可能會為結構表徵的最佳選擇提供指導。

圖3. 在機器學習模型中化合物結構表示方法所面臨的挑戰

利用預測生物標誌物來實現drug-develop(如圖4),可以使用關於clinical數據的機器學習方法生成drug-develop敏感性預測模型,然後應用來自早期clinical patient樣品的數據測試該模型。一旦經過驗證,該模型便可用於患者分層或疾病指徵選擇,從而支持drug-develop的clinical開發並推斷其作用機制。

圖4. 利用預測生物標誌物來支持藥物的研發

EN:彈性網;IHC:免疫組化;MOA:行動機制;RF:隨機森林;SVM:支持向量機。

深度學習框架可以使用圖像分割或特定特徵的檢測,取代基本pathology圖像識別任務(如細胞核,上皮細胞或小管的分割,淋巴細胞檢測,有絲分裂檢測或腫瘤分類)中的傳統特徵,並且更準確的預測desease。

圖5. 將機器學習算法應用於計算病理學任務

目前機器學習方法已被應用於drug-develop發現的各個領域,特別是組學分析和成像數據分析。機器學習算法在語音識別、自然語言處理、計算機視覺和其他應用中也很成功。應用這種與網際網路技術融合從而收集數據的機器學習方法,可以顯著提高此類算法的預測能力,有助於clinical方案制定、提高效益、獲取生物標誌物和降低drug副作用。

資料來源:Jessica Vamathevan, Dominic Clark, Paul Czodrowski, et. "Applications of machine learning in drug discovery and development." Nature Reviews Drug Discovery (2019).

相關焦點

  • 人工智慧在生命科學中的六個重大應用
    據埃森哲(Accenture)的一份報告估計,到2026年,大數據與醫學和製藥領域的機器學習相結合將產生每年1500億美元的驚人價值。這個數字反映了人工智慧(AI)工具幫助醫生、病人、保險公司和監管人員做出更好決策、優化創新以及提高研究和臨床試驗效率的潛力。為此,5月1日,GEN網站整理羅列了人工智慧在生命科學領域內六個最有價值的應用。
  • GEN:人工智慧在生命科學中的6個重大應用
    為此,5月1日,GEN網站整理羅列了人工智慧在生命科學領域內六個最有價值的應用。 本文參考了全球五大製藥公司對人工智慧技術的分析。雖然已有的分析提供了一個廣泛的調查,涵蓋了生命科學和生物技術行業應用的所有主要趨勢,但是這篇最新文章在其基礎之上重點強調了TechEmergence認為的近期最有意義的六個AI應用趨勢。
  • 人工智慧在生命科學上是如何應用的
    出於這個原因,5月1日,GEN網站列出了人工智慧在生命科學領域最有價值的六個應用。 本文參考了全球五大製藥公司對人工智慧技術的分析。雖然現有的分析提供了涵蓋生命科學和生物技術行業應用的所有主要趨勢的廣泛調查,但這篇最新文章突出強調了TechEmergence認為最相關的六項最新認證。應用趨勢。
  • 機器學習在搜索中的應用:個性化排序
    編輯導語:隨著科技的發展,AI、機器學習等逐漸出現在我們的生活裡,有了這些的出現,我們進行搜索時會變得更加準確和智能;本文作者詳細介紹了機器學習在搜索中的應用,我們一起來看一下。AI、機器學習,是現在媒體的高頻曝光詞,市面上的很多應用都逐漸接入了AI的能力;搜索這樣的『古董』級產品,其實也是應用機器學習技術的先驅。本次從搜索的一個場景——搜索結果排序,來聊聊機器學習在搜索產品中的應用。
  • 鳶尾花預測:如何創建機器學習Web應用程式?
    圖源:unsplash數據科學的生命周期主要包括數據收集、數據清理、探索性數據分析、模型構建和模型部署。作為數據科學家或機器學習工程師,能夠部署數據科學項目非常重要,這有助於完成數據科學生命周期。通過既有框架(如Django或Flask)對傳統機器學習模型進行部署,可能是一項艱巨耗時的任務。本文就將展示如何在Python庫中使用streamlit,用不到50行的代碼構建一個簡單的基於機器學習的數據科學web應用程式。
  • 機器學習技術應用於量子力學基礎研究
    原標題:機器學習技術應用於量子力學基礎研究中科大郭光燦院士團隊李傳鋒、許金時等人與合作者最近將機器學習技術應用於研究量子力學基礎問題,首次實驗實現了基於機器學習算法的多重非經典關聯的同時分類。另一方面,隨著量子信息研究的興起,各種不同的量子關聯已經成為量子信息領域的關鍵資源,在量子計算、量子通信、量子精密測量等過程中扮演著重要角色。李傳鋒、許金時等人將機器學習技術應用於非經典關聯的區分,通過巧妙的實驗設計,在光學系統中製備出一簇參數可調的兩比特量子態。
  • 數據科學和機器學習的最佳Python庫
    數據科學和機器學習是該時代最需求的技術,這一需求促使每個人都學習不同的庫和軟體包以實現它們。這篇博客文章將重點介紹用於數據科學和機器學習的Python庫。這些是您掌握市場上最被炒作的兩項技能的庫。數據是驅動ML模型所需的燃料,並且由於我們處在大數據時代,因此很清楚為什麼將數據科學視為該時代最有希望的工作角色!我會說數據科學和機器學習是技能,而不僅僅是技術。它們是從數據中獲得有用的見解並通過建立預測模型解決問題所需的技能。從形式上來講,這就是兩者的定義方式。
  • 人工智慧視域下機器學習的教育應用與創新探索
    教育數據挖掘涉及開發、研究和應用計算機方法在收集的大量教育數據中檢測模式,是教育與數據挖掘的融合。數據挖掘技術最早於1995年應用於教育領域,拉開了教育數據挖掘研究的帷幕,此後逐漸發展成為獨立的研究領域。教育數據挖掘涉及的學科主要包括教育學、計算機科學和統計學[22],如圖2所示。其中,機器學習作為計算機科學和統計學的融合,為教育數據挖掘提供了強有力的技術支持。
  • 機器學習在馬蜂窩酒店聚合中的應用初探
    為了使酒店聚合更加實時、準確、高效,現在馬蜂窩酒店業務中近 80% 的聚合任務都是由機器自動完成。本文將詳細闡述酒店聚合是什麼,以及時下熱門的機器學習技術在酒店聚合中是如何應用的。Part.1應用場景和挑戰1.酒店聚合的應用場景馬蜂窩酒旅平臺接入了大量的供應商,不同供應商會提供很多相同的酒店,但對同一酒店的描述可能會存在差異,比如:酒店聚合要做的,就是將這些來自不同供應商的酒店信息聚合在一起集中展示給用戶,為用戶提供一站式實時比價預訂服務:下圖為馬蜂窩對不同供應商的酒店進行聚合後的展示,不同供應商的報價一目了然
  • 算法應用|機器學習python應用,簡單機器學習項目實踐
    上一篇文章中介紹了機器學習的簡單知識,還有python中進行機器學習實踐需要的生態環境,接下來將會通過鳶尾花分類這個例子對機器學習做一個簡要的介紹。通過一步一步地實現這個項目來介紹以下內容。導入和使用python中機器學習的各個方面的類庫。導入數據,並通過描述性分析、可視化等對數據進行分析。創建六個模型,並從中選擇準確度最高的模型。
  • 網際網路上20大免費數據科學、機器學習和人工智慧慕課
    從數據中學習——加州理工對於所有數據愛好者來說,深刻理解機器如何從數據中學習以及如何改進處理過程是至關重要的。這是一門介紹機器學習的課程,包括基本理論,算法和應用。你將學到什麼:· 學習是什麼?· 機器能學習嗎?· 如何做到?· 如何做好?3.
  • 機器學習在生物大數據應用的一個例子
    機器學習在生物大數據應用的一個例子前不久,華大基因宣布前CEO王俊「辭職但未離職」,將轉戰「基因測序+人工智慧」領域。撇開陰謀論和各種傳言不談,讓我們把焦點放在科學上——基因測序和人工智慧可以擦出怎樣的火花?也是在幾天前,有一家生物大數據的創業公司出現在媒體和公眾的視線中——Deep Genomics。這個公司是幹嘛的呢?簡單來說就是:利用機器學習的方法,預測基因組上的變化會對人體的特徵/疾病/表型產生怎樣的影響。這就是本文要說的,機器學習在生物大數據上應用的一個例子。
  • 超微研究 — 元素分析在生命科學研究中的應用
    而在生命科學領域中,由於樣本對束流敏感、原子序數低,元素差異小等原因,使其應用受到限制。隨著分析技術的發展,分析型電鏡與元素分析配件的結合,逐漸實現了元素分析在生命科學研究中的應用。那麼,生命科學研究中為什麼要使用元素分析?元素分析又有哪些作用呢?
  • 10本機器學習和數據科學的必讀書籍推薦
    雷鋒網按:Matthew Mayo 是知名數據科學網站 KDnuggets 的副主編,同時也是一位資深的數據科學家、深度學習技術愛好者,在機器學習和數據科學領域具有豐富的科研和從業經驗。近日,他在 KDnuggets 上推薦了一份機器學習和數據科學相關的免費必讀書單,雷鋒網特來與大家分享。
  • 機器學習是什麼
    講解對象:機器學習是什麼作者:融水公子 rsgz對象:機器學習是什麼英文名:machine learning又稱:預測分析(predictive analytics)或統計學習(statistical learning)實質
  • 高清圖解:神經網絡、機器學習、數據科學一網打盡|附PDF
    今天,新智元要為大家推薦一個超實用、顏值超高的神經網絡+機器學習+數據科學和Python的完全圖解,文末附有高清PDF版連結,支持下載、列印,推薦大家可以做成滑鼠墊、桌布,或者印成手冊等隨手攜帶,隨時翻看。
  • 機器學習在領英的規模化應用
    這篇文章將討論領英如何規模化利用技術,幫助更多工程師提升機器學習的效率。近日,領英中國機器學習研發經理李子在IEEE數據挖掘國際會議(ICDM)上分享了領英是如何規模化開展機器學習,介紹領英的核心產品以及如何利用技術幫助更多工程師提升機器學習的效率。
  • SAS被Gartner評為「數據科學與機器學習平臺魔力象限2020年度領導...
    中國,北京 2020年2月25日——近日,Gartner在新發布的《2020年數據科學與機器學習平臺魔力象限》報告中將SAS評為領導者。這是SAS連續第七年被評為該魔力象限的領導者,在該報告中SAS願景的完整性和執行能力得到了Gartner的認可。
  • 數據科學和機器學習面試問題集錦
    在過去的幾個月裡,我面試了許多公司涉及數據科學和機器學習的初級職位。介紹一下我自己,以讓你對我有一定了解。我還有最後幾個月就研究生畢業,我的碩士是機器學習和計算機視覺,我之前的大部分經驗是研究/學術,但在一個早期創業公司待過8個月(與機器學習無關)。這些角色包括數據科學、通用機器學習和專精自然語言處理及計算機視覺。
  • 人工智慧與生命科學:AI在醫療健康十大領域應用前景
    2011年,史丹福大學的DaphneKoller教授發表論文,用機器學習分析影像學結果中檢測乳腺癌變組織,甚至預測患者預期壽命,在測試範圍內,該算法的準確率已超越了人的預知。  被《MIT科技述評》評為全球最智慧的50家公司之一Enlitic公司,他們利用AI輔助影像診斷,藉助深度學習,從海量數據中不斷獲取診斷特徵點。