Bioinformatics|Moli:用於藥物反應預測的多組學晚期集成深度神經...

2021-01-11 DrugAI

今天給大家介紹發表在BioInformatics上的一篇文章,「MOLI: multi-omics late integration with deep neural networks for drug response prediction」。本文作者提出了一種基於深度神經網絡的多組學後期集成方法Moli,利用多組學腫瘤信息進行藥物作用預測。模型首先使用特定類型的編碼子網絡來學習每種組學類型的特徵,然後將它們連接成一個表示,最後通過由三元組損失和二進位交叉熵損失組成的成本函數來優化該表示,實驗驗證該網絡可帶來比基線方法更高的準確性。

1、研究背景

精確腫瘤學是利用基因組數據為個別癌症患者量身定做治療方法。然而,對癌症治療(化療或靶向藥物)的反應是一種複雜的表型,往往取決於多種因素,特別是患者的基因組特徵。目前,只有11%的接受精密腫瘤學治療的患者可以進行臨床試驗,只有5%的患者受益於精密腫瘤學。從歷史上看,基因表達被證明是預測藥物反應的最具信息量的數據。最近的證據表明,整合額外的組學可以提高預測的準確性,結合臨床數據集的多組學方法可以提高藥物反應預測的臨床相關性。

2、背景知識

2.1集成方法

多組學集成主要有兩種方法:早期集成和晚期集成。

(1)早期集成

在早期集成中,首先串聯可用的所有組學數據類型,然後利用某些特徵學習方法(例如自動編碼器)來創建該樣本的集成表示。

早期集成有三個缺點:

第一,它忽略了每種組學數據類型各自的分布。

第二,它需要適當的規範化,以避免賦予維度較多的組學數據類型更多的權重。

第三,它進一步增加了輸入數據的維度。

(2)晚期集成

針對每種組學數據類型分別學習特徵,然後將這些特徵集成到一個統一的表示中,以用作分類器或回歸器的輸入。

該方法的優點是可以處理每種組學數據類型各自的分布,可以對每種數據類型採用單一組學歸一化,並且不會增加輸入空間的維數。

2.2多組學

組學(Omics)主要包括基因組學(Genomics),蛋白組學(Proteinomics),代謝組學(Metabolomics),轉錄組學(transcriptomics),脂類組學(lipidomics),免疫組學(Immunomics),糖組學(glycomics ), RNA組學(RNomics),影像組學(Radiomics),超聲組學(Ultrasomics)。多組學可以理解成考慮多種信息。

3、方法概述

本文提出了一種基於深度神經網絡的多組學後期集成方法Moli。Moli將體細胞突變、拷貝數變異和基因表達數據作為輸入,通過相同類型的前饋編碼子網絡分別學習每種組學數據類型的特徵,將學習到的特徵拼接成多組學的一個表示,通過由三元組損失函數和二元交叉熵損失函數組成的組合成本函數來優化這種表示。Moli採用遷移學習來增加訓練數據集的大小,根據泛藥物輸入(使用具有相同靶標的所有藥物)而不是特定藥物輸入來訓練藥物反應模型。Moli是一種具有深度神經網絡的端到端晚期集成方法(如圖1所示) 。

圖1. Moli示意圖概述

3.1輸入數據

將從腫瘤細胞系中提取的體細胞突變(somatic mutation)、拷貝數變異CNA(copy number aberration)和基因表達數據(gene expression data)作為輸入(如圖1A所示)。

3.2 特徵學習

為了學習輸入中每種組學數據類型的特徵,本文設計了單獨的編碼前饋子網絡來將輸入空間映射到特徵空間。每個子網絡的基本結構都是全連接層,激活函數是RELU,都採用dropout來規則化模型,並採用批量歸一化來增強訓練過程。每個編碼子網絡的輸入是一種組學數據類型,輸出是該組學的學習特徵。XM、XE和XC分別表示細胞體突變、CNA(拷貝數變異)和基因表達數據,每個數據的維度都是N*D,其中N是樣本的數量,D是基因的數量。將這三個子網絡分別記為fM(XM)、fc(XC)和fE(XE)(如圖1B所示)。

3.3 特徵整合

三個編碼子網絡的輸出是3個N*D的特徵矩陣,拼接後輸出為一個N*3D表示矩陣。

⊕表示連接操作(如圖1B所示)。

3.4 特徵優化

MOLI的最後一個子網絡的激活函數為Sigmoid,使用dropout和L2正則化。成本函數是二元交叉熵損失函數和三元組損失函數的組合(如圖1C所示)。

三元組損失函數:

三元組的元素包括:(Anchor,陽性,陰性)。

三元組滿足的條件:

d是用歐幾裡得距離來計算的。

移項得:

避免零解,引入大於0 的量:

希望Anchor和負樣本的距離大於Anchor和正樣本的距離。因此,第i個三元組的三元組損失函數的值為:

總三元損失:

總成本:

3.5 遷移學習

為了用更多的標註數據來訓練MOLI模型,採用了遷移學習的方法。模型的輸入是對於同一個通路或分子有作用的靶向藥物族的多組學特徵和藥物反應。一個MOLI模型是針對一個藥物族進行訓練的,這種方法增加了訓練數據集的大小(如圖2所示)。

圖2. 遷移學習

4、數據集

作者一共使用了三個數據集:

GDSC細胞係數據集(訓練集):包含1000多個癌細胞系的多組學數據和265種靶向和化療藥物的反應數據。PDX百科全書數據集:包含300多個不同癌症類型的PDX模型及34種靶向和化療藥物的反應數據。TCGA數據集:包含10000多名不同癌症類型患者的腫瘤樣本的譜數據及部分患者藥物反應。涉及到的數據類型:

基因表達數據:將基因表達的值進行了標準化。體細胞拷貝數:有缺失或擴增的基因賦值為1 ,其餘賦值為0 。體細胞點突變:體細胞點突變的基因賦值為1,其餘賦值為0。

5、實驗結果

表1總結了不同版本Moli在預測兩種靶向治療藥物和五種化療藥物的AUC方面的表現與基線方法的比較,對比方法包括Geeleher等人提出的方法、基於非負矩陣分解的早期整合方法、基於深度神經網絡的早期整合方法、前饋網絡、既有二元交叉熵損失又有三元組損失的Moli方法、有分類器的Moli方法、基於遷移學習的Moli方法。

可以發現Moli在三種藥物中表現最佳,在三種藥物中表現次佳(下劃線指示),對於Erlotinib和Cetuximab,Moli在接受泛藥物輸入時表現更好。

表1.MOLI和對照模型的AUC值

此外,作者針對乳腺癌、膀胱癌、胰腺癌、肺癌、腎癌和前列腺癌做了具體的體外實驗。發現除了膀胱癌和胰腺癌沒有觀察到顯著的相關性外,其餘均可看出預測的結果與真實情況有明顯的相關性。

6、總結

與目前最先進的單組學和早期多組學整合方法相比,MOLI獲得了更高的預測精度。與特定藥物輸入相比,靶向藥物的遷移學習提高了預測性能。但是本文側重於單藥治療,沒有探討聯合用藥的效果,且因為響應者的數量遠遠小於無響應者的數量,所有使用的數據集都存在嚴重的類分布不平衡。日後可將其擴展到聯合用藥方面進一步研究。

相關焦點

  • 多組學預測免疫治療過程中的免疫不良事件
    今天跟大家分享的是10月份發表在NC的」Multi-omics prediction of immune-related adverse events during checkpoint immunotherapy「,該研究巧妙的將流行病學指標和多組學結合,最終預測來進行免疫相關不良事件,並且達到了較好的結果。
  • CellPress|單細胞技術和基於深度學習的藥物反應預測
    與傳統的大規模測序分析方法相比,單細胞測序分析的快速發展,可以幫助我們更好的理解腫瘤基因組,轉錄組和基因組異質性的概況。不僅如此,據調查顯示,單細胞測序分析技術可以使腫瘤對藥物暴露的反應更大。目前,深度學習模型已經能夠從大量複雜的序列數據中提取出特徵,用於預測藥物的反應。
  • 【合作論文】游離胺基酸譜和代謝生物標記物的變化:預測晚期肉瘤患者的化療反應
    近日,鄭州大學第一附屬醫院與杭州度安醫學檢驗實驗室共同合作的論文「The free amino acid profiles and metabolic biomarkers of predicting the chemotherapeutic response in advanced sarcoma patient」(游離胺基酸和代謝標記物的變化預測晚期肉瘤患者的化療反應
  • 肉瘤患者TP53的突變狀態可用於預測帕唑帕尼等抗血管生成靶向藥...
    2、低中級組織學和正常血紅蛋白使用藥物預後更好 通過分析發現對於36%的長期倖存者,低中級組織學和正常血紅蛋白對於長期預後是有利的,病且,其中12名患者對帕唑帕尼的持續反應超過2年,這些患者傾向於年輕,女性且組織學水平低的特點 3、抗血管靶向藥物與HDAC抑制劑聯合對TP53突變組更有效
  • 多組學與藥物敏感分析的資料庫
    ---分割線-藥物敏感性一直是個體化癌症化療的核心。癌症中的藥物敏感性研究對於實現癌症患者的個性化治療和推動精密醫學的發展至關重要。但由於個體間的異質性,藥物敏感性的巨大差異導致有限醫療資源的利用效率低下,因此研究與藥物反應相關的分子以優化藥物療法將非常需要。
  • 腦苷肌肽:溶栓時間窗之外的多靶點神經保護藥物
    來自中國陸軍軍醫大學譚亮團隊的一項最新研究發現,一種多靶點的神經保護藥物,腦酐肌肽可以在溶栓時間窗之外保護腦卒中大鼠神經功能。缺血性腦卒中具有高發病率、高致殘率和高致死率的特點,造成嚴重疾病負擔。靜脈溶栓和血管內血栓切除術的治療策略已經取得較多研究進展,但由於溶栓治療窗僅為4.5h,因而需要對溶栓時間窗之外的卒中患者探索新的神經保護和神經再生治療方案。腦酐肌肽是由多肽、單唾液酸四己糖神經節苷脂、游離胺基酸等組成的多靶點神經保護藥物。
  • 最大規模的AD蛋白組學研究;AI追蹤心臟血流
    1,Nature Medicine重磅突破,報導迄今為止最大規模的阿爾茲海默症蛋白組學研究 來源:精準醫學與蛋白組學
  • 阿斯利康Faslodex獲批用於晚期乳腺癌治療
    英國製藥巨頭阿斯利康(AstraZeneca)乳腺癌藥物Faslodex(fulvestrant,氟維司群)近日在歐盟監管方面迎來重大喜訊。歐盟委員會(EC)已批准Faslodex用於既往未接受內分泌療法的雌激素受體陽性(ER+)局部晚期或轉移性乳腺癌絕經後女性患者的一線治療。
  • ASCO-GU丨盛錫楠教授點評:HIF-2α抑制劑MK-6482用於晚期腎透明...
    主要研究終點為:藥物安全性。關鍵的次要研究終點為:客觀緩解率(ORR)、緩解持續時間(DOR)和無進展生存期(PFS)。結果顯示共入組了55例患者,這些患者中既往接受藥物治療線數的中位值為3,其中67%的患者接受了PD-1單抗免疫治療以及抗血管靶向藥物治療。
  • 生物信息學相關網站
    /bioinformatics-lscf/about     這是生物信息學和生物計算學的網站,由Weizmann科學研究所,生物服務部和Crown人類基因組學中心支持。用於比較基因組學的生物信息學工具:http://pga.lbl.gov/Workshop/webTools.html      用於比較基因組學的生物信息學工具是勞倫斯伯克利國家實驗室提供的用於比較基因組學的生物信息學的軟體、資料庫和網址資源。其涵蓋五個大類分別是:基因組數據、注釋、比較基因組、陣列資源、雜集。
  • 空間轉錄組測序用於免疫治療研究
    基於他們的特點,特別針對程序性細胞死亡-1 /程序性細胞死亡配體1(PD-1 / PD-L1)途徑的免疫檢查點抑制劑已被批准為用於黑色素瘤,淋巴瘤和其他惡性腫瘤。   但是,現有研究顯示,只有少數患者對治療有積極反應,一些患者最終因治療而產生抗藥性或遭受不良反應和自身免疫毒性。而出現這種不良反應的原因部分歸因於腫瘤微環境(TME)的動態組成。
  • 用於控制血壓的藥物可以改善癌症患者對免疫治療的反應
    當我們遇到威脅時,刺激「戰「或」逃」反應的生化觸發器可能會幫助腫瘤細胞茁壯成長。羅斯維爾帕克綜合癌症中心的一組研究人員正在尋找打破這種動態的方法,以便使癌症治療更加有效。他們的最新研究成果發表在美國癌症研究協會的《臨床癌症研究》雜誌上,該研究表明,一種廣泛用於控制血壓的藥物可能會改善患者對癌症免疫療法的反應。
  • 多組學分析助力精準治療,有望攻克三陰性乳腺癌臨床治療難題
    全球最大的三陰性乳腺癌多組學圖譜邵志敏教授團隊一直致力於三陰性乳腺癌的精準治療研究,並且用5年時間對465名中國TNBC患者進行了多組學分析,繪製出全球最大的三陰性乳腺癌隊列多組學圖譜,並在2019年3月發表於Cancer Cell。
  • Bioinformatics|用深度神經網絡結合局部和全局特徵預測蛋白質的...
    文章研究了如何利用蛋白質的局部和全局胺基酸序列來預測蛋白質的結合位點,作者用一個49維的向量(其中包括原始胺基酸、胺基酸的PSSM、胺基酸的二級結構狀態)來表示任意一個胺基酸,最後將得到的局部和全局胺基酸序列的向量表示連接起來,輸入到一個深度神經網絡做預測。1、研究背景PPI site背景:1、現存的方法主要使用局部上下文特徵來預測PPI site。
  • 帶狀皰疹後遺神經痛的藥物治療及預防研究進展
    PHN 的治療主要包括藥物治療及微創介入治 療(神經阻滯、神經毀損、脈衝射頻及臭氧療法)。藥 物治療是最基本和最常用的方法,目前推薦一線治 療 PHN 的藥物有鈣離子通道調節劑(如普瑞巴林, 加巴噴丁)、三環類抗抑鬱藥以及 5%利多卡因貼 片。其他治療用藥包括阿片類鎮痛藥、曲馬多、局部 辣椒素、A 型肉毒毒素等。除此之外還有很多新興 藥物正在進行臨床試驗。
  • 腦科學日報:NHGRI人類基因組學新計劃;一腦多用的後果
    這一新願景描述了未來十年人類基因組學中最引人注目的研究重點項目和機遇,標誌著該領域基因組學的新紀元。The 2020 NHGRI Strategic Vision確定了四個重點領域:1.人類基因組學的指導原則和價值。2.維持和完善基因組學研究的堅實基礎。3.打破阻礙基因組學發展的障礙。4.重要的生物醫學基因組學研究項目。
  • 9文聚焦:宏基因組學與微生物組分析方法和工具
    宏基因組學,菌株水平,絕對豐度,分析方法和工具,注釋,噬菌體。作者總結了菌株在人體的分布和多樣性,以及它們與健康維護、疾病風險和進展的新聯繫,以及對飲食或藥物等擾動的生化反應。文中列出了利用高通量測序以及其他分子和「培養組學」技術鑑定,定量和追蹤菌株的方法,最後作者討論了人口群體水平中實驗研究缺乏的現狀,以及更好地了解菌株對人類微生物組健康影響方面的意義。
  • 「痛」到憂傷:糖尿病神經痛藥物治療攻略
    用於治療 PDPN 的止痛藥物主要有三大類:①抗驚厥藥物(即抗癲癇藥物);②抗抑鬱藥物;③麻醉性鎮痛藥物(這裡主要指弱阿片類鎮痛藥)。其它還有外敷的止痛藥,如辣椒素軟膏、利多卡因乳膏等等。至於「非甾體抗炎藥物」,目前尚無足夠的證據證明其可以減輕 PDPN 患者的疼痛。
  • 癲癇的基因檢測和蛋白質組學研究
    根據檢測的目的不同,主要分為藥物基因組學檢測,診斷試驗,預測試驗,產前診斷及攜帶者檢測。,有利於遺傳諮詢及避免選擇加重癲癇發作的藥物。癲癇的蛋白質組學研究       癲癇作為神經系統較常見的疾病,在我國的年患病率約為5‰-7‰,致病機制相對複雜。蛋白質組學的發展為疾病的深入研究提供了有效的技術平臺。對生理與病理狀態下體液、組織或細胞中的蛋白質組分進行高通量的分析,篩選並鑑定差異表達的蛋白質,是差異蛋白質組研究的策略。
  • 新研究揭示轉移性結直腸癌的多組學圖譜
    新研究揭示轉移性結直腸癌的多組學圖譜 作者:小柯機器人 發布時間:2020/9/4 20:11:59 中國科學院分子細胞卓越創新中心曾嶸、吳家瑞以及上海長海醫院張衛研究組合作的最新研究揭示了轉移性結直腸癌(CRC)的多組學圖譜