今天給大家介紹發表在BioInformatics上的一篇文章,「MOLI: multi-omics late integration with deep neural networks for drug response prediction」。本文作者提出了一種基於深度神經網絡的多組學後期集成方法Moli,利用多組學腫瘤信息進行藥物作用預測。模型首先使用特定類型的編碼子網絡來學習每種組學類型的特徵,然後將它們連接成一個表示,最後通過由三元組損失和二進位交叉熵損失組成的成本函數來優化該表示,實驗驗證該網絡可帶來比基線方法更高的準確性。
1、研究背景
精確腫瘤學是利用基因組數據為個別癌症患者量身定做治療方法。然而,對癌症治療(化療或靶向藥物)的反應是一種複雜的表型,往往取決於多種因素,特別是患者的基因組特徵。目前,只有11%的接受精密腫瘤學治療的患者可以進行臨床試驗,只有5%的患者受益於精密腫瘤學。從歷史上看,基因表達被證明是預測藥物反應的最具信息量的數據。最近的證據表明,整合額外的組學可以提高預測的準確性,結合臨床數據集的多組學方法可以提高藥物反應預測的臨床相關性。
2、背景知識
2.1集成方法
多組學集成主要有兩種方法:早期集成和晚期集成。
(1)早期集成
在早期集成中,首先串聯可用的所有組學數據類型,然後利用某些特徵學習方法(例如自動編碼器)來創建該樣本的集成表示。
早期集成有三個缺點:
第一,它忽略了每種組學數據類型各自的分布。
第二,它需要適當的規範化,以避免賦予維度較多的組學數據類型更多的權重。
第三,它進一步增加了輸入數據的維度。
(2)晚期集成
針對每種組學數據類型分別學習特徵,然後將這些特徵集成到一個統一的表示中,以用作分類器或回歸器的輸入。
該方法的優點是可以處理每種組學數據類型各自的分布,可以對每種數據類型採用單一組學歸一化,並且不會增加輸入空間的維數。
2.2多組學
組學(Omics)主要包括基因組學(Genomics),蛋白組學(Proteinomics),代謝組學(Metabolomics),轉錄組學(transcriptomics),脂類組學(lipidomics),免疫組學(Immunomics),糖組學(glycomics ), RNA組學(RNomics),影像組學(Radiomics),超聲組學(Ultrasomics)。多組學可以理解成考慮多種信息。
3、方法概述
本文提出了一種基於深度神經網絡的多組學後期集成方法Moli。Moli將體細胞突變、拷貝數變異和基因表達數據作為輸入,通過相同類型的前饋編碼子網絡分別學習每種組學數據類型的特徵,將學習到的特徵拼接成多組學的一個表示,通過由三元組損失函數和二元交叉熵損失函數組成的組合成本函數來優化這種表示。Moli採用遷移學習來增加訓練數據集的大小,根據泛藥物輸入(使用具有相同靶標的所有藥物)而不是特定藥物輸入來訓練藥物反應模型。Moli是一種具有深度神經網絡的端到端晚期集成方法(如圖1所示) 。
圖1. Moli示意圖概述
3.1輸入數據
將從腫瘤細胞系中提取的體細胞突變(somatic mutation)、拷貝數變異CNA(copy number aberration)和基因表達數據(gene expression data)作為輸入(如圖1A所示)。
3.2 特徵學習
為了學習輸入中每種組學數據類型的特徵,本文設計了單獨的編碼前饋子網絡來將輸入空間映射到特徵空間。每個子網絡的基本結構都是全連接層,激活函數是RELU,都採用dropout來規則化模型,並採用批量歸一化來增強訓練過程。每個編碼子網絡的輸入是一種組學數據類型,輸出是該組學的學習特徵。XM、XE和XC分別表示細胞體突變、CNA(拷貝數變異)和基因表達數據,每個數據的維度都是N*D,其中N是樣本的數量,D是基因的數量。將這三個子網絡分別記為fM(XM)、fc(XC)和fE(XE)(如圖1B所示)。
3.3 特徵整合
三個編碼子網絡的輸出是3個N*D的特徵矩陣,拼接後輸出為一個N*3D表示矩陣。
⊕表示連接操作(如圖1B所示)。
3.4 特徵優化
MOLI的最後一個子網絡的激活函數為Sigmoid,使用dropout和L2正則化。成本函數是二元交叉熵損失函數和三元組損失函數的組合(如圖1C所示)。
三元組損失函數:
三元組的元素包括:(Anchor,陽性,陰性)。
三元組滿足的條件:
d是用歐幾裡得距離來計算的。
移項得:
避免零解,引入大於0 的量:
希望Anchor和負樣本的距離大於Anchor和正樣本的距離。因此,第i個三元組的三元組損失函數的值為:
總三元損失:
總成本:
3.5 遷移學習
為了用更多的標註數據來訓練MOLI模型,採用了遷移學習的方法。模型的輸入是對於同一個通路或分子有作用的靶向藥物族的多組學特徵和藥物反應。一個MOLI模型是針對一個藥物族進行訓練的,這種方法增加了訓練數據集的大小(如圖2所示)。
圖2. 遷移學習
4、數據集
作者一共使用了三個數據集:
GDSC細胞係數據集(訓練集):包含1000多個癌細胞系的多組學數據和265種靶向和化療藥物的反應數據。PDX百科全書數據集:包含300多個不同癌症類型的PDX模型及34種靶向和化療藥物的反應數據。TCGA數據集:包含10000多名不同癌症類型患者的腫瘤樣本的譜數據及部分患者藥物反應。涉及到的數據類型:
基因表達數據:將基因表達的值進行了標準化。體細胞拷貝數:有缺失或擴增的基因賦值為1 ,其餘賦值為0 。體細胞點突變:體細胞點突變的基因賦值為1,其餘賦值為0。
5、實驗結果
表1總結了不同版本Moli在預測兩種靶向治療藥物和五種化療藥物的AUC方面的表現與基線方法的比較,對比方法包括Geeleher等人提出的方法、基於非負矩陣分解的早期整合方法、基於深度神經網絡的早期整合方法、前饋網絡、既有二元交叉熵損失又有三元組損失的Moli方法、有分類器的Moli方法、基於遷移學習的Moli方法。
可以發現Moli在三種藥物中表現最佳,在三種藥物中表現次佳(下劃線指示),對於Erlotinib和Cetuximab,Moli在接受泛藥物輸入時表現更好。
表1.MOLI和對照模型的AUC值
此外,作者針對乳腺癌、膀胱癌、胰腺癌、肺癌、腎癌和前列腺癌做了具體的體外實驗。發現除了膀胱癌和胰腺癌沒有觀察到顯著的相關性外,其餘均可看出預測的結果與真實情況有明顯的相關性。
6、總結
與目前最先進的單組學和早期多組學整合方法相比,MOLI獲得了更高的預測精度。與特定藥物輸入相比,靶向藥物的遷移學習提高了預測性能。但是本文側重於單藥治療,沒有探討聯合用藥的效果,且因為響應者的數量遠遠小於無響應者的數量,所有使用的數據集都存在嚴重的類分布不平衡。日後可將其擴展到聯合用藥方面進一步研究。