深度|基因組醫學中的機器學習:計算問題與數據集綜述(下)

2021-02-15 機器之心

選自 Proceedings of IEEE

作者:Michael K. K. Leung, Andrew Delong, Babak Alipanahi, and Brendan J. Frey

投稿

編譯:吳偶

中國科學院自動化所模式識別國家重點實驗室、中科院—好啦健康大數據實驗室

摘要:本文主要介紹了基因組醫學涉及到的一些典型機器學習問題。基因組醫學的一個目標就是發現個體 DNA 的變化是如何影響疾病風險,並試圖找到背後的致病機理以便於研製出相應的靶向治療[1]方案。本文的重點將放在如何利用機器學習來對 DNA 與細胞中可能與疾病風險存在關聯的關鍵分子的數量(我們稱之為細胞變量)之間的關係進行建模。現代生物學允許對很多細胞變量(包括基因表達[2],剪接[3]和核酸結合蛋白[4]等)進行高通量測量。這些細胞變量都可以作為預測模型的目標變量。隨著大型數據集的不斷湧現和計算技術(如深度學習)的高速發展,一個新的基因組醫學時代可能會到來。

關鍵詞:計算生物學、深度學習、遺傳變異體、基因組分析、基因組生物學、機器學習、精準醫療

四、計算生物學中的機器學習近年來,機器學習研究者的主要精力投入到了語音識別[103]和計算機視覺[104]上。計算機視覺非常直觀且好理解,機器學習領域對其關注已久。人類自身具備優秀的視覺處理能力,所以當設計的學習算法不及預期的時候,我們經常提出新的研究手段。實際上,手寫字符識別的資料庫 MNIST [105]已經成為了「機器學習的果蠅」—一個在生物界用來作為參考的果蠅模式生物體,其原因在於MNIST經常用來測試新的學習算法。

本文試圖採用機器學習研究者容易理解的方式來介紹一些生物學問題。生物學與計算機視覺的一個根本區別在於人能夠直接觀察視覺世界。研究人員可以很形象地去探索燈光、遮擋以及投影等作用因素如果形成了圖像,但是肉眼無法直接看到一個細胞裡面的納米世界。儘管已經花費了幾十年的心血,我們對於細胞內部運行機制的認識還遠遠不夠[106],[107];甚至對於生物酵母這種單細胞也同樣如此[108],[109]。基因型與表型之間的關係(圖2(a))的複雜性顯然要比ImageNet計算機視覺挑戰賽中的像素-標籤關係的複雜性要高出很多數量級[85]。細胞裡的很多相互作用、數量以及過程的細節對於我們來說都是不可見的,因為我們無法系統性的對其進行測量。換句話說,我們能夠觀察到的少數部分細胞變量(圖2(b))本質上也是我們不能觀察到的許多層細胞變量之間相互作用的結果。這就是為什麼我們堅信先進的機器學習技術,特別是深度學習,將隨著生物學走向高通量實驗而逐步發揮重要作用。

在本節中,我們首先介紹一些通過關聯分析和利用比較基因組學將基因變異映射到疾病風險的方法。這些方法對基因型和表型的關係進行直接建模,在實際中應用得非常普遍。然後,我們簡要概述一些額外的比較受關注的細胞變量,其中一些可以利用深度學習構建的模型進行更為有效的預測。這些細胞變量可以單獨或組合起來對疾病風險進行建模。我們還為致力於該領域的機器學習研究者提供更多的公開數據資源。

A    疾病風險的基因基礎建模的常用方法

1)全基因組關聯分析研究(GWASs):GWASs 指在全基因組層面上,開展多中心、大樣本、反覆驗證的基因與疾病的關聯研究,期望發現一個人群的某種疾病特性與一個特定基因位置或位點的變異之間的關係。早期的 GWAS 實驗利用的微陣列是根據人群最容易被發現的基因變異來設計的。這個基因變異也即單核苷酸多態性(SNP[1]),它是不同人種相對頻繁(頻率大於1%)的一個變異。現在的 GWAS 已不在嚴格限定於一個變異的子集,而是利用更為廣泛的變異集合甚至全基因組數據。下面我們聚焦於 GWAS 的一些缺點。最新的一個不錯的GWAS綜述請見[110]。

從數據分析的角度來看,GWAS 的一個主要的困難是試圖對改變特定疾病風險的潛在致病變異和一群受感染的群體之間找到關聯的統計顯著性。GWAS 和其它的基於關聯的分析技術(例如表達數量性狀位點[2](eQTLs))的最大問題在於他們只體現了相關性而不是因果關係。由於有一些混雜的隱變量,如由交叉引起的鄰近區域變異(連鎖不平衡[3])或者因遷移等因素造成的亞群差異,兩個或更多的基因組位點可能是相關的。那麼,通過GWAS 選擇到的一個單核苷酸多態性很有可能是因為其它的基因組位點具有致病性[111]。在GWAS 研究中,因果變異往往是難以觀測到的。GWAS 還提供了一個巨大的假定的因果變異,研究人員可能對具有更大的「敘事潛力」的候選者存在著偏見[112]。

一些較大的 GWAS 研究項目通常會涉及來自幾千個人體的數以百萬計的單核苷酸多態性。評估的數量巨大的單核苷酸多態性的統計顯著性是極具有挑戰性的,需要對其進行精心的多假設更正或錯誤發現率分析[113]。這個問題的複雜性是由於許多常見的變異的影響比較微弱,而那些有強烈影響的變異往往是罕見的[114]。為了改進顯著性,一些研究將 SNPs 的分析限制在編碼基因組[115]的區域中,並假設在這些區域的突變更可能對疾病風險產生影響(因為它們可以改變蛋白質的功能[116])。解決這個問題的另一種方法是增加樣本量。一些項目如 TCGA 和 Hapmap 動用了大量的資源來對更多數量的人群開展研究,但這些研究在領域內引發了關於項目的成本效益比的爭論[117],[118]。另一個主要難點是人口結構和它的分層。最近的一篇論文[119]利用基於SNPs的基因分類器來進行ASD檢測[120],這篇論文引起了一些異議,原因在於「潛在群體分層[4]」 (由於家系導致的基因差異)會導致大部分的觀測信號是不可靠的。

一個更為合理的方法就是使用非統計相關性分析方法來處理 GWAS 數據,也即利用計算模型來將個體單核苷酸多態性的輪廓信息作為輸入以預測疾病分析。這些 SNP 輪廓信息的維度通常很高,並且大部分單核苷酸多態性與發現的疾病是無關的(實際上是噪聲)。很多工具可以用優先處理變異(如 PolyPen[121], SIFT[122], SPANK[44]),並且機器學習已經用來構建疾病風險預測模型。

2)進化保守性:比較基因組學是確定不同基因序列功能的一個強大方法。比較基因組學最典型的一個應用就是序列保守型研究。序列保守型的合理性在於以下幾點。首先,考慮由兩種因素所驅動的進化:一種是隨機突變的緩慢累積作用,一種是針對危害人口生殖健康的選擇性壓力[125]。現在考慮幾個從一個共同的祖進化過來的物種的基因組,這個漫長的進化過程使得幾乎所有的隨機突變有都會發生。當我們比較不同物種的基因組時,發現不同物種的很多長期不同的序列集合幾乎是保持不變的,或是「保守的」。當一個序列是保守的,這本身就是一個強有力的證據可以說明進化在這些序列的內部一些位置上發揮了選擇性壓力。研究估計至少5%-6%的人類基因組是與哺乳動物保守的[21],[126]。

保守序列的檢測一直作為對人類基因組的功能性組件(如外顯子)進行標註的工具[21]。一個名為 phastCons 的軟體工具可用於計算很多有機體的序列保守分數[127]。對於一個基因組的每個位置,phastCons 計算一個 0 到 1 的分值,其中 0 表示基本上不保守,而1表示所考慮的所有物種都 100% 保守。其他的保守量化方法包括 GERP [128]和 phyloP [129]。人的基因組各位置的保護分數可以看作為一個在基因組瀏覽器裡的「軌道」[130]。

危害生殖健康的突變被稱為是有害的,而導致疾病的突變被稱為致病的[112]。當然,許多突變既是有害的也是致病的,如引起泰-薩克斯病的突變。需要指出的是保守僅僅提供了關於有害性的信息。即便如此,基於保守的技術對於疾病的預測一直是非常有用的。最近的一個例子是結合注釋依賴消耗(combined annotation dependentdepletion,CADD)方法[131]。Kircher等首先構建了「突變模擬器」來產生真實的合成基因突變並且未考慮選擇壓力。然後他們訓練了 10 個線性支持向量機並且集成起來用以區分合成突變(假定是有害的)和約 1600 萬個實際的源於人類與黑猩猩共同祖先並且在選擇壓力下保留下來的人類基因突變。

B   目前的方向

我們相信,細胞變量法對於利用計算機來解決基因組醫學中的預測問題至關重要,這個方法並且提供了洞察疾病的新機制。我們已經描述了兩個關於細胞變量的例子(剪接和蛋白序列結合),這可能對於從遺傳變異體來預測疾病的風險是非常有用的。對於剪接,我們發現我們的模型構建方法完全不用於現有的技術,所以它對現有技術是一個很好的補充,其能夠顯著提高現有技術的靈敏度[44]。此外,細胞變量法可以為變異對疾病風險的影響提供一個假說性質的解釋。例如圖1中的例子,核苷酸在 SMN1 和 SMN2 基因上的四個差異導致了脊髓性肌萎縮。我們的剪接模型能夠說明外顯子的同義突變會降低 SF2/ASF(一個剪接調控蛋白)的結合親和性,並由此會導致該外顯子被跳讀[44],[132]。而類似GWAS的方法目前還無法提供類似的結果。

對於上述提到的預測和疾病風險影響解釋著兩個問題,最近已經有學者開始引入深度學習來進行解決,如Leung等[71]利用前饋神經網絡來發現可變剪接模式以及Alipanahi [41]引入卷積神經網絡來研究蛋白結合特異性。在另一個例子中,Quang 等人利用先前描述的 CADD 數據集來訓練深度神經網絡以降低錯誤率[133]。

現有的研究側重於提高與調控相關的 DNA 水平上的其他細胞變量的建模性能。表1 列出了一些細胞變量。其中的許多變量是協同調節的。例如轉錄與剪接是密切對應的[55], 因此對於一種細胞變量的一個好的模型能夠有助於預測其他的細胞變量。在表1的這些研究,並非所有構建的模型都用於預測疾病風險。但是,我們這裡的目標是為了讓讀者儘可能多的了解一些對細胞變量構建模型的方法,而其中很多變量本身就是可以直接用來進行疾病風險預測 [134]。儘管深度學習目前還沒有在這些研究中普遍採用,但是在部分例子中,深度學習確實顯著地提高了(significant improvement)模型性能。

C    基因型與表型建模的大數據項目

除了各類單個細胞變量的數據集之外,很多國際性的合作已在逐漸開展,目的是希望獲取更大範圍人群在不同層次生物系統(也即從基因型到特定的表型(例如腫瘤))上的數據。表2列舉了一些大數據項目。這些項目已經產生了很多不錯的多種組學數據,包括基因組、轉錄組、表觀基因組以及蛋白組學數據[106]。另外一個重要的信息資源是美國生物技術信息中心維護的dbGaP資料庫,這個資料庫保留了已有的關於基因型和表型相互作用的研究結果[135]。利用多個數據資源可以彌補單個數據資源可能存在的信息丟失,並且有助於跨過基因型與表型交互作用的鴻溝,以建立一個更為完善的關於調控的生物模型。

表1.一些和基因組調控機理相關的細胞變量

細胞變量

簡單描述

相關疾病

綜述

相關工作

基因組的結構和功能區域的確定

對 DNA 不同區域進行解釋與標註,例如標記內顯子和外顯子的邊界,確定哪些部分具有調控功能。

基因組序列的改變可能導致一個有著特定功能的區域失效或者其反作用,或者改變其原來功能,由此會影響調控。

[208-210]

[211-212]

轉錄調控的結合點

將蛋白結合到 DNA 的特定序列單元控制著轉錄是否發生以及發生率。

蛋白結合的序列模式的變體,如副本因子以及展開DNA的複雜性,有可能改變一個基因是否被轉錄。

[45],[213]

[41],[97]

剪接模式

剪接通過剔除內顯子和選擇保留的外顯子來修改前 mRNA。

控制剪接的調控單元的變化會改變基因產物的特性,在有些情況下,會導致他們失去功能。

[53]

[44],[69-71]

剪切位點選擇和多腺苷酸化

轉錄產物末端被剪開,一片腺嘌呤基在他們準備轉錄之前就附上。剪切可能發生在一個轉錄產物的多個位置上。

序列單元的修改可能改變剪切的位點,這決定了調控蛋白的結合點是否在轉錄產物中出現。這會改變轉錄產物的穩定性與翻譯[5]效率。

[48],[214]

[215-216]

RNA 結構

RNA 摺疊成三維結構,這影響了它與細胞內的其他分子的交互方式。

除了所包含的編碼蛋白的信息,mRNA 有著 3D 結構。這個結構影響著其參與的過程,例如轉錄、剪接以及翻譯。

[51],[217]

[43]

蛋白結構

翻譯的輸出是一個摺疊到蛋白質的胺基酸序列。蛋白質的 3D 結構對於其功能非常關鍵,因為它會與 DNA,RNA 以及其他的蛋白進行交互。

蛋白結構影響功能。從序列中預測蛋白結構的能力有助於理解基因的生物功能以及蛋白的未摺疊是如何影響疾病的。

[218]

[219],[220]


五、討論與未來的方向

根據我們的經驗,我們預測在未來的幾年,機器學習在基因組生物學、基因組醫學以及精準醫療中所起的作用將會迅速凸顯出來。特別是得益於深度學習的快速發展,使得越來越多的處理大型複雜數據集的深度學習技術逐步湧現出來。既然基因型與表型是通過多層的生物物理過程與交互作用關聯起來的,並且大部分我們都未能完全理解,那麼估計只有依靠更強大的計算模型才能對如此複雜的過程與交互作用進行建模。

機器學習特別是近期的深度學習已經在圖像識別、語音識別以及自然語音理解的部分任務上逐漸達到了與人類相當的水平。但是,從一個機器學習的觀點來看,基因生物學和這些任務存在著非常大的不同。人類憑著自身的感知(如觀看圖像、辨別聲音)與行為(如抓住一個物體,回復一段話)就能夠很好的完成上述任務。但是,基因組沒有理由是對人類是可解讀的。儘管隨著進化,人類逐漸能夠對光線的模式進行感知、解釋並產生反應(例如一個大型老虎所反射出來的光線),但是人類完全沒有在進化過程中產生出解讀基因的先天能力。因此,一個很重要的方面就是要將最新的生物學領域知識和數據與機器學習方法緊密結合起來,並且由於所構建模型的性能很難由人眼來判別,所以需要從多個方面來進行模型評價。

很可能基因組與一些疾病的關聯過於複雜,以至於很難用一個具體數量的輸入來進行建模。這一點和圖像或者語音識別有著很大的差別,因為在圖像和語音識別裡面,輸入是給定的。更重要的是,由於細胞過程的內在隨機性、不同人(包括雙胞胎)對應的環境因素的差異性以及存在著非遺傳的但是能夠影響後代的變異,個體的基因型有可能不能完全決定他的表型[136]。因此我們不能夠認為計算方法可以完全取代實驗與臨床診斷,但是計算方法可通過減少需要驗證的假設空間來大大縮減實驗和臨床診斷所花費的時間。

在機器學習應用上,基因組生物學和其他領域也存在著一些相似之處。基因型-表型的關係就像一個景觀。這個景觀有極其陡峭的山谷,在山谷裡面,基因型微小的變化有可能帶來表型的巨大變化[137]。這個景觀還有一個很大的平原,可以看作是沒有關聯的基因型產生了同樣一個表型[138],[139]。在一定程度上,其他領域也存在類似的情況。例如在語音識別裡面,詞彙相對位置的一個很小變化可能會導致語義上非常大的變化;而在計算機視覺裡面,很多僅僅在圖像上的變形都對應著同樣的一個語義。深度學習已經在語音和視覺上取得了巨大的成功。深度學習一個非常吸引人的地方就是「端到端」的學習,可以從最底層的數據(未經過任何處理的或者不可解釋性的)來學習到一個很多層的神經網絡系統[140],[141]。如果一個類似的系統可以解決生物學和基因組學問題中的計算難題,那麼這會極大地推動基因組醫學的發展。

表2:一些大型的計劃和一些多組學數據資源

資源

數據類型

參考文獻

基因型組織表達(GTEx)

基因型:SNP 矩陣、外顯子組與全基因組序列

轉錄組:RNA-sep

表型組:個體的廣泛描述數據

[221]

國家腫瘤治療藥物選擇研究所(NCI-60)

基因型:外顯子組序列

轉錄組:m/miRNA 微矩陣

蛋白組:SWATH 描述數據

表型組:腫瘤細胞系[6](藥物測試)

[222]

DNA元素大百科全書(ENCODE)

基因型:細胞系的全基因組

轉錄組:RNA-seq

表觀基因組:ChIP-seq,  DNASE,5C

[166]

國際腫瘤基因組協會(ICGC)

基因型:腫瘤的全基因組

表型組:病理學報告

[223]

癌症和腫瘤基因圖譜(TCGA)癌症和腫瘤蛋白圖譜(TCPA)

基因型:腫瘤的全基因組和外顯子組序列

轉錄組:RNA-seq(m/miRNA)

表觀基因組:甲基化作用

蛋白組:信號通路的表達水平(反相蛋白質陣列);一些和TCGA匹配的例子

表型組:病理學報告

[224],[225[]]

1000基因組計劃

基因型:全基因組序列,優質變體

轉錄組:大型細胞線的 RNA-seq(通過Geuvadis項目得到)

表型組:不同人群(父代與子代)

[226]

NIH藍圖,表觀基因計劃

基因型:全基因組序列(一個細胞線子集)

轉錄組:RNA-seq 和 smRNA-se1

表觀基因組:廣泛的 ChIP-seq

表型組:幾十種細胞線和分化細胞體外實驗

[227],[228]

人體性狀的遺傳研究(GIANT)

基因型:SNP 矩陣

表型組:肥胖症患者的身體測量數據

[229-231]

相比表型觀測量(如一個病人是否具有噁心症狀),細胞變量更難測量。但是,如果比較從一大群人中測量每個病人的少數幾個細胞變量與從一小群人中測量每個病人成千上萬的變量,後者更有希望破解一個細胞的基因組指令,並且後者可能會產生更多有價值的生物機理信息。從某種意義來說,我們採用了一個「基因不變性」假設,也就是說,我們假定調控過程對於整個基因組是相同的,所以我們能夠通過將不同位置的基因組看作不同的變量來發現DNA到細胞變量之間的關係。

通過使用虛擬機,雲計算使得重複性研究非常方便。Dudley 和 Butte [45]將這個稱為系統快照交換過程。在這個過程裡面,數據集、代碼庫、處理管道以及實驗結果都進行了打包,可以用於複查與後續的研究。類似的, Stein 等人提出一個觀點,全球範圍內的實驗室的信息技術與存儲資源的增速落後於測量技術的費用降低速度,這對傳統的將基因組數據下載到本地計算機進行分析的模式提出了挑戰[146],[147]。構建一個大型的機器學習實驗系統需要軟體工程專家的配合。系統的流程通常依賴複雜的、脆弱的並且容易過時的模塊,這些模塊通常很難重現[148]。因此,為了適應大數據基因組時代,機器學習研究項目在最初階段就要設計得具有較好的可擴展性,可移植性和可重複性。

除了基因組和疾病風險數據,我們認為一個最好的推進方式就是利用細胞水平數據來構建基因組如何影響這些數據的顯式模型。假定有一個新的病人需要診斷和治療,「細胞變量的計算模型」(如圖2(b)所示)方法就有很大的經濟優勢。一個直觀的想法就是衡量哪種變量對應的測量技術是便宜、快速與無創的(如基因測序),然後預測哪些變量的測量技術是昂貴、費時與有創傷的(如一個孤獨症患者的大腦切片)。同時,生物學家也在開發新的高通量技術來進行細胞變量的測量,如 DNA 甲基化[149],基於長閱讀技術(long-read)的新 mRNA亞型 [150]-[152]以及一個單細胞的 mRNA 水平。如何將很多逐漸湧現的數據資源集成起來進行分析將會成為將來某個時刻的挑戰,並且迄今還沒有一個完美的技術流程出現[106]。例如在利用表2中的很多原始數據來進行模型訓練前,需要依賴於有生物學背景的人來進行預處理。而對於機器學習研究者,這種預處理是一個很大的障礙,儘管相對於醫學轉化和拯救生命而言這個障礙不算大。在後續部分,我們將討論如何吸引機器學習研究者以及將來的研究方向。

A    對機器學習研究者的吸引力

目前的機器學習研究者還聚焦於語音識別、自然語言處理以及計算機視覺任務上。他們針對這些領域的問題開發了很多專門的系統。從我們了解的情況來看,機器學習研究者是很樂意在重要的應用上來驗證他們所提出算法的有效性。因此如果問題和數據都有了並且學科之間能夠更好的溝通,基因組學與計算生物學會像計算機視覺一樣成為一個機器學習研究者願意投入的領域。

一個成功的案例就是機器學習研究者非常樂意參與Kaggle舉辦的默克分子活性競賽。儘管深度學習研究者沒有關於訓練特徵的生物化學領域知識,但是他們能夠顯著提高現有的藥物發現的水平。另外一個例子就是蛋白質側鏈預測,這是蛋白質摺疊和蛋白質設計的一個關鍵步驟[157],[158]。因為側鏈預測已經抽象為一個圖模型問題,因此該問題受到了從事推理算法的機器學習研究者的極大關注[159]-[162]。而對於蛋白摺疊這樣更具挑戰性的問題,兩年一次的蛋白質結構預測關鍵評價(CASP)[20]提供了數據與摺疊相關任務的比賽。蛋白質功能標註的關鍵評價(CAFA)是另外一個挑戰賽,在這裡機器學習研究者需要預測蛋白序列的功能[163]。但是無論是CASP還是CAFA,其數據和問題描述都是由領域專家給出的。很多計算生物學的問題,包括剪接、基因組標註、蛋白質摺疊以及蛋白序列結合,都可以打包成Kaggle類似的挑戰賽。這些面向機器學習領域的挑戰賽將促進知識的共享並吸引更多的機器學習研究者參與其中。這有可能會對其他的計算生物學問題提供有價值的觀點,並且有可能提升現有的研究與技術水平[101],[164]。

一些組織在引導機器學習研究者參與方面取得了很大的成功。DREAM(逆向工程評估和方法對話)提出了一些關於生物與醫學的基本問題,通過嚴格的實踐來對不同方法性能進行評價(例如保留測試數據),並以此來促進合作。CAGI(基因組標註嚴格測試)旨在評價預測基因組變異帶來的表型組影響的計算模型的性能並展示一些未來的研究方向。CASP是另外一個致力於構建現有的最新蛋白質結構預測方法,同時確定目前取得了哪些新的進展、並指出最值得關注的一些方向。

B    進化保守的不依賴性

在IV-A這一節提到,現有的基因變異分析工具(如CADD)嚴重依賴於保守特徵。那麼一個缺點就是所得到的模型看起來有可能不太依賴於保守性其性能也非常好,但是這些模型難已在基因組上發現有意義的模式。例如,節III-B提到的剪接的計算模型在保守性特徵可用的情況下會很精確,一個可能的原因就是剪接的部分細節沒有被模型從原始的信使RNA序列訓練數據中探明。同樣的,既然相關的生物化學過程不能夠直接檢測到進化保守的信息,那麼一個模擬進化保守過程的模型也不能可能訪問到進化保守信息。

依賴保守特徵的另外一個缺點就是只能夠表達序列保守而非功能性保守信息。並非所有的保守序列都是功能性的,同樣並非所有的功能性序列都是保守的[165],[166]。可以預料到缺乏與疾病有更多關聯的功能性保守,但是現階段不知道如何去測量或者預測很多基因產品的功能。同樣,儘管當保守能夠告訴我們一個變異有可能危害生育力,但它既不能告訴我們為什麼這個變異是破壞性的或者可以採用什麼治療手段。更進一步的,保守只能夠告訴我們什麼東西經過上百萬年的自然選擇之後能過存活下來。這對於DNA裡的致病變異(如導致疼痛或者生育年齡之後很久才顯現出來的阿爾茨海默氏症,帕金森氏症,心臟病,大多數癌症等)是沒有意義的。在有些例子裡面,與疾病有關的變異有可能在其他的物種是作為一個野生型出現的。最後,在最近進化的部分基因組裡,保守是與改變核苷酸的變異相結合的。例如,用於根據一些資料庫(如人類基因變異資料庫HGMD)來對致病基因變異進行分類的方法通常對保守基因區域的變異有著較大的偏差。簡而言之,保守是一種可以用於預測的信息,但是它只是一種非常片面的信息。

C    循環神經網絡(RNN)

其他的一些處理序列數據的研究領域在將馬爾科夫模型升級為深度循環模型RNN之後,性能得到了極大的提升。在面向文本的自然語言處理上,經典的n-gram模型正在快速的被RNN[169]以及長短時記憶網絡LSTMs所取代[170]。在語音識別上,隱馬爾科夫模型HMM也已經被LSTMs取代,後者能夠學習到更好的特徵表達[103]。我們相信在計算生物學裡面,基於序列的預測應用也將會受益於類似的方法。例如,基因組的標註問題目前仍舊沿用經典的HMM模型[171]-[173],該方法將基因組位置作為時間軸,位置相關的基因測量值作為觀測變量。最近的DNA元素(ENCODE)工程採用的官方基因標註方法就是採用的基於HMM的模型[174]。HMM還用來預測單個核苷酸變異是否是潛在的致病原[175]。另外一個例子就是對細胞變量的時序變化進行建模。Karr等人的工作[176],[177]被廣泛認為是第一個能夠具有任意合理預測精度的整細胞計算模型。通過訓練一個模型來對16個細胞變量每分鐘更新一次,他們模擬了人類的寄生菌支原體---這是一個RNN特別適用的時序任務。另外一個RNN擅長的例子,我們發現DNA結合蛋白是以一個動態的過程來達到結合點,在這個過程裡,蛋白沿著DNA主鏈來進行轉移。在轉移的時候,蛋白可能受到幹預序列模式或者染色體狀態的影響。這種看到的TF-DNA交互的動態觀點恰好需要一個基於RNN或者LSTM的序列狀態結合模型。另外一個RNN潛在的應用例子就是表觀基因的軌跡填補。Ernst和Kellis用回歸樹來解決這個問題[179]。但是這個問題可以看作是一個序列對序列的映射問題,RNN有可能會進一步提高性能[180]。

D    可解釋性

可解釋性不是一個有著精確定義的概念。儘管在上個世紀90年代就有定義一個機器模型可解釋性的呼聲,到目前位置還沒有一個公認的定義。可解釋性的評價依賴於所採用的形式化和表達概念的框架。一個「簡單」的可解釋性模型在不同的框架下可能顯得很複雜。

在有些應用領域,可解釋性非常重要[182]。和偏好於數據驅動的解釋而非不準確的概念性解釋這一觀點一樣,我們倡導系統是可以被人類專家質疑的,這一點可以使得系統做出的預測能夠經受住實驗的檢驗。不同於檢查一個網絡的參數並且對其進行解釋,一個更有意義的方法是讓系統能夠對輸入和輸出之間的關聯問題作出回答,例如當一個特定的核苷酸改變之後,一個細胞變量是增加還是減少;或者一對核苷酸的改變是否導致細胞變量的變化,並且這個變化不歸因於獨立的額外的原因。這種專家與機器學習系統之間的問-答交互提供了一種定量化的,數據驅動的解釋。

傳統的方法可以發現重要的特徵。例如給定一個具有良好解釋性的利用數據訓練得到的機器學習模型,一個領域專家可以評測系統,用用來識別與預測任務相關的相似特徵、模式與隱變量。輸入特徵可以根據重要性排序,這可以通過線性模型、決策樹或者隨機森林得到。

對機器學習解釋能力的研究水平會隨著模型在實際中的性能的提高而提高。一些世界頂尖級的研究者將他們的關注點放在了模型的可解釋性上並且已經取得了很多新的進展。但是,對於一個特定的時期,一直等待著模型可解釋性的最終解決,會掩蓋掉更為精確的模型能夠為基因組學和精準醫療帶來的好處。從歷史可以看到,很多進展並沒有特別去理會那些精確的因果原理。例如在1847年,Ignaz Semmelweis發現接生之前洗手會減少產婦的死亡率是相關的。他在其後的整整25年裡減少了約三分之二的產婦死亡率,一直到Louis Pasteur建立了微生物與疾病之間的關係。從不同的角度來看,如果機器學習能夠確定疾病的基因原因並找到合適的療法,那麼受益的病人不太可能非要了解其可解釋性。

無論機器學習的進展如何,和生物學家一起工作的機器學習研究者需要應對關於可解釋性與歷史模型的很強的偏見。例如PFMs(第III-C節)提到有一個關於蛋白序列結合的不太符合實際的簡單假設(也即位置獨立性),但是它們一直是明確的作為TF與RBP序列特性的一個流行模型,原因在於模型很簡單。此外,序列的特性規則可以被視覺化成序列logo(見圖7),這個結果非常直觀,非常易於領域專家理解。一些PFMs的後續方法試圖提供類似的可視化,例如Sharon等人的特徵模體模型[94]。但是這些方法通常會比較複雜,因此其性能雖好,但是難已得到生物學家的普遍接納。

很多學者致力於探索如何提高機器學習模型(如深度神經網絡)的可解釋性。Erhan等人引入了調整輸入來使一個隱層節點得到最大化激活的思想。這使得我們可以看到一個隱層節點對於什麼樣的輸入比較敏感[183]。這個方法已經應用於在幾百萬張圖像上訓練得到的深度神經網絡,並發現了網絡的頂層神經元對應著人臉、貓以及人體檢測器[184];這些結果是通過求解一個範數限制下的神經元激活值最大化對應的輸入問題來得到的。Zeiler和Fergus[185] 可視化了卷積神經網絡(CNN)的輸入變動導致的高層特徵變化情況,其方法是產生一系列差異化的輸入並且每個輸入都能夠使得網絡高層的特徵圖獲得很強的激活值。一些極具競爭力的可視化方法利用後向傳播算法來對深層網絡對於輸入變動的反應進行高效可視化[186],[187]以及理解網絡深層的不變性[188]。深度學習的另外一個方法就是簡化已有模型的計算複雜性。典型的例子包括最優腦損傷方法[189],濾波器分解方法[190]-[193],以及模型壓縮[194]。但是,模型簡化技術的出發點是為了更快的預測,而不是更好地理解預測函數的特性。我們發現特別是模型壓縮能夠賦予大型黑箱模型(如深度神經網絡)的近似可解釋性能力。

確實存在著一些機器學習模型的高可解釋性導致一些新的生物學發現的例子。一個例子是計算病理學家項目(C-Path)[195],這是一個計算機視覺與腫瘤治療學交叉的項目。C-Path的作者發現他們的機器學習模型比預計的更嚴重依賴於基質細胞(連結的),這個發現啟發了人類病理學家在乳腺癌上的新發現。決策樹在計算生物上一直流行的部分原因就是他們的規則是可以理解的[196]。在T細胞染色體狀態的HMM模型裡,Ernst和Kellis[172]顯式地簡化了狀態空間(從79到51)來給每個狀態分配有意義的生物功能。這種從可解釋性的狀態得到的直覺發現是他們貢獻的一個重要組成部分。展望未來,諸如深度學習等技術將能夠為非機器學習領域的專家提供更多的發現。

E    基因組學的對抗數據

計算機視覺最新的工作強調了當輸入對抗樣本後,神經網絡將會產生錯誤的輸出。這些輸入樣本之所以被稱為對抗數據,是因為他們被構造出來的母的就是使得一個模型產生錯誤的輸出。這些輸入樣本通常是利用一個特定的模型產生來的,例如一個訓練好的網絡或者一個正在訓練的網絡。

Szegedy等人[197]發現對抗樣本未必一定是特殊的或者病態的。一個例子就是一個最新的神經網絡模型能夠正確的將一個小汽車圖像識別到,但是僅僅對圖像像素做些小的變動,這幅圖像就被誤認為是鴕鳥。對於基因組數據,在很多情況下,一個小的變化(例如一個變異)會在實際中產生巨大的效果[137]。Szegedy等人顯示這種困境在很多圖像與類別上都會出現,甚至是被變動的圖像來自於訓練集。當樣本允許與訓練數據差別較大時,這種對抗樣本會非常多[198]。此外,能夠「愚弄」一個神經網絡模型的樣本也通常可以「愚弄」利用同一批訓練數據得到的另外一個神經網絡模型,這也說明了集成多個神經網絡未必能夠解決這一問題。

對抗樣本存在的一個關鍵在於給定任何訓練樣本,我們總能夠沿著神經網絡權重的方向進行擾動,這會對放大擾動對輸出的影響[199]。值得注意的是,這些對抗樣本一般都不是自然產生的,所以系統還是能夠很好的處理自然樣本。但是,基因組醫學的一個目的是利用計算模型來預測治療方案的效果,例如利用基因編輯技術對基因組進行小的變動。而這種改變基因組的技術得到的基因組序列一般是非自然的,因此有可能帶來對抗樣本問題。為了解決這個難題,可能的方案是合成對抗的基因組變體並比較預測與實際實驗,這可以驗證和改進計算模型。我們相信對抗樣本會對修正和驗證在生物學和基因組學裡面利用數據驅動方法學習到的不變性。

F    基因編輯學

基因組醫學的一個最有前途的方向就是基因編輯。基因編輯通過利用RNA嚮導的來自於細菌自適應免疫系統的DNA核酸內切酶CAS9(CRISPR關聯的核酸內切酶9)- 即成簇的、規律間隔的短回文重複序列(CRISPR)來實現的。CRISPR-Cas9系統的優點在於只需要CAS9酶和一個單一的嚮導RNA(sgRNA)[200]。將sgRNA作為模板,Cas9能夠定位基因組中的特定的位置並且刪剪這些位置的基因組。CRISPR-Cas9系統可以用來進行修改、插入、刪除基因指令。該系統目前已經通過抑制核酸內切酶域來控制基因的表達[201]、並研究神經細胞的基因功能[202]、開發合成的生物應用[203]、定位導致地中海型貧血的致病變異[204]以及囊性纖維化跨膜細胞導體受體突變[205]。對人體組織的基因編輯技術還面臨著很多挑戰,但這些挑戰有望在不遠的將來即可解決[206]。我們相信計算模型不光可以增加CRISPR-Cas9系統的有效性[207],還可以預測基因編輯的表型效果---這些反過來會使得基因編輯這項技術的潛能能夠極大地發揮出來。如前面所述,知道如何編輯基因組不等於知道對基因組做哪些編輯。

參考文獻:


©本文為機器之心投稿,轉載請聯繫本公眾號獲得作者授權

✄---

加入機器之心(全職記者/實習生):hr@almosthuman.cn

投稿或尋求報導:editor@almosthuman.cn

廣告&商務合作:bd@almosthuman.cn

相關焦點

  • 深度 機器學習中的並行計算:GPU、CUDA和實際應用
    圖 1:並行問題的大概形式當然,並行處理不是萬能魔法,並不是對每一種情形都適用;另外在將並行處理整合進某個項目中時,還要考慮實際和理論上的算法設計問題。但是,因為大數據(Big Data)包含了非常大量的數據,其相關的問題也正越來越依賴於常規的機器學習,所以考慮到並行可能在算法執行的時間節省等問題上所帶來的價值,其所可能具有的麻煩就是值得我們去面對的了。
  • 人工智慧、機器學習和深度學習做好準備的數據中心
    人工智慧、機器學習、深度學習應用程式的密集需求對數據中心的性能、可靠性和可擴展性提出了挑戰,尤其是在IT架構師模仿公共雲的設計以簡化向混合雲和內部部署的過渡時。Excelero公司首席技術官Sven Breuner和首席架構師Kirill Shoikhet分享了9個為人工智慧、機器學習和深度學習準備數據中心的最佳實踐。
  • 機器學習、數據科學、人工智慧、深度學習和統計學之間的區別!
    作者:Vincent Granville,來源:機器之心 在本文中,數據科學家與分析師 Vincent Granville 明晰了數據科學家所具有的不同角色,以及數據科學與機器學習、深度學習、人工智慧、統計學、物聯網、運籌學和應用數學等相關領域的比較和重疊。
  • 衝量網絡 | 可信計算與機器學習
    ,無論何時,都需要一個能幫助我們進行預測和深度挖掘數據的技術,機器學習便由此進入到人們的視野中。簡單來說,機器學習就是對計算機一部分數據進行學習,然後對另外一些數據進行預測與判斷。機器學習的核心是使用算法解析數據並從中學習,然後對新數據做出決定或預測。
  • 深度學習與機器學習:了解差異
    -------機器學習和深度學習都可以發現數據模式,但是它們涉及截然不同的技術機器學習和深度學習都是人工智慧的形式。準確地說,深度學習是機器學習的一種特定形式。機器學習和深度學習都從訓練和測試模型開始,並經過優化找到一個權重使模型效果更好。
  • 如何把科學計算和機器學習結合,更好的解決實際問題 | 《AI+科學彙編》
    、基因科學、再生醫學。中國科學院的明平兵教授分享了《多尺度問題:科學計算+人工智慧》,介紹了多尺度這一在自然界普遍存在的現象,列舉了多尺度建模與計算中的困難與挑戰,以及人工智慧給多尺度問題的求解帶來的新思路。清華大學的史作強教授分享了《基於流行和偏微分方程的機器學習數學模型》,從偏微分方程和微分幾何角度出發,為深度學習模型提供一個完整的理論框架,同時也展示了該理論框架如何誘導出新的有效的深度學習模型。
  • 大數據基礎設施論壇(下):存儲、計算、架構在大數據中的應用
    2014中國大數據技術大會14日下午大數據基礎設施論壇上,北京卓越訊通科技有限公司CEO賴兆紅,希捷資深架構師郝繼玖,Memblaze 技術顧問劉愛貴,DELL資深解決方案經理尹玉峰,阿里巴巴資深技術專家強琦,亞信大數據平臺研發部經理田毅,AMD中國研究院研究員谷俊麗分別從存儲、架構、計算等方面介紹了在大數據中的應用與實踐。
  • Python大數據綜合應用 :零基礎入門機器學習、深度學習算法原理與案例
    共4天8節,講解機器學習和深度學習的模型理論和代碼實踐,梳理機器學習、深度學習、計算機視覺的技術框架,從根本上解決如何使用模型、優化模型的問題;每次課中,首先闡述算法理論和少量公式推導,然後使用真實數據做數據挖掘、機器學習、深度學習的數據分析、特徵選擇、調參和結果比較。
  • 人工智慧及機器學習與深度學習揭秘
    深度學習、機器學習、人工智慧,這些代表著未來技術的流行語。在本文中,我們將通過一些真實案例討論機器學習和高階的深度學習。在21世紀技術官社區未來的文章中,我們會持續探討垂直行業人工智慧的應用。當然,本文的目的並不是讓你成為數據科學家,而是讓你更好的理解用機器學習都做什麼。
  • 機器學習和深度學習的 5 個關鍵區別
    換言之,他們不斷地提高自己在任務上的表現,例如,在沒有人幫助下玩遊戲。機器學習被廣泛應用於藝術、科學、金融、醫療等領域。有不同的方法讓機器學習。有些是簡單的,如一個基本的決策樹;有些則要複雜得多,涉及多層人工神經網絡。後者發生在深度學習中,我們一會兒再談。
  • 大數據:材料基因組計劃,機器學習方法預測材料性能!
    智能網絡搜索、語音識別,乃至無人超市、無人駕駛汽車等,依託於機器學習方法的新事物正迅速地在生活中普及。Alpha Go的橫空出世更讓世界驚嘆於人工智慧的潛在價值。在科研領域,大數據的理念正在改變著科研人員對未知世界的探索方式。
  • 為人工智慧、機器學習和深度學習做好準備的數據中心實踐
    人工智慧、機器學習、深度學習應用的強烈需求對數據中心的性能、可靠性和可擴展性提出了挑戰,尤其是當架構師模仿公共雲的設計以簡化向混合雲和內部部署的過渡時。GPU(圖形處理單元)伺服器如今很常見,圍繞GPU計算的生態系統正在迅速發展,以提高GPU工作負載的效率和可擴展性。然而在避免存儲和網絡中潛在的瓶頸的同時,也有一些技巧可以很大限度地提高GPU的利用率。
  • 機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用...
    共4天8節,講解機器學習和深度學習的模型理論和代碼實踐,梳理機器學習、深度學習、計算機視覺的技術框架,從根本上解決如何使用模型、優化模型的問題;每次課中,首先闡述算法理論和少量公式推導,然後使用真實數據做數據挖掘、機器學習、深度學習的數據分析、特徵選擇、調參和結果比較。
  • 【乾貨薈萃】機器學習&深度學習知識資料大全集(二)(論文/教程/代碼/書籍/數據/課程等)
    【導讀】轉載來自ty4z2008(GItHub)整理的機器學習&深度學習知識資料大全薈萃,包含各種論文、代碼、視頻、書籍、文章、數據等等。是學習機器學習和深度學習的必備品!  介紹:ICML2015 論文集,優化4個+稀疏優化1個;強化學習4個,深度學習3個+深度學習計算1個;貝葉斯非參、高斯過程和學習理論3個;還有計算廣告和社會選擇.ICML2015 Sessions.
  • Methods|DeepC:使用兆鹼基規模的遷移學習預測3D基因組摺疊
    前者擅長開發計算和統計方法以回答醫學基因組學和群體遺傳學方面的問題,後者的課題組對於哺乳動物基因的調控及其與人類疾病的關聯感興趣。、與常見疾病相關的大多數遺傳變異會影響遠離靶基因的基因調控區域。基因組三維(3D)結構是介導這些功能相互作用的關鍵,但其複雜性和大規模使其難以理解和預測。
  • 人工智慧、機器學習和深度學習的區別?
    這主要歸功於一種實現人工智慧的方法——機器學習。機器學習最基本的做法,是使用算法來解析數據、從中學習,然後對真實世界中的事件做出決策和預測。與傳統的為解決特定任務、硬編碼的軟體程序不同,機器學習是用大量的數據來「訓練」,通過各種算法從數據中學習如何完成任務。舉個簡單的例子,當我們瀏覽網上商城時,經常會出現商品推薦的信息。
  • 謝國彤:疾病預測的機器學習、深度學習和經典回歸方法
    該模型以生存結局和生存時間為應變量,可同時分析多個因素對生存期的影響,能分析帶有刪失生存時間的數據,且不要求估計數據的生存分布類型。Cox 模型在醫學研究中得到了廣泛的應用,是傳統生存分析和風險預測中應用最多的多因素回歸分析方法。腦卒中預測模型的評估考慮了校準度(calibration)及區分度(discrimination)。
  • 【線上】MATLAB數據分析、圖形圖像處理、機器學習與深度學習在線培訓班
    、數值分析、矩陣計算、科學數據可視化、數據處理與機器學習、圖像處理、信號處理、計算金融學、計算生物學以及非線性動態系統的建模和仿真等諸多強大功能集成在一個易於使用的視窗環境中,為科學研究、工程設計以及必須進行有效數值計算的眾多科學領域提供了一種全面的解決方案。
  • 【乾貨薈萃】機器學習&深度學習知識資料大全集(一)(論文/教程/代碼/書籍/數據/課程等)
    Sparsity.很清晰介紹:雅虎研究院的數據集匯總: 包括語言類數據,圖與社交類數據,評分與分類數據,計算廣告學數據,圖像數據,競賽數據,以及系統類的數據。介紹:這是一篇介紹圖像卷積運算的文章,講的已經算比較詳細的了介紹:每天請一個大牛來講座,主要涉及機器學習,大數據分析,並行計算以及人腦研究。
  • 機器學習與人工智慧、深度學習有什麼關係?終於有人講明白了
    人工神經網絡是生物科學、認知科學等與人工智慧結合的產物,在早期的機器學習中就已開始應用,其初衷是在計算機中模擬人類大腦神經元的工作模式。人類大腦的神經元在百億級別,通過突觸實現彼此交流,從計算的角度看屬於計算密集型,這限制了複雜人工神經網絡在實踐中的應用。