(原標題:計算機如何幫助生物學家破解人類生命「密碼」?)
本文來源:機器之心
當完全完成足足三十億字母長度的人類染色體組測序後,我們也就勢不可擋地進入了生物研究中的「組學」紀元。科學家現在正爭相測定所有染色組(包含全部的基因組),不同器官的的蛋白質組,並正在處理著這些過程中的海量數據。
舉個例子,科學家可以利用「組學」中的工具,比如DNA序列,剔出被流感病毒所影響的人類基因。但是因為人類的染色體總數至少有25000個基因組,即使在在上述最簡單的情況下,改變的基因組也可以千位來計數。
儘管測序與識別基因和蛋白質可以給它們名字和相應的位置,但無法告訴我們它們到底有何用處。我們需要去了解這些基因、蛋白質,以及不同生物作用過程中的一切。
今天,即使最基本的實驗也會產生大量的數據,最大的挑戰來自於將相關的結果從混雜的實驗背景中分離開來。計算機正在幫助我們克服數據過大的問題,它們甚至可以做到更多,幫我們做出科學假設,解釋新的生物作用。數據科學從基本上支撐起了前沿的生物研究。
計算機的作用
計算機之所以能夠成為大數據最完美的處理者,是因為它們可以自動跟蹤所有重要分析必要的前提。
雖然人為編程使得它們有著人類的一些缺點,但是計算機能夠有效處理大量數據,並且不會像人類研究員一樣容易趨向於熟悉區域。
計算機還可以經過指導後自動尋找實驗數據裡的特殊模式——即機器學習,在1950年代首先提出,並由數學家阿蘭·圖靈而聞名。它是一種指導計算機從資料庫中熟悉模式,並在遇到新的數據式可作出預測的算法。
自從我們可以利用大數據並讓計算機幫助理解未知生物學,機器學習就已經在生物研究中引起了變革。
通過模擬大腦作用訓練計算機去「思考」
我們曾經在實驗室裡用過一種有趣的機器學習類型,叫做人工神經網絡(ANN)。大腦由複雜的神經網絡組成,通過在神經網絡中傳導電脈衝進行交流。相似的,計算機神經網絡可以回應其他的神經信號打開並關閉,進行模擬。
通過採用模擬真實神經的算法,我們可以讓網絡學習解決多種問題。比如谷歌就利用了一個強力的ANN進行著名的Deep Dream 項目,計算機可以分類甚至創造圖像。
而我們的目標在於免疫系統,希望能夠找出癌症的新療法。我們利用ANN計算模型來研究人類的免疫細胞用以決定是否阻擊人體內外來物的短表面蛋白質組代碼。如果我們知道了更多免疫細胞(例如T細胞)與正常/自細胞和異常/異細胞的區別,我們就可以設計出更有效的疫苗與療法。
我們在公開的資料中搜羅了前人們識別的上千個蛋白質代碼的分類,並將這個巨大的資料庫分為兩組:健康細胞的正常自蛋白代碼,以及病毒、癌症和病菌的異常蛋白質代碼。接著,我們便交給了實驗室研發的神經網絡。
一旦我們給ANN足夠的蛋白質代碼數據,算法就可以識別正常與異常蛋白質代碼的基本區別。對於人類來說,跟蹤這些生物現象過於艱難,因為起碼有上千個蛋白質代碼需要去分析,一個機器才能夠應付這些問題,並確定新的生物學。
機器學習所做出的預測
機器學習在生物學中最重要的應用便是它可以基於大數據作出預測。計算機的預測可以讓這些大量的數據有所作用,檢測假設並節省了珍貴的時間與資源。
例如,在T細胞的領域,知道哪些病毒的蛋白質代碼為目標,對於研發疫苗與療法是非常關鍵的。但是每一個病毒有著太多不同的蛋白質代碼,要去針對每一個都做實驗是非常艱巨且昂貴的。
反之,我們訓練人工神經網絡來幫助機器學習正常與異常的蛋白質代碼的重要生物化學特徵。接著我們可以讓模型來預測哪些病毒蛋白質代碼與「異常」分類中的代碼相似,可以被T細胞與免疫系統所識別。我們對不同的未曾研究過的病毒蛋白質進行了ANN模型的測試。
當然,就像一個迫切地想要取悅老師的勤奮學生,神經網絡能夠精確地在病毒中識別能夠引起T細胞活躍的蛋白質。我們還實驗性地測試了計算機所標識的蛋白質代碼以驗證其預測的精確度。利用這種神經網絡模型,科學家可以此迅速地預測有害病毒中所有重要的短蛋白質代碼,進行測試以研發療效與疫苗,而不是僅僅猜測,並一個一個進行試驗。
完善機器學習
由於不斷地進步,大數據科學與機器學習正在逐漸成為所有科學研究無可取代的一部分。在生物學中利用計算機進行訓練與預測已經成為了可能。從找出那些生物標記物的組合可以更好地檢測疾病,到知曉為何某些特殊的癌症治療方法只適合於某些病人,利用計算機挖掘大數據已經成為了研究中最有效的手段。
不過,它也有局限性。大數據科學的最大問題就是數據本身。如果組學研究所獲得的數據開始就是錯誤的,或者基於不可靠的科學,利用這些數據所進行的計算機訓練也就是錯誤的,並導致錯誤的預測。正所謂上梁不正下梁歪。
因為計算機(現在)還無法感知,即使在還不存在的情況下,它們也必須需要一個模型來進行思考,並因此又給了劣質數據與不可重複科學以可趁之機。
一些研究員也在擔憂著計算機變成數據的黑匣子,科學家無法理解計算機代表人類所進行的的操作與機制。
儘管有著許多問題,大數據依然有著許多好處,並能夠維持著它們研究好夥伴的角色。因此只要意識到這些危險,我們就可以理解生物學能夠通過機器眼睛所看到的未來。