在這個「大數據」時代,人工智慧(AI)已經成為科學家的左臂右膀,例如,機器學習算法正在幫助生物學家理解成千上萬個控制著基因功能的分子信號。但隨著分析更多數據的新算法被開發出來,這些算法也變得更加複雜和難以解釋。對此,定量生物學家Justin B. Kinney和Ammar Tareen提出了一種設計高級機器學習算法的策略,這種算法可以更容易被生物學家理解。
這種算法是一種人工神經網絡(ANN)。受大腦中神經元連接和分支方式的啟發,神經網絡是高級機器學習的計算基礎,不過雖然名字叫人工神經網絡,但人工神經網絡並不是專門用來研究大腦。
像Tareen和Kinney這樣的生物學家會使用ANN來分析一種叫做「大規模平行報告分析」(MPRA)的實驗方法的數據(MPRA是一種研究DNA的方法)。利用這些數據,定量生物學家可以製造出能夠預測哪些分子在基因調控過程中控制特定基因的人工神經網絡。
細胞並不總是會需要所有的蛋白質。相反,它們會根據需要,依賴複雜的分子機制來開啟或關閉產生蛋白質的基因。而當這些機制不能正常工作的時候,疾病和不適通常就會隨之而來。
Kinney說:「這種機制上的知識——就像理解基因調控的原理——常常是開發出治療疾病的分子療法的關鍵。」
但不幸的是,從MPRA數據中形成的標準人工神經網絡方式,和科學家們在生命科學中提出問題的方式非常不同,這種差異意味著生物學家很難解釋基因調控的原理。
而現在,Kinney和Tareen開發了一種新的方法,在計算工具和生物學家的思維方式之間架起了溝通的橋梁。他們創造出了定製的神經網絡,這種神經網絡可以從數學上反映生物學中關於基因和控制基因的分子的概念。通過這種方式,這兩位科學家實際上是在迫使他們的機器學習算法以生物學家能夠理解的方式處理數據。
Kinney解釋說,這些研究突出了對現代工業人工智慧技術進行優化,使其能夠應用於生命科學的潛力。在驗證了這種定製化人工神經網絡的新策略之後,Kinney的實驗室正在將其應用於多種生物系統的研究之中,包括與人類疾病有關的關鍵基因迴路的研究。
12月13日,研究的結果在加拿大溫哥華舉行的第一屆計算生物學機器學習會議上正式公布,在CSHL的bioRxiv伺服器上可以看到研究結果的預印本。