人工智慧在基因組學研究中的重要突破!實現了期待已久的突破,未來也許可以應用於生物醫學中。
科學家們早就知道,人類基因會依照我們DNA的精確順序傳遞的指令付諸行動,這些指令由四種不同類型的單個的鹼基分別編碼:A,C,G和T。
眾所周知,將近25%的基因被類似於TATAAA的序列(稱為「 TATA框」)轉錄,那其它75%的基因是如何開啟的呢?這依然是一個謎。
最新一項研究中,加州大學聖地牙哥分校的研究人員確定了一種DNA激活碼,他們稱其為下遊核心啟動子區域(downstream core promoter region,DPR),這一發現最終可用於控制生物技術和生物醫學應用中的基因激活。
相關成果公布在9月9日的Nature雜誌上。
文章深作者James T. Kadonaga說:「DPR的鑑定揭示了激活我們大約四分之一至三分之一基因的關鍵步驟。DPR一直是一個謎,它是否甚至存在於人類中一直存在爭議。幸運的是,我們已經能夠通過使用機器學習解決這個難題。」
1996年,Kadonaga及其同事在果蠅中發現了一種新的基因激活序列,稱為DPE(DPR的一部分),該序列可使基因在沒有TATA框的情況下被打開。之後在1997年,他們在人類中發現了一個類似DPE的序列。但是,從那時起,對人類DPE的細節和流行程度的解讀就變得撲朔迷離。最驚人的是,在成千上萬的人類基因中僅發現了兩個或三個活躍的DPE樣序列。
20多年後,為了解答這個謎題,Kadonaga與博士後學者Long Vo ngoc,Cassidy Yunyun Huang,Jack Cassidy(已退休的計算機科學家)合作利用強大的人工智慧工具得到了答案。
研究人員匯集了500,000個隨機版本的DNA序列,並對每個序列的DPR活性進行了評估。從那裡開始,使用200,000個版本創建可以準確預測人類DNA中DPR活性的機器學習模型。
結果正如Kadonaga所描述的那樣,「非常好」。他們創建了類似的機器學習模型,作為識別TATA框序列的新方法。他們用成千上萬的測試評估了新模型,其中的TATA盒和DPR結果是已知的,而且研究人員發現其預測能力是「令人難以置信的」。
這些結果清楚地揭示了人類基因中DPR基序的存在。此外,DPR的出現頻率似乎與TATA盒的發生頻率相當。研究人員觀察到了DPR和TATA之間的有趣雙重性——用TATA框序列激活的基因缺少DPR序列,反之亦然。
Kadonaga指出,在TATA框序列中找到6個鹼基很簡單。在19個基準點上,破解DPR的代碼更具挑戰性。
「找不到DPR,因為它沒有明顯的序列模式。在DNA序列中存在被加密的隱藏信息,使其成為活躍的DPR元素。機器學習模型可以解密該代碼,但是我們人類卻不能。」
展望未來,將人工智慧進一步用於分析DNA序列模式應會提高研究人員對人細胞中基因激活的理解和控制能力。Kadonaga說,這種知識可能對生物技術和生物醫學領域有用。
「機器學習使我們能夠識別DPR,相關的人工智慧方法可能對研究其他重要的DNA序列基序很有用。許多無法解釋的事情現在可以解釋了。」
參考文獻
Identification of the human DPR core promoter element using machine learning