Deep Learning,現在幾乎到處都能看到它的應用。看!緊隨DeepBind,在生物信息中又來了一個DeepSEA——這是一個適用於表觀遺傳研究和應用的工具,它只從基因組的序列出發,並沒用其他有關於表觀研究的實驗測定技術,通過直接輸入fasta sequence,vcf或者bed文件,就可以預測轉錄因子結合位點(Transcription factors binding site), DNase I超敏感位點(DNase I hypersensitive sites)和組蛋白靶點(histone marks),這麼多年來,這樣的做法還是頭一回。下面這張示意圖展示的是各個主要的表觀修飾在染色體中的位置和相關實驗測定技術。
圖片來源:10.3724/SP.J.1206.2012.00434
為什麼要有這麼個東西呢?
眾所周知,人類基因組上絕大部分的序列都是非編碼序列——不直接編碼蛋白質的序列,這些序列很長一段時間以來都被誤解為所謂的「垃圾DNA」!但其實它們各自都有著獨特的作用——調控著機體的正常運作,只是要想正確地理解它們確實不是一個容易的事情。DeepSEA想要幹的就是嘗試從這些序列的基礎功能預測著手去解決這麼一個難題。
DeepSEA流程圖
它先通過學習大量已知的染色質修飾數據——主要來自於ENCODE和Roadmap Epigenomics等大型項目,經過不斷的訓練,學習到了許多種在非編碼區域中序列調控的序列模式或者說是序列特徵(注意是序列模式,不是功能模式),之後,便可以通過這些模式和特徵去預測序列上單鹼基的突變會如何影響染色質的修飾功能。從其上周(8月24號)發表的文章來看,其精確程度是目前所有方案中最高也是在同等數據下最有效的了。
DeepSEA 在Nature Method的原文:http://www.nature.com/nmeth/journal/vaop/ncurrent/full/nmeth.3547.html
更贊的是它的代碼和相關訓練數據都一起公開在網站上:http://deepsea.princeton.edu/
可以嘗試玩起來了。
更多基因組學乾貨敬請關注「泛基因」或訪問網站 www.fungenomics.com 並歡迎留言。