Deep Learning在生物信息學中的又一個應用

2021-02-25 鹼基礦工

Deep Learning,現在幾乎到處都能看到它的應用。看!緊隨DeepBind,在生物信息中又來了一個DeepSEA——這是一個適用於表觀遺傳研究和應用的工具,它只從基因組的序列出發,並沒用其他有關於表觀研究的實驗測定技術,通過直接輸入fasta sequence,vcf或者bed文件,就可以預測轉錄因子結合位點(Transcription factors binding site), DNase I超敏感位點(DNase I hypersensitive sites)和組蛋白靶點(histone marks),這麼多年來,這樣的做法還是頭一回。下面這張示意圖展示的是各個主要的表觀修飾在染色體中的位置和相關實驗測定技術。


圖片來源:10.3724/SP.J.1206.2012.00434

為什麼要有這麼個東西呢?

眾所周知,人類基因組上絕大部分的序列都是非編碼序列——不直接編碼蛋白質的序列,這些序列很長一段時間以來都被誤解為所謂的「垃圾DNA」!但其實它們各自都有著獨特的作用——調控著機體的正常運作,只是要想正確地理解它們確實不是一個容易的事情。DeepSEA想要幹的就是嘗試從這些序列的基礎功能預測著手去解決這麼一個難題。


DeepSEA流程圖

它先通過學習大量已知的染色質修飾數據——主要來自於ENCODE和Roadmap Epigenomics等大型項目,經過不斷的訓練,學習到了許多種在非編碼區域中序列調控的序列模式或者說是序列特徵(注意是序列模式,不是功能模式),之後,便可以通過這些模式和特徵去預測序列上單鹼基的突變會如何影響染色質的修飾功能。從其上周(8月24號)發表的文章來看,其精確程度是目前所有方案中最高也是在同等數據下最有效的了。

DeepSEA 在Nature Method的原文:http://www.nature.com/nmeth/journal/vaop/ncurrent/full/nmeth.3547.html

更贊的是它的代碼和相關訓練數據都一起公開在網站上:http://deepsea.princeton.edu/

可以嘗試玩起來了。

更多基因組學乾貨敬請關注「泛基因」或訪問網站 www.fungenomics.com 並歡迎留言。

相關焦點

  • ​大牛的《深度學習》筆記,Deep Learning速成教程
    從快速發展到實際應用,短短幾年時間裡,深度學習顛覆了語音識別、圖像分類、文本理解等眾多領域的算法設計思路,漸漸形成了一種從訓練數據出發,經過一個端到端(end-to-end)的模型,然後直接輸出得到最終結果的一種新模式。那麼,深度學習有多深?學了究竟有幾分?本文將帶你領略深度學習高端範兒背後的方法與過程。
  • Multi-Label Classification with Deep Learning
    想了解更多好玩的人工智慧應用,請關注公眾號「機器AI學習 數據AI挖掘」,」智能應用"菜單中包括:顏值檢測、植物花卉識別、文字識別、人臉美妝等有趣的智能應用
  • 吳恩達deeplearning.ai五項課程完整筆記了解一下?
    自吳恩達發布 deeplearning.ai 課程以來,很多學習者陸續完成了所有專項課程並精心製作了課程筆記,在此過程中機器之心也一直在為讀者推薦優質的筆記。上個月,deep learning.ai 第五課發布,該系列課程最終結課。Mahmoud Badry 在 GitHub 上開源了五項課程的完整筆記,介紹了包括序列模型在內的詳細知識點。
  • 郭茂祖——哈爾濱工業大學——人工智慧及其應用、生物信息學...
    職稱: 教授       招生專業: 模式識別與智能系統 研究領域: 人工智慧及其應用、生物信息學、近似算法與隨機算法
  • Bioinf | 生物醫學網絡中的圖嵌入:方法、應用與評價
    最新的圖嵌入方法已在社會學和信息網絡上得到成功應用,但是尚未在生物醫學網絡上進行全面系統的研究。模型設計將圖嵌入方法應用在生物醫學任務的流程如下:首先通過圖嵌入方法從生物醫學網絡中學習低維節點表示具體來說,給定一個圖和一個起始結點,基於隨機遊走的方法首先會隨機選擇該結點的一個鄰居,然後移動該結點。重複該過程以獲得結點序列。
  • 近13年來在 deep metric learning 領域的進展實際並不存在?
    Facebook AI 和 Cornell Tech 的研究人員近期發表研究論文預覽文稿,聲稱近十三年 (deep) metric learning 領域的研究進展(ArcFace, SoftTriple, CosFace 等十種算法) 和十三年前的基線方法(Contrastive, Triplet) 比較並無實質提高。真是這樣的嗎?
  • 當AI遇到生物-深度學習在生物研究中的應用案例列表
    本篇文章列出了部分現有的應用深度學習技術處理醫學和生物學問題的工具,從這個列表中,可以看出當前深度學習在該領域的挑戰和局限,也可以全面的了解深度學習在計算生物學,醫學影像及生物信息等學科所具有的廣泛應用場景。深度學習+生物的論文發表數量
  • 大數據時代下的生物信息學研討會舉行
    12月2日,由我校醫學生物信息學研究所主辦的「河南大學博士後學術論壇—表觀遺傳與癌症論壇暨大數據時代下的生物信息學研討會」在基礎醫學院舉行。大會邀請了表觀遺傳和生物信息學領域的多名專家學者。會議由黃河學者郭向前教授主持。
  • 【NIPS2017最新Tutorial】幾何深度學習(Geometric Deep Learning )講解(附slide下載)
    【導讀】美國時間 12 月 4 日,第 31 屆神經信息處理系統大會(Neural Information Processing Systems,NIPS)在美國加州長灘的會展中心正式開幕!NIPS是人工智慧和機器學習領域的頂會,來自世界範圍內優秀的科學家、研究人員和從業者都將匯聚一堂,相互切磋工作,將在未來的五天裡共同討論和分享人工智慧的前沿想法和未來發展。
  • Deep Genomics:融資1670萬美元,它將深度學習帶到基因組學
    基因組學正在探索DNA變異如何影響特定疾病,使用機器深度學習對DNA和細胞中關鍵分子的關係進行建模,從而讓基因組學的研究更有效。在用深度學習研究基因組學的時代,Deep Genomics推開了第一扇窗。
  • 深度學習之Google Deepmind的Alphago人工智慧算法技術演變歷程
    最近大家比較關心的圍棋人機大戰(Alphago vs 李世石)中,deep mind基於Nature2016文章的Alphago在5局制的比賽中已經取得了4-1的獲勝。本文接下去會按如下幾點內容進行敘述:Q-learningReinforcement learningDeep Q-NetworksAlphago二、Q-learning與Reinforcement learning 增強學習Reinforcement learning的場景大部分有一個共同的特點,那就是這些場景有序列決策或者控制的問題,對於當前的任何一個
  • CIO時代APP微講座:青島大學李勁華——大數據與生物信息學的應用...
    當前生物信息學發展的主要推動力來自於分子生物學,生物信息學的研究主要集中於核苷酸和胺基酸序列的存儲、分類、檢索和分析等方面。因此,目前的生物信息學可以狹義的定義為將計算機科學和數學應用於生物大分子信息的獲取、加工、存儲、分類、檢索與分析,以達到理解這些生物大分子信息的生物學意義的交叉學科,實質是理論概念與實踐應用並重的學科。
  • 餘弦相似度及其生物信息學應用
    最常見的應用就是計算文本相似度。將兩個文本根據他們詞,建立兩個向量,計算這兩個向量的餘弦值,就可以知道兩個文本在統計學方法中他們的相似度情況。實踐證明,這是一個非常有效的方法。第一次搜索它在R裡面的用法,發現了tcR包裡面的cosine.similarity函數,就簡單試用了一下。
  • 代碼+實戰:TensorFlow Estimator of Deep CTR——DeepFM/NFM/AFM/...
    深度學習在 ctr 預估領域的應用越來越多,新的模型不斷冒出。從 ctr 預估問題看看 f(x) 設計—DNN 篇整理了各模型之間的聯繫之後,一直在琢磨這些東西如何在工業界落地。learning_rate"] layers = map(int, params["deep_layers"].split(',')) dropout = map(float, params["dropout"].split(',')) #-bulid weights- FM_B = tf.get_variable(name='fm_bias', shape=[1], initializer
  • DeepMind 16篇NIPS 2017論文,全部信息都在這裡了 | NIPS 2017
    這項研究中,我們提出了一個簡單而強大的生成模型,該模型被稱為矢量量化變分自動換能器(VQ-VAE)以學習這種離散表徵。當這些表徵與先前的自回歸配對時,該模型能夠生成高質量的圖像,視頻和語音以及進行高質量的揚聲器轉換。
  • 生物信息學相關網站
    生物信息學專題:https://www.biosino.org/bmdc/     中國科學院上海生命科學研究院生物信息中心的網站中的生物信息學專題提供與生物信息學有關的新聞信息,生物信息學文獻的介紹(包括的課題例如:鑑別腫瘤的亞型,細菌中的基因轉移,生物鐘與微陣列--哺乳動物的基因組有節奏,混亂的DNA區分人類與黑猩猩等等
  • 機器學習在生命科學中的應用
    歐洲分子生物學實驗室於4月11日在Nature Reviews Drug Discovery發表了一篇關於機器學習在drug-develop開發中應用的綜述文章,該文章概述了當前機器學習中使用的工具和技術,並概述了迄今為止機器學習在關鍵drug-develop領域中取得的進展。
  • 生物信息學從入門到研究完全手冊
    經過半年的摸趴滾打,我總算摸索出了一條比較適合學生物出身者的生物信息學的學習只路。(純屬個人觀點,還請大家指正)第一階段:入門期。        建議用書:《生物信息學-- 基因和蛋白質分析的實用指南》(下載:http://www.bio-soft.net/ )  或 《生物信息學》(下載同上)       該階段目標:弄清生物信息學的一些基本概念,研究內容等,並結合實例親手進行DNA序列的查找,BLAST,FASTA等分析。
  • 生物信息學專業十強
    學生畢業後可在各級生物信息學的研究機構、高等學校、企事業單位以及在研究和成果產業化過程中涉及到生物信息學的相關部門,從事科學研究、教學和管理工作我國生物學本科教育主要圍繞兩個專業——生物科學和生物技術進行,而生物信息學相關課程通常作為這兩個專業高年級學生的選修課,且要求學生們已修完大部分專業必修課以及一些計算機課程,如C語言等。
  • 這裡有10G的生物信息學中個層次的分析技術匯總
    生物信息學(Bioinformatics)是研究生物信息的採集、處理、存儲、傳播,分析和解釋等各方面的學科,也是隨著生命科學和計算機科學的迅速發展,生命科學和計算機科學相結合形成的一門新學科。它通過綜合利用生物學,計算機科學和信息技術揭示大量而複雜的生物數據所賦有的生物學奧秘。