利用深度變體自動編碼器改進宏基因組的組裝

2021-01-07 科學網

作者：

小柯機器人

發布時間：2021/1/5 16:19:03

丹麥哥本哈根大學Simon Rasmussen課題組的最新研究利用深度變體自動編碼器改進了宏基因組的組裝。該項研究成果發表在2021年1月4日出版的《自然-生物技術》上。

研究人員開發了用於宏基因組劃分（VAMB）的變體自動編碼器，該程序使用深度變體自動編碼器在聚類之前對序列多豐度和k-mer分布信息進行編碼。研究人員證明了變體自動編碼器能夠集成這兩種不同的數據類型，而無需注釋的數據集。VAMB的表現優於現有的最新編輯器，其利用模擬和真實數據分別重建了29-98％、45％或近乎完整（NC）的基因組。

此外，VAMB能夠分離出平均核苷酸同一性（ANI）達99.5％的密切相關菌株，並將1,000例人類腸道微生物組樣本數據集中的255個和91個NC多形擬桿菌和多雷擬桿菌特異性基因組重構為兩個不同的簇。研究人員使用了該數據集的2606個NC庫，來揭示人類腸道微生物組種群具有不同的分布模式。VAMB可以在標準計算機上運行，並且可以從https://github.com/RasmussenLab/vamb免費獲得。

據介紹，儘管最近的研究在宏基因組學分類方面取得了新進展，但是利用宏基因組學數據重構微生物物種仍然具有挑戰性。

附：英文原文

Title: Improved metagenome binning and assembly using deep variational autoencoders

Author: Jakob Nybo Nissen, Joachim Johansen, Rosa Lundbye Allese, Casper Kaae Snderby, Jose Juan Almagro Armenteros, Christopher Heje Grnbech, Lars Juhl Jensen, Henrik Bjrn Nielsen, Thomas Nordahl Petersen, Ole Winther, Simon Rasmussen

Issue&Volume: 2021-01-04

Abstract: Despite recent advances in metagenomic binning, reconstruction of microbial species from metagenomics data remains challenging. Here we develop variational autoencoders for metagenomic binning (VAMB), a program that uses deep variational autoencoders to encode sequence coabundance and k-mer distribution information before clustering. We show that a variational autoencoder is able to integrate these two distinct data types without any previous knowledge of the datasets. VAMB outperforms existing state-of-the-art binners, reconstructing 29–98% and 45% more near-complete (NC) genomes on simulated and real data, respectively. Furthermore, VAMB is able to separate closely related strains up to 99.5% average nucleotide identity (ANI), and reconstructed 255 and 91 NC Bacteroides vulgatus and Bacteroides dorei sample-specific genomes as two distinct clusters from a dataset of 1,000human gut microbiome samples. We use 2,606NC bins from this dataset to show that species of the human gut microbiome have different geographical distribution patterns. VAMB can be run on standard hardware and is freely available at https://github.com/RasmussenLab/vamb.

DOI: 10.1038/s41587-020-00777-4

Source: https://www.nature.com/articles/s41587-020-00777-4

相關焦點

簡單易懂的自動編碼器

作為無監督學習模型，自動編碼器還可以用於生成與訓練樣本不同的新數據，這樣自動編碼器（變分自動編碼器，VariationalAutoencoders）就是生成式模型。本文將會講述自動編碼器的基本原理以及常用的自動編碼器模型：堆棧自動編碼器(StackedAutoencoder)。
利用宏基因組序列來確定蛋白質結構

在這項研究中，Baker實驗室的蛋白質結構預測伺服器Rosetta分析了JGI集成微生物基因組（IMG）系統上的宏基因組序列。對於蛋白質而言，外觀很重要。當然，這並不是指顏值，而是三維結構。蛋白質是由長的胺基酸鏈組成的，但一維的胺基酸序列似乎沒有意義。只有了解三維結構，研究人員才能弄清蛋白質的結構如何決定它的功能。
多快好省的宏基因組研究技巧

淺宏基因組測序方案是去年knights-lab在msystems上發表的針對16s解析度和宏基因組高成本之間的一個折中方案，通過降低測序深度，每個樣本50萬reads，但是物種的解析度因此，深度宏基因組測序是解析新環境樣本的核心方法，不過從單一樣本中重建出完整的菌株基因組有相當困難，一般需要較多樣本或設置梯度樣本從而利用更高深度和共同變化來獲取分箱信息
深度學習自動編碼器還能用於數據生成?這篇文章告訴你答案

什麼是自動編碼器自動編碼器(AutoEncoder)最開始作為一種數據的壓縮方法，其特點有:到了2012年，人們發現在卷積網絡中使用自動編碼器做逐層預訓練可以訓練更加深層的網絡，但是很快人們發現良好的初始化策略要比費勁的逐層預訓練有效地多，2014年出現的Batch Normalization技術也是的更深的網絡能夠被被有效訓練
入門| 獻給新手的深度學習綜述

Deng 和 Yu(2014) 提到了許多用於監督和混合學習的深度網絡，並做出解釋，例如深度堆棧網絡 (DSN) 及其變體。Schmidthuber(2014) 的研究涵蓋了所有神經網絡，從早期神經網絡到最近成功的卷積神經網絡 (CNN)、循環神經網絡 (RNN)、長短期記憶 (LSTM) 及其改進。
代碼詳解:一文讀懂自動編碼器的前世今生

隨後就可以利用這些網絡函數來編寫損失函數，我們會利用這個損失函數通過標準的反向傳播程序來訓練神經網絡。由於輸入和輸出的是相同的圖像，神經網絡的訓練過程並不是監督學習或無監督學習，我們通常將這個過程稱為自我監督學習。自動編碼器的目的是選擇編碼器和解碼器函數，這樣就可以用最少的信息來編碼圖像，使其可以在另一側重新生成。
中國推出自我改進金字塔立體網絡改進自動駕駛車輛深度估計功能

蓋世汽車訊在自動駕駛中，基於立體視覺的深度估計技術可以準確地估計出障礙物與車輛的距離，該技術對於車輛正確規劃路徑也至關重要。（圖片來源：SIAT）立體深度估計已經變成配備卷積神經網絡的深度學習模型
DNA/RNA-SIP與宏基因組

DNA/RNA-SIP與宏基因組
前沿|通用句子語義編碼器,谷歌在語義文本相似性上的探索

近年來，基於神經網絡的自然語言理解研究取得了快速發展（尤其是學習語義文本表示），這些深度方法給人們帶來了全新的應用，且還可以幫助提高各種小數據集自然語言任務的性能。本文討論了兩篇關於谷歌語義表示最新進展的論文，以及兩種可在 TensorFlow Hub 上下載的新模型。
快速看懂腸道菌群宏基因組測序分析報告

宏基因組測序（Metagenomics Sequencing）是對環境樣品中全部微生物的總DNA進行高通量測序，主要研究微生物種群結構、基因功能、微生物之間的相互協作關係以及微生物與環境之間的關係。宏基因組測序研究擺脫了微生物分離純培養的限制，擴展了微生物資源的利用空間，為環境微生物群落的研究提供了有效工具。
宏基因組的一些坑和解決方案

此外包括菌基因組CNV等方法的出現，可以直接通過大規模宏基因組測序不僅找到可能的菌，進一步還能鑑定出特定候選基因區段。對16s而言，宏基因組可挖掘的空間更大，如果想提高文章深度，發更高分的文章，宏基因組是個不錯的選擇。有人說，宏基因組雖然有深度，但相應也更加複雜化。
Nature方法 | 三代長讀長宏基因組組裝軟體metaFlye

，使用長序列測序技術組裝細菌基因組有了很大的改進。目前，有一些研究致力於優化長片段、高分子量DNA序列的提取技術；通過提高序列長度，增加長片段的序列覆蓋度，以組裝複雜的宏基因組序列。即使如此，仍沒有專用的長序列宏基因組組裝工具。某些組裝工具雖然被用於宏基因組測序數據組裝，但是工具在其設計階段，並沒有致力於處理宏基因組數據組裝中的一些特有的難題，比如對於組成物種的高度不一致覆蓋，長序列基因組內外的重複區域以及物種內和物種間的異質性。
三代宏基因組測序探究人類腸道中染色體外的可移動基因元件

目前宏基因組研究主要是通過二代測序來進行研究，隨著三代測序技術的發展，PacBio SMRT測序技術應用場景越來越廣泛。與二代測序方法相比，採用PacBio SMRT長讀長測序技術的三代宏基因組可以減少部分拼接錯誤，提高基因組組裝注釋的準確性和微生物群落鑑定的解析度。
宏基因組方法學研究取得進展

宏基因組方法學研究取得進展來源：北京生命科學研究院發布者：張薦轅日期：2016-03-23 今日/總瀏覽：1/5100
nanopore宏基因組分析培訓班（第2期）開始報名了

研究對象發展歷史研究目的當前宏基因組取得成就宏基因組研究重大科研計劃擴增子與宏基因組測序比較宏基因組測序技術難點納米孔測序技術介紹納米孔測序在宏基因組研究中的應用10月 13日SRA資料庫下載練習數據10月 17日納米孔測序數據處理fast5文件格式利用guppy進行數據轉換利用gpu加速basecallingfastq文件格式利用nanoplot
深度學習時代的圖模型,清華發文綜述圖網絡

因此，如何利用深度學習方法進行圖數據分析近年來吸引了大量的研究者關注。該問題並不尋常，因為將傳統深度學習架構應用到圖中存在多項挑戰：不規則領域：與圖像不同，音頻和文本具備清晰的網格結構，而圖則屬於不規則領域，這使得一些基礎數學運算無法泛化至圖。例如，為圖數據定義的卷積和池化操作並不是直接的，而這些是卷積神經網絡（CNN）中的基礎操作。
人工智慧利用單眼強度圖像進行面部深度圖估計的對抗架構深度學習

人工智慧利用單眼強度圖像進行面部深度圖估計的對抗架構深度學習人工智慧利用單眼強度圖像進行面部深度圖估計的對抗架構深度學習 2018-06-05 11:36:53 來源：今日頭條
宏基因組測序和16S rDNA測序有啥區別?

那麼在開始宏基因組測序專題前，小編需要給大家解決一個非常重要的問題——16S測序和宏基因組測序的主要區別是什麼？在解決這個問題前，小編先要來說說什麼是宏基因組測序：宏基因組測序（MetagenomicsSequencing）是對環境樣品中全部微生物的總DNA（也稱宏基因組：Metagenomic）進行高通量測序，主要研究微生物種群結構、基因功能活性、微生物之間的相互協作關係以及微生物與環境之間的關係，除了基礎研究，還有不少文章和學術會議提到在臨床上應用來鑑別感染性疾病的病原微生物
基於「三+二」宏基因組測序的抗性基因和可移動元件的精確研究

今天美格基因的佳作推薦基於「三+二」宏基因組測序策略提出了一套高效組裝宏基因組數據的分析流程，為抗性基因和可移動元件的精確研究提供了可靠方法。在此，我們展示了一套宏基因組混合組裝流程：OPERA-MS，它結合了宏基因組集群與重複感知聚類，可準確組裝複雜的細菌群落。
...出混合宏基因組裝配器OPERA-MS,更準確地組裝複雜的微生物群落

2019年8月6日訊/生物谷BIOON/---通過高通量宏基因組測序已實現了對微生物組的表徵。然而，現有方法並不是將來自短讀取技術和長讀取技術的讀取片段結合在一起。在一項新的研究中，來自新加坡國立大學、新加坡基因組研究院、新加坡陳篤生醫院、南洋理工大學和克羅埃西亞薩格勒布大學的研究人員開發出一種稱為OPERA-MS的混合宏基因組裝配器，它將基於裝配的宏基因組聚類與重複識別的精確支架結合在一起，以準確地組裝複雜的微生物群落。

利用深度變體自動編碼器改進宏基因組的組裝

相關焦點

簡單易懂的自動編碼器

利用宏基因組序列來確定蛋白質結構

多快好省的宏基因組研究技巧

深度學習自動編碼器還能用於數據生成?這篇文章告訴你答案

入門| 獻給新手的深度學習綜述

代碼詳解:一文讀懂自動編碼器的前世今生

中國推出自我改進金字塔立體網絡 改進自動駕駛車輛深度估計功能

DNA/RNA-SIP與宏基因組

前沿|通用句子語義編碼器,谷歌在語義文本相似性上的探索

快速看懂腸道菌群宏基因組測序分析報告

宏基因組的一些坑和解決方案

Nature方法 | 三代長讀長宏基因組組裝軟體metaFlye

三代宏基因組測序探究人類腸道中染色體外的可移動基因元件

宏基因組方法學研究取得進展

nanopore宏基因組分析培訓班（第2期）開始報名了

深度學習時代的圖模型,清華發文綜述圖網絡

人工智慧利用單眼強度圖像進行面部深度圖估計的對抗架構深度學習

宏基因組測序和16S rDNA測序有啥區別?

基於「三+二」宏基因組測序的抗性基因和可移動元件的精確研究

...出混合宏基因組裝配器OPERA-MS,更準確地組裝複雜的微生物群落

中國推出自我改進金字塔立體網絡改進自動駕駛車輛深度估計功能