微生物組領域近十年最重要的8個軟體或算法

2020-11-22 騰訊網

今天是第1174期日報。

Nature Biotechnology本周正式發布了微生物組分析平臺QIIME2,我們特別邀請該文章的共同作者、宏基因組公眾號主編、中科院遺傳與發育生物學研究所的劉永鑫博士,客串本期熱心腸日報主編,為微生物組研究領域的專業讀者帶來一期精彩的專題,回顧近10年菌群分析領域的軟體和算法,認識這些推動微生物組學規律發現的幕後英雄!

QIIME 2: 全新微生物組分析平臺在Nature Biotechnology正式發表

Nature Biotechnology

[IF:31.864]

發表於2010年的QIIME是基於Python2開發的微生物組領域高引分析流程,但在可重複、大數據方面無法滿足當今需求; 為解決以上問題,由QIIME一作Gregory Caporaso發起的QIIIME2基於Python3編寫了可重複、可擴展的全新微生物分析平臺,79家單位112人參與; 目前平臺支持擴增子、宏基因組和代謝組數據分析,未來將支持宏轉錄組、蛋白組; 平臺分析過程可追溯、圖表可交互、結果查看和分享方便,滿足未來可重複分析和多人合作的要求。

【主編評語】引用1.5萬多次的微生物組分析流程QIIME發布已9年,無法滿足當今大數據和可重複分析的要求。2016年發起的全新項目QIIME 2,基於Python3編寫,集合了10個國家79家單位的112位作者共同參與,於2019年7月24日在生物技術頂級期刊Nature Biotechnology正式發表。該項目發表不是項目結束,而是剛剛開始,將會以每季度的速度進行大版本更新優化和增加新功能,而且也希望更多的國際同行加入,打造微生物組領域最強大的分析平臺和知識庫。該項目在發表前已經非正式引用近千次,現在大家可以優雅的引用它了。2018.11版本十萬字中文教程見此。本月底將發布2019.7版本,配套中文文檔和視頻教程也將在宏基因組公眾號陸續更新。(@劉永鑫)

QIIME:最高引的微生物組分析流程

Nature Methods

[IF:28.467]

2010年微生物組計劃積累了海量數據,但分析工具有限; 一款基於Python的擴增子測序分析流程QIIME(讀音chime)發布,是微生物生態學定量研究的縮寫; 該流程實現從原始數據到發表級圖表的全部分析,包括多樣性、物種組成、差異比較、網絡和核心物種等; 軟體官網(qiime.org)提供16S/18S/ITS擴增子分析的教程和150+腳本滿足不同數據類型的處理需求; 制定了多個行業標準,幾十萬字的幫助文檔是學習和檢索的資料庫,推動了本領域的發展。

QIIME allows analysis of high-throughput community sequencing data

2010-05-01, doi: 10.1038/nmeth.f.303

【主編評語】2010年Rob Knight組發布的微生物組分析流程QIIME,整合了200+常用軟體包,並編寫150+輔助腳本,功能強大到沒有對手,極大地推動微生物組領域的發展。Google統計截止18年7月引用1.58萬次,每次仍將會以4-5千次引用速度遞增,是目前本領域最廣為人知的流程。此軟體依賴關係眾多安裝困難的痛點,被近年發展的Conda安裝技術完美解決,極大地促進了本軟體的推廣和使用。此軟體簡明中文教程,見宏基因組公眾號《擴增子分析流程-把握分析細節》系列文章。(@劉永鑫)

mothur:引用過萬跨平臺的擴增子分析流程

Applied and Environmental Microbiology

[IF:4.077]

mothur是第一款整合了多種主流算法的獨立擴增子分析流程,可實現從原始數據到OTU表、多樣性、以及差異比較等分析; 整合的主要軟體有比對工具NAST、OTU聚類DOTUR、群落比較SONS、UniFrac進化距離比較等工具,並實現了跨平臺、多線程等眾多優點; 軟體包的最大優點是跨平臺,允許用戶在筆記本上幾小時內完成分析; 但在上遊處理不同數據類型和文庫拆分,下遊的統計和繪圖仍需其它軟體補充; mothur目前引用累計過萬,且保持穩定增長。

Introducing mothur: open-source, platform-independent, community-supported software for describing and comparing microbial communities

2009-12-01, doi: 10.1128/AEM.01541-09

【主編評語】mothur作為第一款擴增子分析流程,整理了作者之前開發的DOTUR、SONS(媽媽的女兒和兒子)和其它主流工具,簡單易用,使擴增子技術走進普通實驗室,極大的推動的本領域的發展,但有限於其下遊缺少完善的可視化工具,而被後來的QIIME超越。mothur的最大優勢是跨平臺,可以在windows上輕鬆使用,而且軟體擁有海量的社區用戶且作者也定期辦研討會來進行技術分享,截止2019的7月Google學術統計引用超1.1萬次,預計今年引用可達2千次且仍穩定增長。名字已被廣大同行所銘記,成為推動本領域發展的重要一筆。近期GigaScience發表的Galaxy mothur (https://doi.org/10.1093/gigascience/giy166)讓大家實現滑鼠操作即可使用mothur,可能缺少宣傳發表一年多僅有1次引用。(@劉永鑫)

USEARCH: 引用近萬最易上手的擴增子分析流程

Bioinformatics

[IF:4.531]

USEARCH最早是一款序列比對軟體,比BLAST快百倍; 在此基礎上作者開發了一系列擴增子分析算法,如UCHIME去嵌和UCLUST聚類,開始應用於擴增子分析; 後逐漸發展包括序列質控、雙端合併、去冗餘、嵌合體檢測、挑選代表性序列和序列去噪等眾多功能,成為較完整的擴增子分析流程; 軟體安裝簡便、跨平臺且易用性強,可實現200餘種功能,引用近萬次; 32位版本免費,64位商業版1485刀和學術版885刀,物有所值,已經成為生信同行的標配軟體。

Search and clustering orders of magnitude faster than BLAST

2010-10-01, doi: 10.1093/bioinformatics/btq461

【主編評語】USEARCH由大神Robert C. Edgar單槍匹馬開發的一款軟體,整合了序列比對USEARCH、聚類UCLUST、嵌合體檢測UCHIME、挑選代表性序列UPARSE、序列去噪UNOISE等眾多流行算法,開發了200多種功能,可跨平臺且體積小巧,可以完整實現擴增子分析全套流程,甚至包括機器學習、核心OTU鑑定等高級分析功能。截止2018年7月Google統計引用近萬次,最新版11.0。雖然商業版價格不菲,但對於同行實驗室經費允許還是推薦購買,節約學習時間成本,促進商業軟體健康發展。中文系列教程詳見:https://github.com/YongxinLiu/UsearchChineseManual(@劉永鑫)

VSEARCH:價值萬元的64位USEARCH免費用

PeerJ

[IF:2.353]

USEARCH是最易安裝、跨平臺、低學習成本的擴增子分析流程,但64位版售價過萬元; 針對USEARCH非開源和價格高的問題,本文作者開發了功能齊全、體積小巧的擴增子分析流程VSEARCH,開源且免費; 軟體大小僅有6M,可在Windows/Linux/Mac系統中運行,實現從原始數據到OTU表的分析,測試中一些方面比USEARCH更快更準; VSEARCH發布後被同行廣泛使用,三年內引用近千次; VSEARCH有較快的更新頻率,也開發一些新功能方便處理個性問題。

VSEARCH: a versatile open source tool for metagenomics

05-29, doi: 10.7717/peerj.2584

DADA2: 去噪法鑑定擴增子測序中單鹼基精度的代表序列(ASV)

Nature Methods

[IF:28.467]

DADA2是一個R包,可以實現Illumina擴增子測序數據的錯誤校正,獲得單鹼基精度的代表序列; 與經典OTU挑選算法UPARSE相比結果大部分一致,同時發現更多真實序列; 以陰道數據為例,DADA2可觀察到6種捲曲乳酸桿菌序列變體在不同樣品間存在差異; 基於高中低複雜度數據測試,DADA2與UPARSE、MED、Mothur和QIIME相比,可檢測到最全的參考菌株序列,以及最少的假陽性結果; DADA2現己發展成為R語言的完整分析流程,也可在QIIME2平臺中使用。

DADA2: High-resolution sample inference from Illumina amplicon data

2016-07-01, doi: 10.1038/nmeth.3869

UPARSE:OTU代表序列挑選最高引的算法

Nature Methods

[IF:28.467]

擴增子測序結果中存在大量測序錯誤、嵌合體等假陽性序列,導致過高估計物種數量; 其它OTU挑選方法均包含大於3%以上的錯誤鹼基,而UPARSE挑選OTUs的鹼基錯誤率小於1%; 以人工模擬群落數據測試,UPARSE結果最接近真實群落的物種數量; 基於人類微生物組數據集測試,UPARSE結果擁有最低的嵌合體比例; UPARSE算法可在USEARCH軟體中通過clust_otu子命令實現一條命令完成聚類、去嵌合和挑選代表性序列的過程,被眾多分析流程調用。

UPARSE: highly accurate OTU sequences from microbial amplicon reads

2013-10-01, doi: 10.1038/nmeth.2604

UCHIME:快而準的嵌合體檢測方法

Bioinformatics

[IF:4.531]

在PCR擴增過程中會產生嵌合體,在擴增16S/ITS研究中尤為嚴重,導致高假陽性率和過高估計物種數量; UCHIME是一款嵌合體檢測程序,可以從頭或基於參考資料庫鑑定嵌合體; 它比基於參考序列的ChimeraSlayer方法在短或噪音序列中表現更敏感,基於模擬群落數據從頭鑑定比Perseus方法更敏感,且速度比這兩種方法分別快1000倍和100倍; UCHIME可以作為獨立的軟體使用,也可以在USEARCH中實現,同時被眾多擴增分析流程調用的必備分析步驟。

UCHIME improves sensitivity and speed of chimera detection

2011-08-15, doi: 10.1093/bioinformatics/btr381

【主編評語】Robert C. Edgar一作兼通訊的文章,也有行業第一高引大佬Rob Knight參與。2011提出了擴增子分析中嵌合體檢測的新方法,一直延用至今,經久不衰。截止2019年7月Google學術統計引用高達6500多次。此步驟是擴增子分析中的必備環節,是眾多擴增子分析流程調用的默認方法。關於嵌合體的介紹,參閱:http://www.drive5.com/usearch/manual/chimeras.html(@劉永鑫)

感謝本期日報的創作者:劉永鑫

相關焦點

  • 宏基因組 微生物組 微生物生態領域雜誌簡介及最新影響因子
    期刊網址:https://www.nature.com/點評:公認最頂級的綜合期刊,影響因子多年穩定在40左右,一直位於CNS之首,近年來微生物組文章多次成為封面,也是同行神往的雜誌。但一年僅800多篇的位置,來自全球所有領域的競爭,發表一篇還是相當困難的。其拒稿率有多高,相信感受過其投稿被拒的同行們應該深有體會。
  • 微生物組研究中的前沿新技術
    Nature子刊:專訪微生物組研究最新技術Nature Methods[IF:28.467]① 技術是推動本領域發展的基石,本文專訪了本領域正在研發中的多項新技術,助力大家把握好研究方向;② EcoFAB無菌體系實現可控人工微生物組研究對植物的影響
  • 前沿最熱點:人工智慧+微生物組,真能預測死亡和癌症?
    然而,最近越來越多的研究者開始嘗試將 AI 應用於另一個熱門領域——微生物組研究。 由於微生物組數據的龐大性和複雜性,研究人員在解析微生物組數據的時候面臨著巨大的挑戰。而 AI 為研究人員提供了一種分析微生物組數據的新工具,藉助 AI 或能幫助我們獲得更多微生物組與宿主健康之間的聯繫。
  • 宏基因組/微生物組雜誌簡介及2020最新影響因子
    此刊發表有大量本領域的方法、軟體、測評的文章,上圖中的三期封面分別為:18年11月宏基因組建庫組裝方法、19年2月超高速細菌基因組檢索、和19年6月水稻根系微生物組,本平臺均進行了專題報導。此外,我們還報導多篇此雜誌文章如下:自然方法 Nature Methods
  • Gut:人體腸道微生物組——希望,威脅和承諾
    近期大量的論文和評論涵蓋了微生物組的不同方面及其在人類健康中的潛在作用,包括在童年時,還有特定疾病,如心臟代謝紊亂、炎症性腸病、神經精神疾病和癌症中的作用。 在目前的觀點評論中,將討論特定細菌的影響和先天免疫系統參與的近期證據。然而,最重要的是,我們討論了該領域當前知識的一部分,並提出以下問題:我們應該如何解釋眾多的希望、承諾和威脅?
  • 宏基因組 微生物組 微生態雜誌簡介及2019最新影響因子
    期刊網址:https://www.nature.com/點評:公認最頂級的綜合期刊,影響因子多年穩定在40左右,近三年連續上漲,一直位於CNS之首。近年來微生物組文章多次成為封面,也是同行神往的雜誌。但一年僅900多篇的版面,來自全球所有領域的一流高手競爭,發表一篇還是比考上清華難10倍以上的。其首輪拒稿率就有85%以上,相信感受過其投稿被拒的同行們應該深有體會。
  • 科研人員研發出第二代微生物組搜尋引擎MSE 2
    因此,微生物組「大數據」的深度挖掘,是利用菌群實現精準診斷、精準護理與精準營養的重要工具,也是認識生物資源、監控環境健康、維護國家生物安全的新手段。近日,中國科學院青島生物能源與過程研究所單細胞研究中心發布了第二代微生物組搜尋引擎MSE 2(http://mse.ac.cn),以支撐更全面、更深入、更便捷的菌群大數據挖掘。1月20日,相關研究成果發表在mSystems(《美國微生物學會會刊》)上。
  • 微生物組創新創業者協會發起中國腸道宏基因組計劃
    隨著基因組學相關技術的巨大發展,微生物組研究已成為國際生命科學研究中的熱點,在世界範圍內,眾多國家均開展了國家級微生物組領域發展的相關計劃,包括歐盟「人類腸道宏基因組計劃」(MetaHIT)、美國「人體微生物組計劃」(HMP)等,這些計劃都側重微生物資源調查以及微生物組在健康領域的應用。
  • 微生物組被Nature選為2020年最值得關注的技術之一
    微生物組學被Nature選為2020年最值得關注的科技之一2020年1月21日,Nature期刊展望了2020年最值得關注的幾項生物科技,讓我們一起來看一下吧!解碼微生物組 Decoding the microbiomeElhanan Borenstein(以色列特拉維夫大學,計算系統生物學家):在過去十年中,對微生物群落遺傳物質進行測序的方法已經可以很好探查了微生物組的組成。最近,科學家試圖通過整合有關基因、轉錄本、蛋白質和代謝產物的信息來了解微生物組的功能。
  • 9文聚焦:宏基因組學與微生物組分析方法和工具
    選擇合適的統計方法對於準確解釋微生物組數據很重要。最後,「生物信息學分析」部分介紹了用於分析微生物組數據分析的方法。對於微生物組研究而言,嚴謹的研究設計在獲得有意義的結果方面具有舉足輕重的作用,而適當的統計方法對於準確解釋微生物組數據非常重要。循序漸進的分析流程為研究者掌握最新生物信息學分析方法提供了幫助。通過閱讀這篇文章,研究者能獲得研究設計、樣本採集和生物信息分析等全方位的微生物組學知識。
  • 你想要的宏基因組-微生物組知識全在這(2020.9)
    宏基因組/微生物組是當今世界科研最熱門的研究領域之一,為加強宏基因組學技術和成果交流傳播,推動全球華人微生物組領域發展,中科院青年科研人員創立「宏基因組」公眾號,聯合海內外同行共同打造本領域純乾貨技術及思想交流平臺。
  • 解析土壤微生物組的複雜性
    儘管土壤中尚存挑戰,一克土可以包含上千個微生物類群,包括病毒和所有三域生命體中的成員。近幾年標記基因、基因組以及宏基因組分析的迅速發展,極大地拓展了我們解析土壤微生物組特徵的能力、明確不同時空尺度驅動土壤微生物組群落主要因素。儘管大多數土壤微生物組仍是未知的,但我們可以基於它們的生態策略對土壤微生物組進行歸類。
  • 喜訊 | 我院蘇曉泉教授團隊研發第二代微生物組搜尋引擎MSE 2
    同時,依託菌群大數據搜索的疾病檢測新策略,在一些菌群相關疾病的識別準確率上均優於常用的機器學習算法,從而有效降低了「漏診」和「誤診」機率(Su et al., mSystems 2020)。此外,由於涵蓋了全面、多維、海量的微生物組及其生境信息,MSE 2已成為評估微生態健康、評價微生態產品療效的有力工具。
  • 產業大事:美國公司發起超大規模微生物組-腫瘤治療研究
    本周最產業,我們匯總了腸道產業領域的僅是在美國,這一檢測每年的市場規模就高達 3 億美元(約合 19.8 億人民幣)。Bio-Me 公司開發的診斷測試目的是幫助新生兒父母採取預防性措施,使新生兒在成長過程中發生嚴重過敏和哮喘的機率最小化。同時,這項檢測也可以幫助 Siolta 公司篩選和檢測哪類人群會適用其活菌藥物。
  • 健康的人類微生物組
    識別和糾正疾病患者微生物組的重要第一步,就是要了解健康微生物組的特性,及沒有明顯疾病情況下的許多不同的微生物生態。我們知道體內DNA的細微差異引起巨大的表型多樣性,也就是說大家都能區分彼此。
  • 中國土壤微生物組:進展與展望*
    土壤微生物組研究的核心內容是特定土壤中微生物群落的協同演化規律及其環境功能。土壤微生物組的功能與人類生產生活中的基本需求(如糧食生產、環境保護和醫藥衛生等)密切相關。        (1)土壤微生物組是地球上最重要的分解者,具有多重生態與環境功能。
  • 過去十年世界最重要的20個科學發現
    看看過去十年獲得的20個最重要科學發現:1、探測首個引力波,人類理解遠古基因如何塑造現代人類方面取得了巨大進步,2010年,研究人員公布了首個接近完整的古代智人基因組,從而開啟了我們祖先DNA研究的革命性十年。
  • AI微生物組療法新銳再獲巨額融資
    近日,位於麻薩諸塞州的微生物組藥物開發公司 Finch Therapeutics(以下簡稱 「FINCH」)宣布完成 9000 萬美元的 D 輪融資。FINCH 打算用這筆資金推進其進展最快的管線 --CP101 的臨床階段研發,以及 FIN-211 和 FIN-524 管線的研發。
  • 個人電腦搭建微生物組分析平臺(Win/Mac)
    Win10中查看系統信息常用軟體列表軟體安裝以下教程中提及的數十個在微生物組分析中常用的軟體,推薦按照教程中說明自行下載最新版軟體並安裝。R語言是目前生物學、經濟學等領域最流行的統計分析語言。基本可以完成微生物組領域的全部統計、分析和可視化,而且完全開源免費,支持Windows/Mac/Linux三大主流作業系統。
  • 青島能源所微生物組大數據分析工具開發獲進展
    語音播報   元基因組是當前微生物組大數據最主要的存在形式之一由於元基因組數據的複雜性、異質性以及指數級增長的體量,從中深度且快速發掘微生物群落結構和功能上的變化規律,一直是業界的一個重要技術瓶頸。