今天是第1174期日報。
Nature Biotechnology本周正式發布了微生物組分析平臺QIIME2,我們特別邀請該文章的共同作者、宏基因組公眾號主編、中科院遺傳與發育生物學研究所的劉永鑫博士,客串本期熱心腸日報主編,為微生物組研究領域的專業讀者帶來一期精彩的專題,回顧近10年菌群分析領域的軟體和算法,認識這些推動微生物組學規律發現的幕後英雄!
QIIME 2: 全新微生物組分析平臺在Nature Biotechnology正式發表
Nature Biotechnology
[IF:31.864]
發表於2010年的QIIME是基於Python2開發的微生物組領域高引分析流程,但在可重複、大數據方面無法滿足當今需求; 為解決以上問題,由QIIME一作Gregory Caporaso發起的QIIIME2基於Python3編寫了可重複、可擴展的全新微生物分析平臺,79家單位112人參與; 目前平臺支持擴增子、宏基因組和代謝組數據分析,未來將支持宏轉錄組、蛋白組; 平臺分析過程可追溯、圖表可交互、結果查看和分享方便,滿足未來可重複分析和多人合作的要求。
【主編評語】引用1.5萬多次的微生物組分析流程QIIME發布已9年,無法滿足當今大數據和可重複分析的要求。2016年發起的全新項目QIIME 2,基於Python3編寫,集合了10個國家79家單位的112位作者共同參與,於2019年7月24日在生物技術頂級期刊Nature Biotechnology正式發表。該項目發表不是項目結束,而是剛剛開始,將會以每季度的速度進行大版本更新優化和增加新功能,而且也希望更多的國際同行加入,打造微生物組領域最強大的分析平臺和知識庫。該項目在發表前已經非正式引用近千次,現在大家可以優雅的引用它了。2018.11版本十萬字中文教程見此。本月底將發布2019.7版本,配套中文文檔和視頻教程也將在宏基因組公眾號陸續更新。(@劉永鑫)
QIIME:最高引的微生物組分析流程
Nature Methods
[IF:28.467]
2010年微生物組計劃積累了海量數據,但分析工具有限; 一款基於Python的擴增子測序分析流程QIIME(讀音chime)發布,是微生物生態學定量研究的縮寫; 該流程實現從原始數據到發表級圖表的全部分析,包括多樣性、物種組成、差異比較、網絡和核心物種等; 軟體官網(qiime.org)提供16S/18S/ITS擴增子分析的教程和150+腳本滿足不同數據類型的處理需求; 制定了多個行業標準,幾十萬字的幫助文檔是學習和檢索的資料庫,推動了本領域的發展。
QIIME allows analysis of high-throughput community sequencing data
2010-05-01, doi: 10.1038/nmeth.f.303
【主編評語】2010年Rob Knight組發布的微生物組分析流程QIIME,整合了200+常用軟體包,並編寫150+輔助腳本,功能強大到沒有對手,極大地推動微生物組領域的發展。Google統計截止18年7月引用1.58萬次,每次仍將會以4-5千次引用速度遞增,是目前本領域最廣為人知的流程。此軟體依賴關係眾多安裝困難的痛點,被近年發展的Conda安裝技術完美解決,極大地促進了本軟體的推廣和使用。此軟體簡明中文教程,見宏基因組公眾號《擴增子分析流程-把握分析細節》系列文章。(@劉永鑫)
mothur:引用過萬跨平臺的擴增子分析流程
Applied and Environmental Microbiology
[IF:4.077]
mothur是第一款整合了多種主流算法的獨立擴增子分析流程,可實現從原始數據到OTU表、多樣性、以及差異比較等分析; 整合的主要軟體有比對工具NAST、OTU聚類DOTUR、群落比較SONS、UniFrac進化距離比較等工具,並實現了跨平臺、多線程等眾多優點; 軟體包的最大優點是跨平臺,允許用戶在筆記本上幾小時內完成分析; 但在上遊處理不同數據類型和文庫拆分,下遊的統計和繪圖仍需其它軟體補充; mothur目前引用累計過萬,且保持穩定增長。
Introducing mothur: open-source, platform-independent, community-supported software for describing and comparing microbial communities
2009-12-01, doi: 10.1128/AEM.01541-09
【主編評語】mothur作為第一款擴增子分析流程,整理了作者之前開發的DOTUR、SONS(媽媽的女兒和兒子)和其它主流工具,簡單易用,使擴增子技術走進普通實驗室,極大的推動的本領域的發展,但有限於其下遊缺少完善的可視化工具,而被後來的QIIME超越。mothur的最大優勢是跨平臺,可以在windows上輕鬆使用,而且軟體擁有海量的社區用戶且作者也定期辦研討會來進行技術分享,截止2019的7月Google學術統計引用超1.1萬次,預計今年引用可達2千次且仍穩定增長。名字已被廣大同行所銘記,成為推動本領域發展的重要一筆。近期GigaScience發表的Galaxy mothur (https://doi.org/10.1093/gigascience/giy166)讓大家實現滑鼠操作即可使用mothur,可能缺少宣傳發表一年多僅有1次引用。(@劉永鑫)
USEARCH: 引用近萬最易上手的擴增子分析流程
Bioinformatics
[IF:4.531]
USEARCH最早是一款序列比對軟體,比BLAST快百倍; 在此基礎上作者開發了一系列擴增子分析算法,如UCHIME去嵌和UCLUST聚類,開始應用於擴增子分析; 後逐漸發展包括序列質控、雙端合併、去冗餘、嵌合體檢測、挑選代表性序列和序列去噪等眾多功能,成為較完整的擴增子分析流程; 軟體安裝簡便、跨平臺且易用性強,可實現200餘種功能,引用近萬次; 32位版本免費,64位商業版1485刀和學術版885刀,物有所值,已經成為生信同行的標配軟體。
Search and clustering orders of magnitude faster than BLAST
2010-10-01, doi: 10.1093/bioinformatics/btq461
【主編評語】USEARCH由大神Robert C. Edgar單槍匹馬開發的一款軟體,整合了序列比對USEARCH、聚類UCLUST、嵌合體檢測UCHIME、挑選代表性序列UPARSE、序列去噪UNOISE等眾多流行算法,開發了200多種功能,可跨平臺且體積小巧,可以完整實現擴增子分析全套流程,甚至包括機器學習、核心OTU鑑定等高級分析功能。截止2018年7月Google統計引用近萬次,最新版11.0。雖然商業版價格不菲,但對於同行實驗室經費允許還是推薦購買,節約學習時間成本,促進商業軟體健康發展。中文系列教程詳見:https://github.com/YongxinLiu/UsearchChineseManual(@劉永鑫)
VSEARCH:價值萬元的64位USEARCH免費用
PeerJ
[IF:2.353]
USEARCH是最易安裝、跨平臺、低學習成本的擴增子分析流程,但64位版售價過萬元; 針對USEARCH非開源和價格高的問題,本文作者開發了功能齊全、體積小巧的擴增子分析流程VSEARCH,開源且免費; 軟體大小僅有6M,可在Windows/Linux/Mac系統中運行,實現從原始數據到OTU表的分析,測試中一些方面比USEARCH更快更準; VSEARCH發布後被同行廣泛使用,三年內引用近千次; VSEARCH有較快的更新頻率,也開發一些新功能方便處理個性問題。
VSEARCH: a versatile open source tool for metagenomics
05-29, doi: 10.7717/peerj.2584
DADA2: 去噪法鑑定擴增子測序中單鹼基精度的代表序列(ASV)
Nature Methods
[IF:28.467]
DADA2是一個R包,可以實現Illumina擴增子測序數據的錯誤校正,獲得單鹼基精度的代表序列; 與經典OTU挑選算法UPARSE相比結果大部分一致,同時發現更多真實序列; 以陰道數據為例,DADA2可觀察到6種捲曲乳酸桿菌序列變體在不同樣品間存在差異; 基於高中低複雜度數據測試,DADA2與UPARSE、MED、Mothur和QIIME相比,可檢測到最全的參考菌株序列,以及最少的假陽性結果; DADA2現己發展成為R語言的完整分析流程,也可在QIIME2平臺中使用。
DADA2: High-resolution sample inference from Illumina amplicon data
2016-07-01, doi: 10.1038/nmeth.3869
UPARSE:OTU代表序列挑選最高引的算法
Nature Methods
[IF:28.467]
擴增子測序結果中存在大量測序錯誤、嵌合體等假陽性序列,導致過高估計物種數量; 其它OTU挑選方法均包含大於3%以上的錯誤鹼基,而UPARSE挑選OTUs的鹼基錯誤率小於1%; 以人工模擬群落數據測試,UPARSE結果最接近真實群落的物種數量; 基於人類微生物組數據集測試,UPARSE結果擁有最低的嵌合體比例; UPARSE算法可在USEARCH軟體中通過clust_otu子命令實現一條命令完成聚類、去嵌合和挑選代表性序列的過程,被眾多分析流程調用。
UPARSE: highly accurate OTU sequences from microbial amplicon reads
2013-10-01, doi: 10.1038/nmeth.2604
UCHIME:快而準的嵌合體檢測方法
Bioinformatics
[IF:4.531]
在PCR擴增過程中會產生嵌合體,在擴增16S/ITS研究中尤為嚴重,導致高假陽性率和過高估計物種數量; UCHIME是一款嵌合體檢測程序,可以從頭或基於參考資料庫鑑定嵌合體; 它比基於參考序列的ChimeraSlayer方法在短或噪音序列中表現更敏感,基於模擬群落數據從頭鑑定比Perseus方法更敏感,且速度比這兩種方法分別快1000倍和100倍; UCHIME可以作為獨立的軟體使用,也可以在USEARCH中實現,同時被眾多擴增分析流程調用的必備分析步驟。
UCHIME improves sensitivity and speed of chimera detection
2011-08-15, doi: 10.1093/bioinformatics/btr381
【主編評語】Robert C. Edgar一作兼通訊的文章,也有行業第一高引大佬Rob Knight參與。2011提出了擴增子分析中嵌合體檢測的新方法,一直延用至今,經久不衰。截止2019年7月Google學術統計引用高達6500多次。此步驟是擴增子分析中的必備環節,是眾多擴增子分析流程調用的默認方法。關於嵌合體的介紹,參閱:http://www.drive5.com/usearch/manual/chimeras.html(@劉永鑫)
感謝本期日報的創作者:劉永鑫