Suppr超能文献

CDSnake:使用 CD-HIT 工具从配对末端读取中检索带注释的 OTU 的 Snakemake 管道。

CDSnake: Snakemake pipeline for retrieval of annotated OTUs from paired-end reads using CD-HIT utilities.

机构信息

Center for Algorithmic Biotechnology, Institute for Translational Biomedicine, St. Petersburg State University, St. Petersburg, Russia, 199004.

Department of Statistical Modelling, St. Petersburg State University, St. Petersburg, Russia, 198515.

出版信息

BMC Bioinformatics. 2020 Jul 24;21(Suppl 12):303. doi: 10.1186/s12859-020-03591-6.

Abstract

BACKGROUND

Illumina paired-end reads are often used for 16S analysis in metagenomic studies. Since DNA fragment size is usually smaller than the sum of lengths of paired reads, reads can be merged for downstream analysis. In spite of development of several tools for merging of paired-end reads, poor quality at the 3' ends within the overlapping region prevents the accurate combining of significant portion of read pairs. Recently CD-HIT-OTU-Miseq was presented as a new approach for 16S analysis using the paired-end reads, it completely avoids the reads merging process due to separate clustering of paired reads. CD-HIT-OTU-Miseq is a set of tools which are supposed to be successively launched by auxiliary shell scripts. This launch mode is not suitable for processing of big amounts of data generated in modern omics experiments. To solve this issue we created CDSnake - Snakemake pipeline utilizing CD-HIT tools for easier consecutive launch of CD-HIT-OTU-Miseq tools for complete processing of paired end reads in metagenomic studies. Usage of pipeline make 16S analysis easier due to one-command launch and helps to yield reproducible results.

RESULTS

We benchmarked our pipeline against two commonly used pipelines for OTU retrieval, incorporated into popular workflow for microbiome analysis, QIIME2 - DADA2 and deblur. Three mock datasets having highly overlapping paired-end 2 × 250 bp reads were used for benchmarking - Balanced, HMP, and Extreme. CDSnake outputted less OTUs than DADA2 and deblur. However, on Balanced and HMP datasets number of OTUs outputted by CDSnake was closer to real number of strains which were used for mock community generation, than those outputted by DADA2 and deblur. Though generally slower than other pipelines, CDSnake outputted higher total counts, preserving more information from raw data. Inheriting this properties from original CD-HIT-OTU-MiSeq utilities, CDSnake made their usage handier due to simple scalability, easier automated runs and other Snakemake benefits.

CONCLUSIONS

We developed Snakemake pipeline for OTU-MiSeq utilities, which simplified and automated data analysis. Benchmarking showed that this approach is capable to outperform popular tools in certain conditions.

摘要

背景

Illumina 配对末端读数通常用于宏基因组研究中的 16S 分析。由于 DNA 片段大小通常小于配对读取长度的总和,因此可以合并读取以进行下游分析。尽管已经开发了几种用于合并配对末端读取的工具,但在重叠区域内 3' 末端的质量较差会阻止对大部分读对的准确组合。最近,CD-HIT-OTU-Miseq 被提出作为一种新的使用配对末端读取的 16S 分析方法,它完全避免了由于配对读取的单独聚类而导致的读取合并过程。CD-HIT-OTU-Miseq 是一组工具,预计将由辅助 shell 脚本依次启动。这种启动模式不适合处理现代组学实验中生成的大量数据。为了解决这个问题,我们创建了 CDSnake-Snakemake 管道,利用 CD-HIT 工具更轻松地连续启动 CD-HIT-OTU-Miseq 工具,以完成宏基因组研究中配对末端读取的完整处理。使用管道使 16S 分析更容易,因为只需一个命令即可启动,并且有助于产生可重复的结果。

结果

我们使用两种常用于 OTU 检索的常用管道(合并到流行的微生物组分析工作流程中),即 QIIME2-DADA2 和 deblur,对我们的管道进行了基准测试。使用三个高度重叠的配对末端 2×250 bp 读取的模拟数据集进行了基准测试 - 平衡、HMP 和极端。CDSnake 输出的 OTU 少于 DADA2 和 deblur。然而,在平衡和 HMP 数据集上,CDSnake 输出的 OTU 数量比 DADA2 和 deblur 更接近用于模拟群落生成的实际菌株数量。尽管通常比其他管道慢,但 CDSnake 输出的总计数更高,保留了更多来自原始数据的信息。CDSnake 从原始的 CD-HIT-OTU-MiSeq 实用程序继承了这些特性,由于简单的可扩展性、更轻松的自动化运行和其他 Snakemake 优势,使其使用更加方便。

结论

我们开发了用于 OTU-MiSeq 实用程序的 Snakemake 管道,简化和自动化了数据分析。基准测试表明,在某些条件下,这种方法能够胜过流行工具。

相似文献

1
CDSnake:使用 CD-HIT 工具从配对末端读取中检索带注释的 OTU 的 Snakemake 管道。
BMC Bioinformatics. 2020 Jul 24;21(Suppl 12):303. doi: 10.1186/s12859-020-03591-6.
2
对《CDSnake:使用CD-HIT实用工具从双端读段中检索注释OTU的Snakemake流程》的勘误
BMC Bioinformatics. 2020 Aug 19;21(1):362. doi: 10.1186/s12859-020-03709-w.
3
从读取到可操作分类单元:用于MiSeq扩增子测序数据的集成处理流程
Gigascience. 2017 Feb 1;6(2):1-10. doi: 10.1093/gigascience/giw017.
5
拼接成对的末端读取可提高微生物群落分析中扩增子分类的分类学分类。
BMC Bioinformatics. 2021 Oct 12;22(1):493. doi: 10.1186/s12859-021-04410-2.
7
将 Illumina 配对末端读取用于分类系统发育标记序列。
BMC Bioinformatics. 2020 Mar 14;21(1):105. doi: 10.1186/s12859-020-3445-6.
8
用于肠道微生物组组成分析的测序平台和生物信息学管道的比较。
BMC Microbiol. 2017 Sep 13;17(1):194. doi: 10.1186/s12866-017-1101-8.
9
LotuS:一个高效且用户友好的 OTU 处理流程。
Microbiome. 2014 Sep 30;2(1):30. doi: 10.1186/2049-2618-2-30.
10
Piphillin 可根据 DADA2 校正的 16S rDNA 序列预测宏基因组组成和动态。
BMC Genomics. 2020 Jan 17;21(1):56. doi: 10.1186/s12864-019-6427-1.

引用本文的文献

1
妊娠前半期甲状腺功能减退症的宏基因组学和蛋白质组学特征及其与Th1/Th2平衡相关性的探索性研究
Front Immunol. 2025 May 15;16:1500866. doi: 10.3389/fimmu.2025.1500866. eCollection 2025.
2
微生物多样性及其功能对大红袍母树和扦插大红袍根际土壤养分循环的影响
Front Plant Sci. 2025 May 8;16:1574020. doi: 10.3389/fpls.2025.1574020. eCollection 2025.
3
稻瘟病菌70-15参考基因组的带注释的近完整序列组装。
Sci Data. 2025 May 7;12(1):758. doi: 10.1038/s41597-025-05116-3.
4
航天诱变茶树增加根际微生物,提高养分转化能力并促进生长。
Plants (Basel). 2025 Mar 21;14(7):981. doi: 10.3390/plants14070981.
5
家禽胸肌脂质变化及调控机制的多组学分析
Animals (Basel). 2025 Feb 27;15(5):694. doi: 10.3390/ani15050694.
6
采用 16S rRNA 扩增子测序和鸟枪法宏基因组学检测早孕期甲状腺功能减退症妇女的肠道微生物组特征。
Front Cell Infect Microbiol. 2024 Aug 9;14:1369192. doi: 10.3389/fcimb.2024.1369192. eCollection 2024.
7
对《CDSnake:使用CD-HIT实用工具从双端读段中检索注释OTU的Snakemake流程》的勘误
BMC Bioinformatics. 2020 Aug 19;21(1):362. doi: 10.1186/s12859-020-03709-w.

本文引用的文献

1
Deblur能快速解析单核苷酸群落序列模式。
mSystems. 2017 Mar 7;2(2). doi: 10.1128/mSystems.00191-16. eCollection 2017 Mar-Apr.
2
VSEARCH:一款用于宏基因组学的多功能开源工具。
PeerJ. 2016 Oct 18;4:e2584. doi: 10.7717/peerj.2584. eCollection 2016.
3
DADA2:从Illumina扩增子数据进行高分辨率样本推断。
Nat Methods. 2016 Jul;13(7):581-3. doi: 10.1038/nmeth.3869. Epub 2016 May 23.
4
深入了解Illumina MiSeq平台进行扩增子测序时的偏差和测序错误。
Nucleic Acids Res. 2015 Mar 31;43(6):e37. doi: 10.1093/nar/gku1341. Epub 2015 Jan 13.
5
Trimmomatic:一款适用于 Illumina 测序数据的灵活修剪工具。
Bioinformatics. 2014 Aug 1;30(15):2114-20. doi: 10.1093/bioinformatics/btu170. Epub 2014 Apr 1.
6
PEAR:一种快速而准确的 Illumina 双端读取合并器。
Bioinformatics. 2014 Mar 1;30(5):614-20. doi: 10.1093/bioinformatics/btt593. Epub 2013 Oct 18.
7
开发一种双索引测序策略和策管管道,用于分析 MiSeq Illumina 测序平台上的扩增子序列数据。
Appl Environ Microbiol. 2013 Sep;79(17):5112-20. doi: 10.1128/AEM.01043-13. Epub 2013 Jun 21.
8
SILVA 核糖体 RNA 基因数据库项目:改进的数据处理和基于网络的工具。
Nucleic Acids Res. 2013 Jan;41(Database issue):D590-6. doi: 10.1093/nar/gks1219. Epub 2012 Nov 28.
9
Snakemake——一个可扩展的生物信息学工作流引擎。
Bioinformatics. 2012 Oct 1;28(19):2520-2. doi: 10.1093/bioinformatics/bts480. Epub 2012 Aug 20.
10
FLASH:快速调整短读长以提高基因组组装质量。
Bioinformatics. 2011 Nov 1;27(21):2957-63. doi: 10.1093/bioinformatics/btr507. Epub 2011 Sep 7.

文献AI研究员

20分钟写一篇综述,助力文献阅读效率提升50倍。

立即体验

用中文搜PubMed

大模型驱动的PubMed中文搜索引擎

马上搜索

文档翻译

学术文献翻译模型,支持多种主流文档格式。

立即体验