• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

RENANO:一种基于参考的 Nanopore FASTQ 文件压缩工具。

RENANO: a REference-based compressor for NANOpore FASTQ files.

机构信息

Facultad de Ingeniería, Universidad de la República, Montevideo, 11300, Uruguay.

Facultad de Ciencias, Universidad de la República, Montevideo, 11400, Uruguay.

出版信息

Bioinformatics. 2021 Dec 11;37(24):4862-4864. doi: 10.1093/bioinformatics/btab437.

DOI:10.1093/bioinformatics/btab437
PMID:34128963
Abstract

MOTIVATION

Nanopore sequencing technologies are rapidly gaining popularity, in part, due to the massive amounts of genomic data they produce in short periods of time (up to 8.5 TB of data in <72 h). To reduce the costs of transmission and storage, efficient compression methods for this type of data are needed.

RESULTS

We introduce RENANO, a reference-based lossless data compressor specifically tailored to FASTQ files generated with nanopore sequencing technologies. RENANO improves on its predecessor ENANO, currently the state of the art, by providing a more efficient base call sequence compression component. Two compression algorithms are introduced, corresponding to the following scenarios: (1) a reference genome is available without cost to both the compressor and the decompressor and (2) the reference genome is available only on the compressor side, and a compacted version of the reference is included in the compressed file. We compare the compression performance of RENANO against ENANO on several publicly available nanopore datasets. RENANO improves the base call sequences compression of ENANO by 39.8% in scenario (1), and by 33.5% in scenario (2), on average, over all the datasets. As for total file compression, the average improvements are 12.7% and 10.6%, respectively. We also show that RENANO consistently outperforms the recent general-purpose genomic compressor Genozip.

AVAILABILITY AND IMPLEMENTATION

RENANO is freely available for download at: https://github.com/guilledufort/RENANO.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

纳米孔测序技术之所以迅速普及,部分原因是它们能够在短时间内(在<72 小时内产生多达 8.5 TB 的数据)生成大量的基因组数据。为了降低传输和存储成本,需要针对这种类型的数据开发高效的压缩方法。

结果

我们引入了 RENANO,这是一种基于参考的无损数据压缩器,专门针对纳米孔测序技术生成的 FASTQ 文件进行了优化。RENO 改进了其前身 ENANO,目前是该领域的最新技术,通过提供更高效的碱基调用序列压缩组件。引入了两种压缩算法,对应以下两种情况:(1) 压缩器和解压缩器都可以免费获得参考基因组,(2) 参考基因组仅在压缩器一侧可用,并且在压缩文件中包含参考基因组的压缩版本。我们在几个公开可用的纳米孔数据集上比较了 RENANO 和 ENANO 的压缩性能。RENOANO 在场景 (1) 中平均将 ENANO 的碱基调用序列压缩提高了 39.8%,在场景 (2) 中平均提高了 33.5%,在所有数据集上。至于总文件压缩,平均改进分别为 12.7%和 10.6%。我们还表明,RENOANO 始终优于最近的通用基因组压缩器 Genozip。

可用性和实现

RENOANO 可在以下网址免费下载:https://github.com/guilledufort/RENANO。

补充信息

补充数据可在 Bioinformatics 在线获取。

相似文献

1
RENANO: a REference-based compressor for NANOpore FASTQ files.RENANO:一种基于参考的 Nanopore FASTQ 文件压缩工具。
Bioinformatics. 2021 Dec 11;37(24):4862-4864. doi: 10.1093/bioinformatics/btab437.
2
ENANO: Encoder for NANOpore FASTQ files.ENANO:用于 Nanopore FASTQ 文件的编码器。
Bioinformatics. 2020 Aug 15;36(16):4506-4507. doi: 10.1093/bioinformatics/btaa551.
3
SPRING: a next-generation compressor for FASTQ data.SPRING:FASTQ 数据的下一代压缩程序。
Bioinformatics. 2019 Aug 1;35(15):2674-2676. doi: 10.1093/bioinformatics/bty1015.
4
Nucleotide Archival Format (NAF) enables efficient lossless reference-free compression of DNA sequences.核苷酸档案格式 (NAF) 可实现 DNA 序列的高效无损、无参考自由压缩。
Bioinformatics. 2019 Oct 1;35(19):3826-3828. doi: 10.1093/bioinformatics/btz144.
5
Reference-free lossless compression of nanopore sequencing reads using an approximate assembly approach.使用近似组装方法对纳米孔测序读取进行无参考无损压缩。
Sci Rep. 2023 Feb 6;13(1):2082. doi: 10.1038/s41598-023-29267-8.
6
LFQC: a lossless compression algorithm for FASTQ files.LFQC:一种用于FASTQ文件的无损压缩算法。
Bioinformatics. 2015 Oct 15;31(20):3276-81. doi: 10.1093/bioinformatics/btv384. Epub 2015 Jun 20.
7
CIndex: compressed indexes for fast retrieval of FASTQ files.CIndex:用于快速检索FASTQ文件的压缩索引。
Bioinformatics. 2022 Jan 3;38(2):335-343. doi: 10.1093/bioinformatics/btab655.
8
GTZ: a fast compression and cloud transmission tool optimized for FASTQ files.GTZ:一款针对 FASTQ 文件优化的快速压缩和云传输工具。
BMC Bioinformatics. 2017 Dec 28;18(Suppl 16):549. doi: 10.1186/s12859-017-1973-5.
9
FastqCLS: a FASTQ compressor for long-read sequencing via read reordering using a novel scoring model.FastqCLS:一种通过使用新型评分模型进行读段重排来压缩长读长测序FASTQ文件的工具。
Bioinformatics. 2022 Jan 3;38(2):351-356. doi: 10.1093/bioinformatics/btab696.
10
CMIC: an efficient quality score compressor with random access functionality.CMIC:一种具有随机访问功能的高效质量得分压缩器。
BMC Bioinformatics. 2022 Jul 23;23(1):294. doi: 10.1186/s12859-022-04837-1.

引用本文的文献

1
OReO: optimizing read order for practical compression.OReO:优化实际压缩的读取顺序
Bioinform Adv. 2025 Jun 3;5(1):vbaf128. doi: 10.1093/bioadv/vbaf128. eCollection 2025.
2
PQSDC: a parallel lossless compressor for quality scores data via sequences partition and run-length prediction mapping.PQSDC:一种通过序列划分和游程长度预测映射对质量分数数据进行并行无损压缩的方法。
Bioinformatics. 2024 May 2;40(5). doi: 10.1093/bioinformatics/btae323.
3
PMFFRC: a large-scale genomic short reads compression optimizer via memory modeling and redundant clustering.
PMFFRC:一种基于内存建模和冗余聚类的大规模基因组短读段压缩优化器。
BMC Bioinformatics. 2023 Nov 30;24(1):454. doi: 10.1186/s12859-023-05566-9.
4
A Pipeline for Constructing Reference Genomes for Large Cohort-Specific Metagenome Compression.一种用于构建大型队列特异性宏基因组压缩参考基因组的流程。
Microorganisms. 2023 Oct 14;11(10):2560. doi: 10.3390/microorganisms11102560.
5
Portable nanopore-sequencing technology: Trends in development and applications.便携式纳米孔测序技术:发展趋势与应用
Front Microbiol. 2023 Feb 1;14:1043967. doi: 10.3389/fmicb.2023.1043967. eCollection 2023.
6
Reference-free lossless compression of nanopore sequencing reads using an approximate assembly approach.使用近似组装方法对纳米孔测序读取进行无参考无损压缩。
Sci Rep. 2023 Feb 6;13(1):2082. doi: 10.1038/s41598-023-29267-8.
7
Nanopore quality score resolution can be reduced with little effect on downstream analysis.纳米孔质量得分分辨率可以降低,而对下游分析的影响很小。
Bioinform Adv. 2022 Aug 11;2(1):vbac054. doi: 10.1093/bioadv/vbac054. eCollection 2022.