• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

FASTQ 格式下 DNA 序列读取的压缩。

Compression of DNA sequence reads in FASTQ format.

机构信息

Institute of Informatics, Silesian University of Technology, Akademicka 16, 44-100 Gliwice, Poland.

出版信息

Bioinformatics. 2011 Mar 15;27(6):860-2. doi: 10.1093/bioinformatics/btr014. Epub 2011 Jan 19.

DOI:10.1093/bioinformatics/btr014
PMID:21252073
Abstract

MOTIVATION

Modern sequencing instruments are able to generate at least hundreds of millions short reads of genomic data. Those huge volumes of data require effective means to store them, provide quick access to any record and enable fast decompression.

RESULTS

We present a specialized compression algorithm for genomic data in FASTQ format which dominates its competitor, G-SQZ, as is shown on a number of datasets from the 1000 Genomes Project (www.1000genomes.org).

AVAILABILITY

DSRC is freely available at http:/sun.aei.polsl.pl/dsrc.

摘要

动机

现代测序仪器能够生成至少数亿条基因组数据的短读段。这些海量数据需要有效的存储手段,以便快速访问任何记录并实现快速解压。

结果

我们提出了一种针对 FASTQ 格式基因组数据的专用压缩算法,在来自 1000 基因组计划(www.1000genomes.org)的多个数据集上的表现均优于其竞争对手 G-SQZ。

可用性

DSRC 可在 http://sun.aei.polsl.pl/dsrc 上免费获取。

相似文献

1
Compression of DNA sequence reads in FASTQ format.FASTQ 格式下 DNA 序列读取的压缩。
Bioinformatics. 2011 Mar 15;27(6):860-2. doi: 10.1093/bioinformatics/btr014. Epub 2011 Jan 19.
2
DSRC 2--Industry-oriented compression of FASTQ files.DSRC 2--面向 FASTQ 文件的行业导向压缩。
Bioinformatics. 2014 Aug 1;30(15):2213-5. doi: 10.1093/bioinformatics/btu208. Epub 2014 Apr 18.
3
Disk-based compression of data from genome sequencing.基于磁盘的数据压缩技术在基因组测序中的应用。
Bioinformatics. 2015 May 1;31(9):1389-95. doi: 10.1093/bioinformatics/btu844. Epub 2014 Dec 22.
4
Compression of FASTQ and SAM format sequencing data.FASTQ 和 SAM 格式测序数据的压缩。
PLoS One. 2013;8(3):e59190. doi: 10.1371/journal.pone.0059190. Epub 2013 Mar 22.
5
DELIMINATE--a fast and efficient method for loss-less compression of genomic sequences: sequence analysis.DELIMINATE——一种快速高效的基因组序列无损压缩方法:序列分析。
Bioinformatics. 2012 Oct 1;28(19):2527-9. doi: 10.1093/bioinformatics/bts467. Epub 2012 Jul 25.
6
GDC 2: Compression of large collections of genomes.基因组数据压缩2:大型基因组集合的压缩
Sci Rep. 2015 Jun 25;5:11565. doi: 10.1038/srep11565.
7
Genome compression: a novel approach for large collections.基因组压缩:一种用于大型数据集的新方法。
Bioinformatics. 2013 Oct 15;29(20):2572-8. doi: 10.1093/bioinformatics/btt460. Epub 2013 Aug 21.
8
Robust relative compression of genomes with random access.具有随机访问的基因组的稳健相对压缩。
Bioinformatics. 2011 Nov 1;27(21):2979-86. doi: 10.1093/bioinformatics/btr505. Epub 2011 Sep 5.
9
G-SQZ: compact encoding of genomic sequence and quality data.G-SQZ:基因组序列和质量数据的紧凑编码。
Bioinformatics. 2010 Sep 1;26(17):2192-4. doi: 10.1093/bioinformatics/btq346. Epub 2010 Jul 6.
10
SCALCE: boosting sequence compression algorithms using locally consistent encoding.SCALCE:使用局部一致编码提升序列压缩算法。
Bioinformatics. 2012 Dec 1;28(23):3051-7. doi: 10.1093/bioinformatics/bts593. Epub 2012 Oct 9.

引用本文的文献

1
OReO: optimizing read order for practical compression.OReO:优化实际压缩的读取顺序
Bioinform Adv. 2025 Jun 3;5(1):vbaf128. doi: 10.1093/bioadv/vbaf128. eCollection 2025.
2
Lossless and reference-free compression of FASTQ/A files using GeneSqueeze.使用GeneSqueeze对FASTQ/A文件进行无损且无参考的压缩。
Sci Rep. 2025 Jan 2;15(1):322. doi: 10.1038/s41598-024-79258-6.
3
Efficient sequencing data compression and FPGA acceleration based on a two-step framework.基于两步框架的高效测序数据压缩与现场可编程门阵列加速
Front Genet. 2023 Sep 21;14:1260531. doi: 10.3389/fgene.2023.1260531. eCollection 2023.
4
Efficient compression of SARS-CoV-2 genome data using Nucleotide Archival Format.使用核苷酸存档格式对严重急性呼吸综合征冠状病毒2(SARS-CoV-2)基因组数据进行高效压缩。
Patterns (N Y). 2022 Sep 9;3(9):100562. doi: 10.1016/j.patter.2022.100562. Epub 2022 Jul 7.
5
Comparison of Compression-Based Measures with Application to the Evolution of Primate Genomes.基于压缩的度量方法在灵长类基因组进化中的应用比较
Entropy (Basel). 2018 May 23;20(6):393. doi: 10.3390/e20060393.
6
LFastqC: A lossless non-reference-based FASTQ compressor.LFastqC:一种无损的非参考型 FASTQ 压缩器。
PLoS One. 2019 Nov 14;14(11):e0224806. doi: 10.1371/journal.pone.0224806. eCollection 2019.
7
GTZ: a fast compression and cloud transmission tool optimized for FASTQ files.GTZ:一款针对 FASTQ 文件优化的快速压缩和云传输工具。
BMC Bioinformatics. 2017 Dec 28;18(Suppl 16):549. doi: 10.1186/s12859-017-1973-5.
8
CALQ: compression of quality values of aligned sequencing data.CALQ:对齐测序数据的质量值压缩。
Bioinformatics. 2018 May 15;34(10):1650-1658. doi: 10.1093/bioinformatics/btx737.
9
Traversing the -mer Landscape of NGS Read Datasets for Quality Score Sparsification.遍历用于质量得分稀疏化的NGS读取数据集的-mer格局
Res Comput Mol Biol. 2014 Apr;8394:385-399. doi: 10.1007/978-3-319-05269-4_31.
10
LW-FQZip 2: a parallelized reference-based compression of FASTQ files.LW-FQZip 2:FASTQ文件的并行化基于参考的压缩
BMC Bioinformatics. 2017 Mar 20;18(1):179. doi: 10.1186/s12859-017-1588-x.