• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

纳米孔质量得分分辨率可以降低,而对下游分析的影响很小。

Nanopore quality score resolution can be reduced with little effect on downstream analysis.

作者信息

Rivara-Espasandín Martín, Balestrazzi Lucía, Dufort Y Álvarez Guillermo, Ochoa Idoia, Seroussi Gadiel, Smircich Pablo, Sotelo-Silveira José, Martín Álvaro

机构信息

Instituto de Computación, Facultad de Ingeniería, Universidad de la República, 11300 Montevideo, Uruguay.

Departamento de Genética, Facultad de Medicina, Universidad de la República, 11800 Montevideo, Uruguay.

出版信息

Bioinform Adv. 2022 Aug 11;2(1):vbac054. doi: 10.1093/bioadv/vbac054. eCollection 2022.

DOI:10.1093/bioadv/vbac054
PMID:36699360
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC9710687/
Abstract

MOTIVATION

The use of high precision for representing quality scores in nanopore sequencing data makes these scores hard to compress and, thus, responsible for most of the information stored in losslessly compressed FASTQ files. This motivates the investigation of the effect of quality score information loss on downstream analysis from nanopore sequencing FASTQ files.

RESULTS

We polished assemblies for a mock microbial community and a human genome, and we called variants on a human genome. We repeated these experiments using various pipelines, under various coverage level scenarios and various quality score quantizers. In all cases, we found that the quantization of quality scores causes little difference (or even sometimes improves) on the results obtained with the original (non-quantized) data. This suggests that the precision that is currently used for nanopore quality scores may be unnecessarily high, and motivates the use of lossy compression algorithms for this kind of data. Moreover, we show that even a non-specialized compressor, such as gzip, yields large storage space savings after the quantization of quality scores.

AVAILABILITY AND SUPPLEMENTARY INFORMATION

Quantizers are freely available for download at: https://github.com/mrivarauy/QS-Quantizer.

摘要

动机

在纳米孔测序数据中使用高精度来表示质量分数使得这些分数难以压缩,因此,无损压缩的FASTQ文件中存储的大部分信息都由这些分数构成。这激发了对纳米孔测序FASTQ文件中质量分数信息丢失对下游分析的影响的研究。

结果

我们对一个模拟微生物群落和一个人类基因组的组装进行了优化,并在一个人类基因组上进行了变异检测。我们在各种覆盖水平场景和各种质量分数量化器下,使用各种流程重复了这些实验。在所有情况下,我们发现质量分数的量化对使用原始(未量化)数据获得的结果几乎没有差异(甚至有时会有所改善)。这表明目前用于纳米孔质量分数的精度可能过高,因此有必要对这类数据使用有损压缩算法。此外,我们表明,即使是像gzip这样的非专用压缩器,在质量分数量化后也能大幅节省存储空间。

可用性和补充信息

量化器可在以下网址免费下载:https://github.com/mrivarauy/QS-Quantizer 。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/79bb/9710687/04995af3610d/vbac054f4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/79bb/9710687/8b20896259b3/vbac054f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/79bb/9710687/b96f8715852a/vbac054f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/79bb/9710687/f6eb18ced54d/vbac054f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/79bb/9710687/04995af3610d/vbac054f4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/79bb/9710687/8b20896259b3/vbac054f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/79bb/9710687/b96f8715852a/vbac054f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/79bb/9710687/f6eb18ced54d/vbac054f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/79bb/9710687/04995af3610d/vbac054f4.jpg

相似文献

1
Nanopore quality score resolution can be reduced with little effect on downstream analysis.纳米孔质量得分分辨率可以降低,而对下游分析的影响很小。
Bioinform Adv. 2022 Aug 11;2(1):vbac054. doi: 10.1093/bioadv/vbac054. eCollection 2022.
2
RENANO: a REference-based compressor for NANOpore FASTQ files.RENANO:一种基于参考的 Nanopore FASTQ 文件压缩工具。
Bioinformatics. 2021 Dec 11;37(24):4862-4864. doi: 10.1093/bioinformatics/btab437.
3
ENANO: Encoder for NANOpore FASTQ files.ENANO:用于 Nanopore FASTQ 文件的编码器。
Bioinformatics. 2020 Aug 15;36(16):4506-4507. doi: 10.1093/bioinformatics/btaa551.
4
CALQ: compression of quality values of aligned sequencing data.CALQ:对齐测序数据的质量值压缩。
Bioinformatics. 2018 May 15;34(10):1650-1658. doi: 10.1093/bioinformatics/btx737.
5
QualComp: a new lossy compressor for quality scores based on rate distortion theory.QualComp:一种基于率失真理论的新的基于质量分数的有损压缩器。
BMC Bioinformatics. 2013 Jun 8;14:187. doi: 10.1186/1471-2105-14-187.
6
Impact of lossy compression of nanopore raw signal data on basecalling and consensus accuracy.纳米孔原始信号数据的有损压缩对碱基识别和一致性准确性的影响。
Bioinformatics. 2021 Apr 1;36(22-23):5313-5321. doi: 10.1093/bioinformatics/btaa1017.
7
SCALCE: boosting sequence compression algorithms using locally consistent encoding.SCALCE:使用局部一致编码提升序列压缩算法。
Bioinformatics. 2012 Dec 1;28(23):3051-7. doi: 10.1093/bioinformatics/bts593. Epub 2012 Oct 9.
8
FCLQC: fast and concurrent lossless quality scores compressor.FCLQC:快速并发无损质量评分压缩器。
BMC Bioinformatics. 2021 Dec 20;22(1):606. doi: 10.1186/s12859-021-04516-7.
9
QVZ: lossy compression of quality values.QVZ:质量值的有损压缩。
Bioinformatics. 2015 Oct 1;31(19):3122-9. doi: 10.1093/bioinformatics/btv330. Epub 2015 May 28.
10
CROMqs: An infinitesimal successive refinement lossy compressor for the quality scores.CROMqs:用于质量分数的无穷小连续细化有损压缩器。
J Bioinform Comput Biol. 2020 Dec;18(6):2050031. doi: 10.1142/S0219720020500316. Epub 2020 Sep 16.

引用本文的文献

1
An Efficient Method to Prepare Barcoded cDNA Libraries from Plant Callus for Long-Read Sequencing.一种从植物愈伤组织制备条形码cDNA文库用于长读长测序的高效方法。
Methods Protoc. 2023 Mar 15;6(2):31. doi: 10.3390/mps6020031.
2
Reference-free lossless compression of nanopore sequencing reads using an approximate assembly approach.使用近似组装方法对纳米孔测序读取进行无参考无损压缩。
Sci Rep. 2023 Feb 6;13(1):2082. doi: 10.1038/s41598-023-29267-8.

本文引用的文献

1
Reference-free lossless compression of nanopore sequencing reads using an approximate assembly approach.使用近似组装方法对纳米孔测序读取进行无参考无损压缩。
Sci Rep. 2023 Feb 6;13(1):2082. doi: 10.1038/s41598-023-29267-8.
2
CoLoRd: compressing long reads.CoLoRd:压缩长读。
Nat Methods. 2022 Apr;19(4):441-444. doi: 10.1038/s41592-022-01432-3. Epub 2022 Mar 28.
3
Haplotype-aware variant calling with PEPPER-Margin-DeepVariant enables high accuracy in nanopore long-reads.使用 PEPPER-Margin-DeepVariant 进行单体型感知变异调用可实现纳米孔长读段的高精度。
Nat Methods. 2021 Nov;18(11):1322-1332. doi: 10.1038/s41592-021-01299-w. Epub 2021 Nov 1.
4
Sequencing DNA with nanopores: Troubles and biases.用纳米孔测序 DNA:问题和偏差。
PLoS One. 2021 Oct 1;16(10):e0257521. doi: 10.1371/journal.pone.0257521. eCollection 2021.
5
RENANO: a REference-based compressor for NANOpore FASTQ files.RENANO:一种基于参考的 Nanopore FASTQ 文件压缩工具。
Bioinformatics. 2021 Dec 11;37(24):4862-4864. doi: 10.1093/bioinformatics/btab437.
6
metaFlye: scalable long-read metagenome assembly using repeat graphs.metaFlye:使用重复图进行可扩展的长读长宏基因组组装。
Nat Methods. 2020 Nov;17(11):1103-1110. doi: 10.1038/s41592-020-00971-x. Epub 2020 Oct 5.
7
Nanopore sequencing and the Shasta toolkit enable efficient de novo assembly of eleven human genomes.纳米孔测序和 Shasta 工具包可实现 11 个人类基因组的高效从头组装。
Nat Biotechnol. 2020 Sep;38(9):1044-1053. doi: 10.1038/s41587-020-0503-6. Epub 2020 May 4.
8
ENANO: Encoder for NANOpore FASTQ files.ENANO:用于 Nanopore FASTQ 文件的编码器。
Bioinformatics. 2020 Aug 15;36(16):4506-4507. doi: 10.1093/bioinformatics/btaa551.
9
NanoVar: accurate characterization of patients' genomic structural variants using low-depth nanopore sequencing.NanoVar:使用低深度纳米孔测序准确表征患者的基因组结构变异。
Genome Biol. 2020 Mar 3;21(1):56. doi: 10.1186/s13059-020-01968-7.
10
Fast and accurate long-read assembly with wtdbg2.使用 wtdbg2 实现快速准确的长读长序列组装。
Nat Methods. 2020 Feb;17(2):155-158. doi: 10.1038/s41592-019-0669-3. Epub 2019 Dec 9.