• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

用于图着色的动态压缩方案。

Dynamic compression schemes for graph coloring.

机构信息

Department of Computer Science, ETH Zurich, Zurich, Switzerland.

Biomedical Informatics Research, University Hospital Zurich, Zurich, Switzerland.

出版信息

Bioinformatics. 2019 Feb 1;35(3):407-414. doi: 10.1093/bioinformatics/bty632.

DOI:10.1093/bioinformatics/bty632
PMID:30020403
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC6530811/
Abstract

MOTIVATION

Technological advancements in high-throughput DNA sequencing have led to an exponential growth of sequencing data being produced and stored as a byproduct of biomedical research. Despite its public availability, a majority of this data remains hard to query for the research community due to a lack of efficient data representation and indexing solutions. One of the available techniques to represent read data is a condensed form as an assembly graph. Such a representation contains all sequence information but does not store contextual information and metadata.

RESULTS

We present two new approaches for a compressed representation of a graph coloring: a lossless compression scheme based on a novel application of wavelet tries as well as a highly accurate lossy compression based on a set of Bloom filters. Both strategies retain a coloring even when adding to the underlying graph topology. We present construction and merge procedures for both methods and evaluate their performance on a wide range of different datasets. By dropping the requirement of a fully lossless compression and using the topological information of the underlying graph, we can reduce memory requirements by up to three orders of magnitude. Representing individual colors as independently stored modules, our approaches can be efficiently parallelized and provide strategies for dynamic use. These properties allow for an easy upscaling to the problem sizes common to the biomedical domain.

AVAILABILITY AND IMPLEMENTATION

We provide prototype implementations in C++, summaries of our experiments as well as links to all datasets publicly at https://github.com/ratschlab/graph_annotation.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

高通量 DNA 测序技术的进步导致了测序数据的指数级增长,并作为生物医学研究的副产品被存储。尽管这些数据是公开的,但由于缺乏有效的数据表示和索引解决方案,大多数数据仍然难以被研究界查询。表示读取数据的一种可用技术是将其压缩为组装图的形式。这种表示形式包含所有序列信息,但不存储上下文信息和元数据。

结果

我们提出了两种新的图形着色压缩表示方法:一种是基于小波尝试的新颖应用的无损压缩方案,另一种是基于一组布隆过滤器的高度精确的有损压缩方案。这两种策略都能在添加底层图形拓扑结构的情况下保留颜色。我们提出了这两种方法的构建和合并过程,并在广泛的不同数据集上评估了它们的性能。通过放弃完全无损压缩的要求并使用底层图形的拓扑信息,我们可以将内存需求减少三个数量级。通过将单个颜色表示为独立存储的模块,我们的方法可以有效地并行化,并提供动态使用的策略。这些特性允许轻松扩展到生物医学领域常见的问题规模。

可用性和实现

我们在 C++中提供了原型实现,实验摘要以及所有数据集的链接都可以在 https://github.com/ratschlab/graph_annotation 上公开获取。

补充信息

补充数据可在《生物信息学》在线获取。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0d5b/6530811/3dd703adb4e2/bty632f4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0d5b/6530811/cdf4549dd630/bty632f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0d5b/6530811/26c524e44c3b/bty632f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0d5b/6530811/1d769b9e66cb/bty632f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0d5b/6530811/3dd703adb4e2/bty632f4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0d5b/6530811/cdf4549dd630/bty632f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0d5b/6530811/26c524e44c3b/bty632f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0d5b/6530811/1d769b9e66cb/bty632f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0d5b/6530811/3dd703adb4e2/bty632f4.jpg

相似文献

1
Dynamic compression schemes for graph coloring.用于图着色的动态压缩方案。
Bioinformatics. 2019 Feb 1;35(3):407-414. doi: 10.1093/bioinformatics/bty632.
2
CALQ: compression of quality values of aligned sequencing data.CALQ:对齐测序数据的质量值压缩。
Bioinformatics. 2018 May 15;34(10):1650-1658. doi: 10.1093/bioinformatics/btx737.
3
A space and time-efficient index for the compacted colored de Bruijn graph.一种用于压缩彩色 de Bruijn 图的空间和时间高效索引。
Bioinformatics. 2018 Jul 1;34(13):i169-i177. doi: 10.1093/bioinformatics/bty292.
4
ScaleQC: a scalable lossy to lossless solution for NGS data compression.ScaleQC:一种用于 NGS 数据压缩的可扩展有损到无损解决方案。
Bioinformatics. 2020 Nov 1;36(17):4551-4559. doi: 10.1093/bioinformatics/btaa543.
5
Topology-based sparsification of graph annotations.基于图注释的拓扑简化。
Bioinformatics. 2021 Jul 12;37(Suppl_1):i169-i176. doi: 10.1093/bioinformatics/btab330.
6
CSAM: Compressed SAM format.CSAM:压缩 SAM 格式。
Bioinformatics. 2016 Dec 15;32(24):3709-3716. doi: 10.1093/bioinformatics/btw543. Epub 2016 Aug 18.
7
mspack: efficient lossless and lossy mass spectrometry data compression.mspack:高效的无损和有损质谱数据压缩。
Bioinformatics. 2021 Nov 5;37(21):3923-3925. doi: 10.1093/bioinformatics/btab636.
8
FaStore: a space-saving solution for raw sequencing data.FaStore:一种节省存储空间的原始测序数据解决方案。
Bioinformatics. 2018 Aug 15;34(16):2748-2756. doi: 10.1093/bioinformatics/bty205.
9
SPRING: a next-generation compressor for FASTQ data.SPRING:FASTQ 数据的下一代压缩程序。
Bioinformatics. 2019 Aug 1;35(15):2674-2676. doi: 10.1093/bioinformatics/bty1015.
10
Sparse Binary Relation Representations for Genome Graph Annotation.用于基因组图注释的稀疏二元关系表示
J Comput Biol. 2020 Apr;27(4):626-639. doi: 10.1089/cmb.2019.0324. Epub 2019 Dec 20.

引用本文的文献

1
Aligning distant sequences to graphs using long seed sketches.使用长种子草图对齐图上的远距离序列。
Genome Res. 2023 Jul;33(7):1208-1217. doi: 10.1101/gr.277659.123. Epub 2023 Apr 18.
2
Topology-based sparsification of graph annotations.基于图注释的拓扑简化。
Bioinformatics. 2021 Jul 12;37(Suppl_1):i169-i176. doi: 10.1093/bioinformatics/btab330.
3
Data structures based on -mers for querying large collections of sequencing data sets.基于 - 元的序列数据集查询的大型数据集的数据结构。

本文引用的文献

1
Mantis: A Fast, Small, and Exact Large-Scale Sequence-Search Index.螳螂:一种快速、小巧、精确的大规模序列搜索索引。
Cell Syst. 2018 Aug 22;7(2):201-207.e4. doi: 10.1016/j.cels.2018.05.021. Epub 2018 Jun 20.
2
Improved Search of Large Transcriptomic Sequencing Databases Using Split Sequence Bloom Trees.使用拆分序列布隆树改进对大型转录组测序数据库的搜索
J Comput Biol. 2018 Jul;25(7):755-765. doi: 10.1089/cmb.2017.0265. Epub 2018 Mar 12.
3
deBGR: an efficient and near-exact representation of the weighted de Bruijn graph.deBGR:一种高效且近乎精确的加权 de Bruijn 图表示方法。
Genome Res. 2021 Jan;31(1):1-12. doi: 10.1101/gr.260604.119. Epub 2020 Dec 16.
4
Succinct dynamic de Bruijn graphs.简明动态布儒瓦图。
Bioinformatics. 2021 Aug 4;37(14):1946-1952. doi: 10.1093/bioinformatics/btaa546.
5
An Efficient, Scalable, and Exact Representation of High-Dimensional Color Information Enabled Using de Bruijn Graph Search.使用德布鲁因图搜索实现高维颜色信息的高效、可扩展且精确表示。
J Comput Biol. 2020 Apr;27(4):485-499. doi: 10.1089/cmb.2019.0322. Epub 2020 Mar 16.
6
Sparse Binary Relation Representations for Genome Graph Annotation.用于基因组图注释的稀疏二元关系表示
J Comput Biol. 2020 Apr;27(4):626-639. doi: 10.1089/cmb.2019.0324. Epub 2019 Dec 20.
7
Building large updatable colored de Bruijn graphs via merging.通过合并构建大型可更新彩色 de Bruijn 图。
Bioinformatics. 2019 Jul 15;35(14):i51-i60. doi: 10.1093/bioinformatics/btz350.
8
Improved representation of sequence bloom trees.序列 Bloom 树的表示方法改进。
Bioinformatics. 2020 Feb 1;36(3):721-727. doi: 10.1093/bioinformatics/btz662.
Bioinformatics. 2017 Jul 15;33(14):i133-i141. doi: 10.1093/bioinformatics/btx261.
4
Succinct colored de Bruijn graphs.简明彩色 de Bruijn 图。
Bioinformatics. 2017 Oct 15;33(20):3181-3187. doi: 10.1093/bioinformatics/btx067.
5
Mash: fast genome and metagenome distance estimation using MinHash.Mash:使用MinHash进行快速的基因组和宏基因组距离估计。
Genome Biol. 2016 Jun 20;17(1):132. doi: 10.1186/s13059-016-0997-x.
6
Bloom Filter Trie: an alignment-free and reference-free data structure for pan-genome storage.布隆过滤器前缀树:一种用于泛基因组存储的无比对和无参考的数据结构。
Algorithms Mol Biol. 2016 Apr 14;11:3. doi: 10.1186/s13015-016-0066-8. eCollection 2016.
7
A global reference for human genetic variation.人类遗传变异的全球参考。
Nature. 2015 Oct 1;526(7571):68-74. doi: 10.1038/nature15393.
8
Reference-free compression of high throughput sequencing data with a probabilistic de Bruijn graph.使用概率性德布鲁因图对高通量测序数据进行无参考压缩
BMC Bioinformatics. 2015 Sep 14;16:288. doi: 10.1186/s12859-015-0709-7.
9
The UK10K project identifies rare variants in health and disease.英国万人基因组计划识别健康与疾病中的罕见变异。
Nature. 2015 Oct 1;526(7571):82-90. doi: 10.1038/nature14962. Epub 2015 Sep 14.
10
Big Data: Astronomical or Genomical?大数据:天文学的还是基因组学的?
PLoS Biol. 2015 Jul 7;13(7):e1002195. doi: 10.1371/journal.pbio.1002195. eCollection 2015 Jul.