• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

具有随机访问的基因组的稳健相对压缩。

Robust relative compression of genomes with random access.

机构信息

Institute of Informatics, Silesian University of Technology, 44-100 Gliwice, Poland.

出版信息

Bioinformatics. 2011 Nov 1;27(21):2979-86. doi: 10.1093/bioinformatics/btr505. Epub 2011 Sep 5.

DOI:10.1093/bioinformatics/btr505
PMID:21896510
Abstract

MOTIVATION

Storing, transferring and maintaining genomic databases becomes a major challenge because of the rapid technology progress in DNA sequencing and correspondingly growing pace at which the sequencing data are being produced. Efficient compression, with support for extraction of arbitrary snippets of any sequence, is the key to maintaining those huge amounts of data.

RESULTS

We present an LZ77-style compression scheme for relative compression of multiple genomes of the same species. While the solution bears similarity to known algorithms, it offers significantly higher compression ratios at compression speed over an order of magnitude greater. In particular, 69 differentially encoded human genomes are compressed over 400 times at fast compression, or even 1000 times at slower compression (the reference genome itself needs much more space). Adding fast random access to text snippets decreases the ratio to ~300.

AVAILABILITY

GDC is available at http://sun.aei.polsl.pl/gdc.

CONTACT

sebastian.deorowicz@polsl.pl.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

由于 DNA 测序技术的快速发展以及测序数据的产生速度相应地不断加快,存储、传输和维护基因组数据库成为一项主要挑战。高效的压缩技术,支持对任何序列的任意片段进行提取,是维持这些大量数据的关键。

结果

我们提出了一种 LZ77 风格的压缩方案,用于同一物种的多个基因组的相对压缩。虽然该解决方案与已知算法相似,但在压缩速度方面提供了显著更高的压缩比,超过一个数量级。特别是,在快速压缩下,69 个差异编码的人类基因组被压缩了 400 多倍,在较慢的压缩下甚至可以达到 1000 倍(参考基因组本身需要更多的空间)。添加对文本片段的快速随机访问会将比率降低到~300。

可用性

GDC 可在 http://sun.aei.polsl.pl/gdc 上获取。

联系方式

sebastian.deorowicz@polsl.pl。

补充信息

补充数据可在 Bioinformatics 在线获取。

相似文献

1
Robust relative compression of genomes with random access.具有随机访问的基因组的稳健相对压缩。
Bioinformatics. 2011 Nov 1;27(21):2979-86. doi: 10.1093/bioinformatics/btr505. Epub 2011 Sep 5.
2
Genome compression: a novel approach for large collections.基因组压缩:一种用于大型数据集的新方法。
Bioinformatics. 2013 Oct 15;29(20):2572-8. doi: 10.1093/bioinformatics/btt460. Epub 2013 Aug 21.
3
GDC 2: Compression of large collections of genomes.基因组数据压缩2:大型基因组集合的压缩
Sci Rep. 2015 Jun 25;5:11565. doi: 10.1038/srep11565.
4
GTC: how to maintain huge genotype collections in a compressed form.GTC:如何以压缩形式保存大型基因型集合。
Bioinformatics. 2018 Jun 1;34(11):1834-1840. doi: 10.1093/bioinformatics/bty023.
5
Disk-based compression of data from genome sequencing.基于磁盘的数据压缩技术在基因组测序中的应用。
Bioinformatics. 2015 May 1;31(9):1389-95. doi: 10.1093/bioinformatics/btu844. Epub 2014 Dec 22.
6
Comment on: 'ERGC: an efficient referential genome compression algorithm'.关于《ERGC:一种高效的参考基因组压缩算法》的评论
Bioinformatics. 2016 Apr 1;32(7):1115-7. doi: 10.1093/bioinformatics/btv704. Epub 2015 Nov 28.
7
DSRC 2--Industry-oriented compression of FASTQ files.DSRC 2--面向 FASTQ 文件的行业导向压缩。
Bioinformatics. 2014 Aug 1;30(15):2213-5. doi: 10.1093/bioinformatics/btu208. Epub 2014 Apr 18.
8
GTRAC: fast retrieval from compressed collections of genomic variants.GTRAC:从基因组变异的压缩集合中快速检索
Bioinformatics. 2016 Sep 1;32(17):i479-i486. doi: 10.1093/bioinformatics/btw437.
9
Compression of DNA sequence reads in FASTQ format.FASTQ 格式下 DNA 序列读取的压缩。
Bioinformatics. 2011 Mar 15;27(6):860-2. doi: 10.1093/bioinformatics/btr014. Epub 2011 Jan 19.
10
CoMSA: compression of protein multiple sequence alignment files.CoMSA:蛋白质多重序列比对文件的压缩。
Bioinformatics. 2019 Jan 15;35(2):227-234. doi: 10.1093/bioinformatics/bty619.

引用本文的文献

1
AGC: compact representation of assembled genomes with fast queries and updates.AGC:带快速查询和更新功能的组装基因组的紧凑表示。
Bioinformatics. 2023 Mar 1;39(3). doi: 10.1093/bioinformatics/btad097.
2
A Hybrid Data-Differencing and Compression Algorithm for the Automotive Industry.一种用于汽车行业的混合数据差分与压缩算法。
Entropy (Basel). 2022 Apr 19;24(5):574. doi: 10.3390/e24050574.
3
MBGC: Multiple Bacteria Genome Compressor.MBGC:多细菌基因组压缩器。
Gigascience. 2022 Jan 27;11. doi: 10.1093/gigascience/giab099.
4
Constructing small genome graphs via string compression.通过字符串压缩构建小基因组图。
Bioinformatics. 2021 Jul 12;37(Suppl_1):i205-i213. doi: 10.1093/bioinformatics/btab281.
5
Efficient DNA sequence compression with neural networks.神经网络高效 DNA 序列压缩。
Gigascience. 2020 Nov 11;9(11). doi: 10.1093/gigascience/giaa119.
6
Vertical lossless genomic data compression tools for assembled genomes: A systematic literature review.用于组装基因组的垂直无损基因组数据压缩工具:系统文献回顾。
PLoS One. 2020 May 26;15(5):e0232942. doi: 10.1371/journal.pone.0232942. eCollection 2020.
7
HRCM: An Efficient Hybrid Referential Compression Method for Genomic Big Data.HRCM:一种用于基因组大数据的高效混合参考压缩方法。
Biomed Res Int. 2019 Nov 16;2019:3108950. doi: 10.1155/2019/3108950. eCollection 2019.
8
Sketch distance-based clustering of chromosomes for large genome database compression.基于草图距离的染色体聚类在大型基因组数据库压缩中的应用。
BMC Genomics. 2019 Dec 30;20(Suppl 10):978. doi: 10.1186/s12864-019-6310-0.
9
Tackling the Challenges of FASTQ Referential Compression.应对FASTQ参考压缩的挑战。
Bioinform Biol Insights. 2019 Feb 14;13:1177932218821373. doi: 10.1177/1177932218821373. eCollection 2019.
10
Algorithms designed for compressed-gene-data transformation among gene banks with different references.用于在具有不同参照的基因库之间进行压缩基因数据转换的算法。
BMC Bioinformatics. 2018 Jun 18;19(1):230. doi: 10.1186/s12859-018-2230-2.