• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

GTC:如何以压缩形式保存大型基因型集合。

GTC: how to maintain huge genotype collections in a compressed form.

机构信息

Institute of Informatics, Faculty of Automatic Control, Electronics and Computer Science, Silesian University of Technology, Gliwice, Poland.

出版信息

Bioinformatics. 2018 Jun 1;34(11):1834-1840. doi: 10.1093/bioinformatics/bty023.

DOI:10.1093/bioinformatics/bty023
PMID:29351600
Abstract

MOTIVATION

Nowadays, genome sequencing is frequently used in many research centers. In projects, such as the Haplotype Reference Consortium or the Exome Aggregation Consortium, huge databases of genotypes in large populations are determined. Together with the increasing size of these collections, the need for fast and memory frugal ways of representation and searching in them becomes crucial.

RESULTS

We present GTC (GenoType Compressor), a novel compressed data structure for representation of huge collections of genetic variation data. It significantly outperforms existing solutions in terms of compression ratio and time of answering various types of queries. We show that the largest of publicly available database of about 60 000 haplotypes at about 40 million SNPs can be stored in <4 GB, while the queries related to variants are answered in a fraction of a second.

AVAILABILITY AND IMPLEMENTATION

GTC can be downloaded from https://github.com/refresh-bio/GTC or http://sun.aei.polsl.pl/REFRESH/gtc.

CONTACT

sebastian.deorowicz@polsl.pl.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

如今,基因组测序在许多研究中心得到了广泛应用。在诸如单倍型参考联盟或外显子聚集联盟等项目中,大量的基因型数据库在大型人群中被确定。随着这些集合的规模不断增大,对于快速且节省内存的表示和搜索方法的需求变得至关重要。

结果

我们提出了 GTC(基因型压缩器),这是一种用于表示庞大的遗传变异数据集合的新型压缩数据结构。它在压缩率和回答各种类型查询的时间方面明显优于现有解决方案。我们表明,大约 4 亿个 SNP 中约 6 万个单倍型的最大公共数据库可以存储在<4GB 内,而与变体相关的查询可以在几分之一秒内得到回答。

可用性和实现

GTC 可以从 https://github.com/refresh-bio/GTC 或 http://sun.aei.polsl.pl/REFRESH/gtc 下载。

联系人

sebastian.deorowicz@polsl.pl。

补充信息

补充数据可在“Bioinformatics”在线获取。

相似文献

1
GTC: how to maintain huge genotype collections in a compressed form.GTC:如何以压缩形式保存大型基因型集合。
Bioinformatics. 2018 Jun 1;34(11):1834-1840. doi: 10.1093/bioinformatics/bty023.
2
Robust relative compression of genomes with random access.具有随机访问的基因组的稳健相对压缩。
Bioinformatics. 2011 Nov 1;27(21):2979-86. doi: 10.1093/bioinformatics/btr505. Epub 2011 Sep 5.
3
DSRC 2--Industry-oriented compression of FASTQ files.DSRC 2--面向 FASTQ 文件的行业导向压缩。
Bioinformatics. 2014 Aug 1;30(15):2213-5. doi: 10.1093/bioinformatics/btu208. Epub 2014 Apr 18.
4
Genome compression: a novel approach for large collections.基因组压缩:一种用于大型数据集的新方法。
Bioinformatics. 2013 Oct 15;29(20):2572-8. doi: 10.1093/bioinformatics/btt460. Epub 2013 Aug 21.
5
Disk-based compression of data from genome sequencing.基于磁盘的数据压缩技术在基因组测序中的应用。
Bioinformatics. 2015 May 1;31(9):1389-95. doi: 10.1093/bioinformatics/btu844. Epub 2014 Dec 22.
6
GTRAC: fast retrieval from compressed collections of genomic variants.GTRAC:从基因组变异的压缩集合中快速检索
Bioinformatics. 2016 Sep 1;32(17):i479-i486. doi: 10.1093/bioinformatics/btw437.
7
GTShark: genotype compression in large projects.GTShark:大型项目中的基因型压缩。
Bioinformatics. 2019 Nov 1;35(22):4791-4793. doi: 10.1093/bioinformatics/btz508.
8
CoMSA: compression of protein multiple sequence alignment files.CoMSA:蛋白质多重序列比对文件的压缩。
Bioinformatics. 2019 Jan 15;35(2):227-234. doi: 10.1093/bioinformatics/bty619.
9
FaStore: a space-saving solution for raw sequencing data.FaStore:一种节省存储空间的原始测序数据解决方案。
Bioinformatics. 2018 Aug 15;34(16):2748-2756. doi: 10.1093/bioinformatics/bty205.
10
GDC 2: Compression of large collections of genomes.基因组数据压缩2:大型基因组集合的压缩
Sci Rep. 2015 Jun 25;5:11565. doi: 10.1038/srep11565.

引用本文的文献

1
Analysis-ready VCF at Biobank scale using Zarr.使用Zarr在生物样本库规模上生成可供分析的VCF。
Gigascience. 2025 Jan 6;14. doi: 10.1093/gigascience/giaf049.
2
Enabling efficient analysis of biobank-scale data with genotype representation graphs.利用基因型表示图实现生物样本库规模数据的高效分析。
Nat Comput Sci. 2025 Feb;5(2):112-124. doi: 10.1038/s43588-024-00739-9. Epub 2024 Dec 5.
3
GSC: efficient lossless compression of VCF files with fast query.GSC:实现 VCF 文件的高效无损压缩和快速查询
Gigascience. 2024 Jan 2;13. doi: 10.1093/gigascience/giae046.
4
Analysis-ready VCF at Biobank scale using Zarr.使用Zarr在生物样本库规模上生成可用于分析的VCF。
bioRxiv. 2025 Feb 6:2024.06.11.598241. doi: 10.1101/2024.06.11.598241.
5
Genotype Representation Graphs: Enabling Efficient Analysis of Biobank-Scale Data.基因型表示图:实现对生物样本库规模数据的高效分析。
bioRxiv. 2024 Aug 21:2024.04.23.590800. doi: 10.1101/2024.04.23.590800.
6
GBC: a parallel toolkit based on highly addressable byte-encoding blocks for extremely large-scale genotypes of species.GBC:一种基于高度可寻址字节编码块的并行工具包,用于处理物种的超大规模基因型。
Genome Biol. 2023 Apr 17;24(1):76. doi: 10.1186/s13059-023-02906-z.
7
GVC: efficient random access compression for gene sequence variations.GVC:基因序列变异的高效随机访问压缩。
BMC Bioinformatics. 2023 Mar 28;24(1):121. doi: 10.1186/s12859-023-05240-0.
8
XSI-a genotype compression tool for compressive genomics in large biobanks.XSI-a 基因型压缩工具,用于大型生物库中的压缩基因组学。
Bioinformatics. 2022 Aug 2;38(15):3778-3784. doi: 10.1093/bioinformatics/btac413.
9
VariantStore: an index for large-scale genomic variant search.变体存储:用于大规模基因组变体搜索的索引。
Genome Biol. 2021 Aug 19;22(1):231. doi: 10.1186/s13059-021-02442-8.
10
Sparse Project VCF: efficient encoding of population genotype matrices.稀疏项目 VCF:群体基因型矩阵的有效编码。
Bioinformatics. 2021 Apr 1;36(22-23):5537-5538. doi: 10.1093/bioinformatics/btaa1004.