• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

稀疏项目 VCF:群体基因型矩阵的有效编码。

Sparse Project VCF: efficient encoding of population genotype matrices.

机构信息

mlin.net LLC, San Jose, CA 95113, USA.

Department of Regeneron Pharmaceuticals, Inc., Regeneron Genetics Center, Tarrytown, NY 10591, USA.

出版信息

Bioinformatics. 2021 Apr 1;36(22-23):5537-5538. doi: 10.1093/bioinformatics/btaa1004.

DOI:10.1093/bioinformatics/btaa1004
PMID:33300997
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC8016461/
Abstract

SUMMARY

Variant Call Format (VCF), the prevailing representation for germline genotypes in population sequencing, suffers rapid size growth as larger cohorts are sequenced and more rare variants are discovered. We present Sparse Project VCF (spVCF), an evolution of VCF with judicious entropy reduction and run-length encoding, delivering >10× size reduction for modern studies with practically minimal information loss. spVCF interoperates with VCF efficiently, including tabix-based random access. We demonstrate its effectiveness with the DiscovEHR and UK Biobank whole-exome sequencing cohorts.

AVAILABILITY AND IMPLEMENTATION

Apache-licensed reference implementation: github.com/mlin/spVCF.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

摘要

变体调用格式(VCF)是人群测序中用于种系基因型的主要表示方法,但随着更大规模队列的测序和更多罕见变异的发现,其大小增长迅速。我们提出了稀疏项目 VCF(spVCF),这是 VCF 的一种演进,采用了明智的熵减少和游程长度编码,为现代研究提供了 >10 倍的大小缩减,而实际上几乎没有信息损失。spVCF 与 VCF 高效地互操作,包括基于 tabix 的随机访问。我们使用 DiscovEHR 和 UK Biobank 全外显子组测序队列证明了它的有效性。

可用性和实现

Apache 许可的参考实现:github.com/mlin/spVCF。

补充信息

补充数据可在 Bioinformatics 在线获得。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6ac7/8016461/6ffc617392c1/btaa1004f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6ac7/8016461/6ffc617392c1/btaa1004f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6ac7/8016461/6ffc617392c1/btaa1004f1.jpg

相似文献

1
Sparse Project VCF: efficient encoding of population genotype matrices.稀疏项目 VCF:群体基因型矩阵的有效编码。
Bioinformatics. 2021 Apr 1;36(22-23):5537-5538. doi: 10.1093/bioinformatics/btaa1004.
2
VCF-Explorer: filtering and analysing whole genome VCF files.VCF-Explorer:过滤和分析全基因组 VCF 文件。
Bioinformatics. 2017 Nov 1;33(21):3468-3470. doi: 10.1093/bioinformatics/btx422.
3
VCF/Plotein: visualization and prioritization of genomic variants from human exome sequencing projects.VCF/Plotein:人类外显子组测序项目中基因组变异的可视化和优先级排序。
Bioinformatics. 2019 Nov 1;35(22):4803-4805. doi: 10.1093/bioinformatics/btz458.
4
Seqminer2: an efficient tool to query and retrieve genotypes for statistical genetics analyses from biobank scale sequence dataset.Seqminer2:一种高效的工具,可从生物库规模的序列数据集中查询和检索用于统计遗传学分析的基因型。
Bioinformatics. 2020 Dec 8;36(19):4951-4954. doi: 10.1093/bioinformatics/btaa628.
5
Improved VCF normalization for accurate VCF comparison.改进VCF标准化以实现准确的VCF比较。
Bioinformatics. 2017 Apr 1;33(7):964-970. doi: 10.1093/bioinformatics/btw748.
6
VCF-kit: assorted utilities for the variant call format.VCF工具包:用于变异调用格式的各种实用工具。
Bioinformatics. 2017 May 15;33(10):1581-1582. doi: 10.1093/bioinformatics/btx011.
7
re-Searcher: GUI-based bioinformatics tool for simplified genomics data mining of VCF files.再搜索者:用于简化VCF文件基因组学数据挖掘的基于图形用户界面的生物信息学工具。
PeerJ. 2021 May 3;9:e11333. doi: 10.7717/peerj.11333. eCollection 2021.
8
VCFShark: how to squeeze a VCF file.VCFShark:如何压缩一个VCF文件。
Bioinformatics. 2021 Oct 11;37(19):3358-3360. doi: 10.1093/bioinformatics/btab211.
9
SeqArray-a storage-efficient high-performance data format for WGS variant calls.SeqArray——一种用于全基因组测序变异检测的存储高效的高性能数据格式。
Bioinformatics. 2017 Aug 1;33(15):2251-2257. doi: 10.1093/bioinformatics/btx145.
10
genozip: a fast and efficient compression tool for VCF files.genozip:一种用于 VCF 文件的快速高效压缩工具。
Bioinformatics. 2020 Jul 1;36(13):4091-4092. doi: 10.1093/bioinformatics/btaa290.

引用本文的文献

1
Analysis-ready VCF at Biobank scale using Zarr.使用Zarr在生物样本库规模上生成可供分析的VCF。
Gigascience. 2025 Jan 6;14. doi: 10.1093/gigascience/giaf049.
2
Lessons from national biobank projects utilizing whole-genome sequencing for population-scale genomics.利用全基因组测序开展人群规模基因组学研究的国家生物样本库项目经验教训。
Genomics Inform. 2025 Mar 6;23(1):8. doi: 10.1186/s44342-025-00040-9.
3
The scalable variant call representation: enabling genetic analysis beyond one million genomes.可扩展的变异调用表示:实现超百万基因组的遗传分析。

本文引用的文献

1
Exome sequencing and characterization of 49,960 individuals in the UK Biobank.英国生物银行中 49960 人的外显子组测序和特征分析。
Nature. 2020 Oct;586(7831):749-756. doi: 10.1038/s41586-020-2853-0. Epub 2020 Oct 21.
2
genozip: a fast and efficient compression tool for VCF files.genozip:一种用于 VCF 文件的快速高效压缩工具。
Bioinformatics. 2020 Jul 1;36(13):4091-4092. doi: 10.1093/bioinformatics/btaa290.
3
GTShark: genotype compression in large projects.GTShark:大型项目中的基因型压缩。
Bioinformatics. 2024 Dec 26;41(1). doi: 10.1093/bioinformatics/btae746.
4
Analysis-ready VCF at Biobank scale using Zarr.使用Zarr在生物样本库规模上生成可用于分析的VCF。
bioRxiv. 2025 Feb 6:2024.06.11.598241. doi: 10.1101/2024.06.11.598241.
5
The Scalable Variant Call Representation: Enabling Genetic Analysis Beyond One Million Genomes.可扩展变异调用表示法:助力超越百万基因组的遗传分析
bioRxiv. 2024 Jan 10:2024.01.09.574205. doi: 10.1101/2024.01.09.574205.
6
A spectrum of free software tools for processing the VCF variant call format: vcflib, bio-vcf, cyvcf2, hts-nim and slivar.用于处理 VCF 变体调用格式的一系列免费软件工具:vcflib、bio-vcf、cyvcf2、hts-nim 和 slivar。
PLoS Comput Biol. 2022 May 31;18(5):e1009123. doi: 10.1371/journal.pcbi.1009123. eCollection 2022 May.
7
Efficiently Summarizing Relationships in Large Samples: A General Duality Between Statistics of Genealogies and Genomes.高效总结大样本中的关系:谱系学和基因组统计之间的一般对偶性。
Genetics. 2020 Jul;215(3):779-797. doi: 10.1534/genetics.120.303253. Epub 2020 May 1.
Bioinformatics. 2019 Nov 1;35(22):4791-4793. doi: 10.1093/bioinformatics/btz508.
4
GTC: how to maintain huge genotype collections in a compressed form.GTC:如何以压缩形式保存大型基因型集合。
Bioinformatics. 2018 Jun 1;34(11):1834-1840. doi: 10.1093/bioinformatics/bty023.
5
SeqArray-a storage-efficient high-performance data format for WGS variant calls.SeqArray——一种用于全基因组测序变异检测的存储高效的高性能数据格式。
Bioinformatics. 2017 Aug 1;33(15):2251-2257. doi: 10.1093/bioinformatics/btx145.
6
Distribution and clinical impact of functional variants in 50,726 whole-exome sequences from the DiscovEHR study.50726 例全外显子组序列中的功能变体的分布和临床影响:DiscovEHR 研究。
Science. 2016 Dec 23;354(6319). doi: 10.1126/science.aaf6814.
7
Efficient genotype compression and analysis of large genetic-variation data sets.大型基因变异数据集的高效基因型压缩与分析
Nat Methods. 2016 Jan;13(1):63-5. doi: 10.1038/nmeth.3654. Epub 2015 Nov 9.
8
BGT: efficient and flexible genotype query across many samples.BGT:跨多个样本进行高效灵活的基因型查询。
Bioinformatics. 2016 Feb 15;32(4):590-2. doi: 10.1093/bioinformatics/btv613. Epub 2015 Oct 24.
9
The variant call format and VCFtools.变异调用格式和 VCFtools。
Bioinformatics. 2011 Aug 1;27(15):2156-8. doi: 10.1093/bioinformatics/btr330. Epub 2011 Jun 7.
10
Tabix: fast retrieval of sequence features from generic TAB-delimited files.Tabix:从通用制表符分隔文件中快速检索序列特征。
Bioinformatics. 2011 Mar 1;27(5):718-9. doi: 10.1093/bioinformatics/btq671. Epub 2011 Jan 5.