• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

改进VCF标准化以实现准确的VCF比较。

Improved VCF normalization for accurate VCF comparison.

作者信息

Bayat Arash, Gaëta Bruno, Ignjatovic Aleksandar, Parameswaran Sri

出版信息

Bioinformatics. 2017 Apr 1;33(7):964-970. doi: 10.1093/bioinformatics/btw748.

DOI:10.1093/bioinformatics/btw748
PMID:27993787
Abstract

MOTIVATION

The Variant Call Format (VCF) is widely used to store data about genetic variation. Variant calling workflows detect potential variants in large numbers of short sequence reads generated by DNA sequencing and report them in VCF format. To evaluate the accuracy of variant callers, it is critical to correctly compare their output against a reference VCF file containing a gold standard set of variants. However, comparing VCF files is a complicated task as an individual genomic variant can be represented in several different ways and is therefore not necessarily reported in a unique way by different software.

RESULTS

We introduce a VCF normalization method called Best Alignment Normalisation (BAN) that results in more accurate VCF file comparison. BAN applies all the variations in a VCF file to the reference genome to create a sample genome, and then recalls the variants by aligning this sample genome back with the reference genome. Since the purpose of BAN is to get an accurate result at the time of VCF comparison, we define a better normalization method as the one resulting in less disagreement between the outputs of different VCF comparators.

AVAILABILITY AND IMPLEMENTATION

The BAN Linux bash script along with required software are publicly available on https://sites.google.com/site/banadf16.

CONTACT

A.Bayat@unsw.edu.au.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

变异调用格式(VCF)被广泛用于存储有关基因变异的数据。变异调用工作流程会在DNA测序产生的大量短序列读数中检测潜在变异,并以VCF格式报告这些变异。为了评估变异调用程序的准确性,将其输出与包含一组黄金标准变异的参考VCF文件进行正确比较至关重要。然而,比较VCF文件是一项复杂的任务,因为单个基因组变异可以用几种不同的方式表示,因此不同软件不一定以唯一的方式报告。

结果

我们引入了一种称为最佳比对归一化(BAN)的VCF归一化方法,该方法可实现更准确的VCF文件比较。BAN将VCF文件中的所有变异应用于参考基因组以创建样本基因组,然后通过将此样本基因组与参考基因组重新比对来回溯变异。由于BAN的目的是在VCF比较时获得准确的结果,因此我们将一种更好的归一化方法定义为在不同VCF比较器的输出之间产生较少不一致的方法。

可用性与实现

BAN Linux bash脚本以及所需软件可在https://sites.google.com/site/banadf16上公开获取。

联系方式

A.Bayat@unsw.edu.au。

补充信息

补充数据可在《生物信息学》在线版上获取。

相似文献

1
Improved VCF normalization for accurate VCF comparison.改进VCF标准化以实现准确的VCF比较。
Bioinformatics. 2017 Apr 1;33(7):964-970. doi: 10.1093/bioinformatics/btw748.
2
Unified representation of genetic variants.基因变异的统一表示
Bioinformatics. 2015 Jul 1;31(13):2202-4. doi: 10.1093/bioinformatics/btv112. Epub 2015 Feb 19.
3
VCF-kit: assorted utilities for the variant call format.VCF工具包:用于变异调用格式的各种实用工具。
Bioinformatics. 2017 May 15;33(10):1581-1582. doi: 10.1093/bioinformatics/btx011.
4
SeqArray-a storage-efficient high-performance data format for WGS variant calls.SeqArray——一种用于全基因组测序变异检测的存储高效的高性能数据格式。
Bioinformatics. 2017 Aug 1;33(15):2251-2257. doi: 10.1093/bioinformatics/btx145.
5
VCF-Miner: GUI-based application for mining variants and annotations stored in VCF files.VCF-Miner:用于挖掘存储在VCF文件中的变异和注释的基于图形用户界面的应用程序。
Brief Bioinform. 2016 Mar;17(2):346-51. doi: 10.1093/bib/bbv051. Epub 2015 Jul 25.
6
re-Searcher: GUI-based bioinformatics tool for simplified genomics data mining of VCF files.再搜索者:用于简化VCF文件基因组学数据挖掘的基于图形用户界面的生物信息学工具。
PeerJ. 2021 May 3;9:e11333. doi: 10.7717/peerj.11333. eCollection 2021.
7
A spectrum of free software tools for processing the VCF variant call format: vcflib, bio-vcf, cyvcf2, hts-nim and slivar.用于处理 VCF 变体调用格式的一系列免费软件工具:vcflib、bio-vcf、cyvcf2、hts-nim 和 slivar。
PLoS Comput Biol. 2022 May 31;18(5):e1009123. doi: 10.1371/journal.pcbi.1009123. eCollection 2022 May.
8
cyvcf2: fast, flexible variant analysis with Python.cyvcf2:使用Python进行快速、灵活的变异分析。
Bioinformatics. 2017 Jun 15;33(12):1867-1869. doi: 10.1093/bioinformatics/btx057.
9
Variant graph craft (VGC): a comprehensive tool for analyzing genetic variation and identifying disease-causing variants.变体图工艺(VGC):一种全面的分析遗传变异和识别致病变异的工具。
BMC Bioinformatics. 2024 Sep 3;25(1):288. doi: 10.1186/s12859-024-05875-7.
10
Isomorphic semantic mapping of variant call format (VCF2RDF).变异调用格式的同构语义映射(VCF2RDF)。
Bioinformatics. 2017 Feb 15;33(4):547-548. doi: 10.1093/bioinformatics/btw652.

引用本文的文献

1
vcfdist: accurately benchmarking phased small variant calls in human genomes.vcfdist:准确地对人类基因组中已分型的小型变异进行基准测试。
Nat Commun. 2023 Dec 9;14(1):8149. doi: 10.1038/s41467-023-43876-x.
2
A Boolean algebra for genetic variants.遗传变异的布尔代数。
Bioinformatics. 2023 Jan 1;39(1). doi: 10.1093/bioinformatics/btad001.
3
Nitrogen and Iron Availability Drive Metabolic Remodeling and Natural Selection of Diverse Phytoplankton during Experimental Upwelling.氮和铁供应驱动实验上升流过程中多样化浮游植物的代谢重塑和自然选择。
mSystems. 2022 Oct 26;7(5):e0072922. doi: 10.1128/msystems.00729-22. Epub 2022 Aug 29.
4
vcf2fhir: a utility to convert VCF files into HL7 FHIR format for genomics-EHR integration.vcf2fhir:一个将 VCF 文件转换为 HL7 FHIR 格式以实现基因组学-EHR 集成的实用程序。
BMC Bioinformatics. 2021 Mar 2;22(1):104. doi: 10.1186/s12859-021-04039-1.
5
Transposable elements drive widespread expression of oncogenes in human cancers.转座元件驱动人类癌症中癌基因的广泛表达。
Nat Genet. 2019 Apr;51(4):611-617. doi: 10.1038/s41588-019-0373-3. Epub 2019 Mar 29.
6
Personal Genome Project UK (PGP-UK): a research and citizen science hybrid project in support of personalized medicine.英国个人基因组计划(PGP-UK):支持个性化医疗的研究与公民科学混合项目。
BMC Med Genomics. 2018 Nov 27;11(1):108. doi: 10.1186/s12920-018-0423-1.