• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

Gfastats:使用组装图转换、评估和操作基因组序列。

Gfastats: conversion, evaluation and manipulation of genome sequences using assembly graphs.

机构信息

The Vertebrate Genome Laboratory, The Rockefeller University, New York, NY 10065, USA.

Bioinformatics Group, Department of Computer Science, Albert-Ludwigs-University Freiburg, Freiburg 79110, Germany.

出版信息

Bioinformatics. 2022 Sep 2;38(17):4214-4216. doi: 10.1093/bioinformatics/btac460.

DOI:10.1093/bioinformatics/btac460
PMID:35799367
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC9438950/
Abstract

MOTIVATION

With the current pace at which reference genomes are being produced, the availability of tools that can reliably and efficiently generate genome assembly summary statistics has become critical. Additionally, with the emergence of new algorithms and data types, tools that can improve the quality of existing assemblies through automated and manual curation are required.

RESULTS

We sought to address both these needs by developing gfastats, as part of the Vertebrate Genomes Project (VGP) effort to generate high-quality reference genomes at scale. Gfastats is a standalone tool to compute assembly summary statistics and manipulate assembly sequences in FASTA, FASTQ or GFA [.gz] format. Gfastats stores assembly sequences internally in a GFA-like format. This feature allows gfastats to seamlessly convert FAST* to and from GFA [.gz] files. Gfastats can also build an assembly graph that can in turn be used to manipulate the underlying sequences following instructions provided by the user, while simultaneously generating key metrics for the new sequences.

AVAILABILITY AND IMPLEMENTATION

Gfastats is implemented in C++. Precompiled releases (Linux, MacOS, Windows) and commented source code for gfastats are available under MIT licence at https://github.com/vgl-hub/gfastats. Examples of how to run gfastats are provided in the GitHub. Gfastats is also available in Bioconda, in Galaxy (https://assembly.usegalaxy.eu) and as a MultiQC module (https://github.com/ewels/MultiQC). An automated test workflow is available to ensure consistency of software updates.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

随着参考基因组的生成速度不断加快,能够可靠且高效地生成基因组组装汇总统计信息的工具变得至关重要。此外,随着新算法和数据类型的出现,需要能够通过自动化和手动策展来提高现有组装质量的工具。

结果

我们试图通过开发 gfastats 来满足这两个需求,这是生成高质量大规模参考基因组的脊椎动物基因组计划 (VGP) 工作的一部分。Gfastats 是一个独立的工具,用于计算组装汇总统计信息,并以 FASTA、FASTQ 或 GFA [.gz] 格式操作组装序列。Gfastats 在内部以类似于 GFA 的格式存储组装序列。此功能允许 gfastats 无缝地在 FAST* 和 GFA [.gz] 文件之间转换。Gfastats 还可以构建组装图,然后可以根据用户提供的指令用于操作底层序列,同时为新序列生成关键指标。

可用性和实现

Gfastats 是用 C++编写的。预编译版本(Linux、MacOS、Windows)和 gfastats 的注释源代码可根据 MIT 许可证在 https://github.com/vgl-hub/gfastats 获得。在 GitHub 中提供了如何运行 gfastats 的示例。Gfastats 也可在 Bioconda、Galaxy(https://assembly.usegalaxy.eu)和 MultiQC 模块(https://github.com/ewels/MultiQC)中使用。还提供了自动化测试工作流程,以确保软件更新的一致性。

补充信息

补充数据可在 Bioinformatics 在线获得。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1a6b/9438950/761b6fc4706a/btac460f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1a6b/9438950/761b6fc4706a/btac460f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1a6b/9438950/761b6fc4706a/btac460f1.jpg

相似文献

1
Gfastats: conversion, evaluation and manipulation of genome sequences using assembly graphs.Gfastats:使用组装图转换、评估和操作基因组序列。
Bioinformatics. 2022 Sep 2;38(17):4214-4216. doi: 10.1093/bioinformatics/btac460.
2
VGEA: an RNA viral assembly toolkit.VGEA:一种RNA病毒组装工具包。
PeerJ. 2021 Sep 6;9:e12129. doi: 10.7717/peerj.12129. eCollection 2021.
3
ODGI: understanding pangenome graphs.ODGI:理解泛基因组图谱。
Bioinformatics. 2022 Jun 27;38(13):3319-3326. doi: 10.1093/bioinformatics/btac308.
4
GfaViz: flexible and interactive visualization of GFA sequence graphs.GfaViz:GFA 序列图的灵活交互可视化。
Bioinformatics. 2019 Aug 15;35(16):2853-2855. doi: 10.1093/bioinformatics/bty1046.
5
ACES: Analysis of Conservation with an Extensive list of Species.ACES:使用广泛的物种列表进行保护分析。
Bioinformatics. 2021 Nov 5;37(21):3920-3922. doi: 10.1093/bioinformatics/btab684.
6
GfaPy: a flexible and extensible software library for handling sequence graphs in Python.GfaPy:一个用于在 Python 中处理序列图的灵活可扩展的软件库。
Bioinformatics. 2017 Oct 1;33(19):3094-3095. doi: 10.1093/bioinformatics/btx398.
7
Capturing variation in metagenomic assembly graphs with MetaCortex.使用 MetaCortex 捕获宏基因组组装图中的变异。
Bioinformatics. 2023 Jan 1;39(1). doi: 10.1093/bioinformatics/btad020.
8
AGC: compact representation of assembled genomes with fast queries and updates.AGC:带快速查询和更新功能的组装基因组的紧凑表示。
Bioinformatics. 2023 Mar 1;39(3). doi: 10.1093/bioinformatics/btad097.
9
Unbiased pangenome graphs.无偏泛基因组图。
Bioinformatics. 2023 Jan 1;39(1). doi: 10.1093/bioinformatics/btac743.
10
orfipy: a fast and flexible tool for extracting ORFs.orfipy:一个快速灵活的 ORF 提取工具。
Bioinformatics. 2021 Sep 29;37(18):3019-3020. doi: 10.1093/bioinformatics/btab090.

引用本文的文献

1
The chromosomal genome sequence of the photosymbiotic ascidian, Kott, 1977 and its associated microbial metagenome sequences.光合共生海鞘的染色体基因组序列,科特,1977年及其相关微生物宏基因组序列。
Wellcome Open Res. 2025 Jul 23;10:357. doi: 10.12688/wellcomeopenres.24563.1. eCollection 2025.
2
The genome sequence of the Scarce Copper, (Linnaeus, 1758) (Lepidoptera: Lycaenidae).稀铜弄蝶(林奈,1758年)(鳞翅目:弄蝶科)的基因组序列
Wellcome Open Res. 2025 Aug 11;10:434. doi: 10.12688/wellcomeopenres.24748.1. eCollection 2025.
3
The genome sequence of the Silver-washed Fritillary, (Linnaeus, 1758) (Lepidoptera: Nymphalidae).

本文引用的文献

1
Telomere-to-telomere assembly of diploid chromosomes with Verkko.利用 Verkko 进行二倍体染色体的端粒到端粒组装。
Nat Biotechnol. 2023 Oct;41(10):1474-1482. doi: 10.1038/s41587-023-01662-6. Epub 2023 Feb 16.
2
Semi-automated assembly of high-quality diploid human reference genomes.半自动组装高质量的二倍体人类参考基因组。
Nature. 2022 Nov;611(7936):519-531. doi: 10.1038/s41586-022-05325-5. Epub 2022 Oct 19.
3
Haplotype-resolved assembly of diploid genomes without parental data.单体型解析组装二倍体基因组,无需父母本数据。
柑橘凤蝶(林奈,1758年)(鳞翅目:凤蝶科)的基因组序列。
Wellcome Open Res. 2025 Jul 31;10:399. doi: 10.12688/wellcomeopenres.24635.1. eCollection 2025.
4
The genome sequence of the de Prunner's Ringlet, von Prunner, 1798 (Lepidoptera: Nymphalidae).德普伦纳弄蝶(德普伦纳,1798年)(鳞翅目:蛱蝶科)的基因组序列
Wellcome Open Res. 2025 Aug 11;10:425. doi: 10.12688/wellcomeopenres.24693.1. eCollection 2025.
5
The genome sequence of the Violet Copper, (Denis & Schiffermüller), 1776 (Lepidoptera: Lycaenidae).紫铜弄蝶(Denis & Schiffermüller,1776年)(鳞翅目:弄蝶科)的基因组序列
Wellcome Open Res. 2025 Aug 11;10:429. doi: 10.12688/wellcomeopenres.24699.1. eCollection 2025.
6
The reference genome of the human diploid cell line RPE-1.人类二倍体细胞系RPE-1的参考基因组。
Nat Commun. 2025 Sep 12;16(1):7751. doi: 10.1038/s41467-025-62428-z.
7
The genome sequence of the Marsh Pennywort, L. (Apiales: Araliaceae).天胡荽(伞形目:五加科)的基因组序列。
Wellcome Open Res. 2025 Jul 28;10:370. doi: 10.12688/wellcomeopenres.24582.1. eCollection 2025.
8
The genome sequence of (Scopoli, 1763) (Lepidoptera: Geometridae).(斯科普利,1763年)(鳞翅目:尺蛾科)的基因组序列。
Wellcome Open Res. 2025 Jul 30;10:392. doi: 10.12688/wellcomeopenres.24664.1. eCollection 2025.
9
The genome sequence of the Black Hairstreak, (Linnaeus, 1758) (Lepidoptera: Lycaenidae).黑纹尾蛱蝶(林奈,1758年)(鳞翅目:灰蝶科)的基因组序列
Wellcome Open Res. 2025 Jul 28;10:377. doi: 10.12688/wellcomeopenres.24619.1. eCollection 2025.
10
The genome sequence of a flea beetle, Aubé, 1843.一种跳甲(奥贝,1843年)的基因组序列。
Wellcome Open Res. 2025 Jun 2;10:297. doi: 10.12688/wellcomeopenres.24269.1. eCollection 2025.
Nat Biotechnol. 2022 Sep;40(9):1332-1335. doi: 10.1038/s41587-022-01261-x. Epub 2022 Mar 24.
4
Towards complete and error-free genome assemblies of all vertebrate species.致力于完成所有脊椎动物物种的完整且无错误的基因组组装。
Nature. 2021 Apr;592(7856):737-746. doi: 10.1038/s41586-021-03451-0. Epub 2021 Apr 28.
5
Haplotype-resolved de novo assembly using phased assembly graphs with hifiasm.使用带有 hifiasm 的相定装配图进行单体型解析从头组装。
Nat Methods. 2021 Feb;18(2):170-175. doi: 10.1038/s41592-020-01056-5. Epub 2021 Feb 1.
6
Significantly improving the quality of genome assemblies through curation.通过编辑显著提高基因组组装的质量。
Gigascience. 2021 Jan 9;10(1). doi: 10.1093/gigascience/giaa153.
7
GFAKluge: A C++ library and command line utilities for the Graphical Fragment Assembly formats.GFAKluge:用于图形片段组装格式的C++库和命令行实用工具。
J Open Source Softw. 2019;4(33). doi: 10.21105/joss.01083.
8
Earth BioGenome Project: Sequencing life for the future of life.地球生物基因组计划:为生命的未来测序生命。
Proc Natl Acad Sci U S A. 2018 Apr 24;115(17):4325-4333. doi: 10.1073/pnas.1720115115.
9
Genome graphs and the evolution of genome inference.基因组图谱与基因组推断的演变
Genome Res. 2017 May;27(5):665-676. doi: 10.1101/gr.214155.116. Epub 2017 Mar 30.
10
SeqKit: A Cross-Platform and Ultrafast Toolkit for FASTA/Q File Manipulation.SeqKit:一个用于FASTA/Q文件操作的跨平台超快速工具包。
PLoS One. 2016 Oct 5;11(10):e0163962. doi: 10.1371/journal.pone.0163962. eCollection 2016.