• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

使用核苷酸存档格式对严重急性呼吸综合征冠状病毒2(SARS-CoV-2)基因组数据进行高效压缩。

Efficient compression of SARS-CoV-2 genome data using Nucleotide Archival Format.

作者信息

Kryukov Kirill, Jin Lihua, Nakagawa So

机构信息

Department of Informatics, National Institute of Genetics, Mishima, Shizuoka 411-8540, Japan.

Genomus Co., Ltd., Sagamihara, Kanagawa 252-0226, Japan.

出版信息

Patterns (N Y). 2022 Sep 9;3(9):100562. doi: 10.1016/j.patter.2022.100562. Epub 2022 Jul 7.

DOI:10.1016/j.patter.2022.100562
PMID:35818472
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC9259476/
Abstract

Severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) genome data are essential for epidemiology, vaccine development, and tracking emerging variants. Millions of SARS-CoV-2 genomes have been sequenced during the pandemic. However, downloading SARS-CoV-2 genomes from databases is slow and unreliable, largely due to suboptimal choice of compression method. We evaluated the available compressors and found that Nucleotide Archival Format (NAF) would provide a drastic improvement compared with current methods. For Global Initiative on Sharing Avian Flu Data's (GISAID) pre-compressed datasets, NAF would increase efficiency 52.2 times for gzip-compressed data and 3.7 times for xz-compressed data. For DNA DataBank of Japan (DDBJ), NAF would improve throughput 40 times for gzip-compressed data. For GenBank and European Nucleotide Archive (ENA), NAF would accelerate data distribution by a factor of 29.3 times compared with uncompressed FASTA. This article provides a tutorial for installing and using NAF. Offering a NAF download option in sequence databases would provide a significant saving of time, bandwidth, and disk space and accelerate biological and medical research worldwide.

摘要

严重急性呼吸综合征冠状病毒2(SARS-CoV-2)基因组数据对于流行病学、疫苗研发以及追踪新出现的变异毒株至关重要。在疫情期间,数以百万计的SARS-CoV-2基因组已被测序。然而,从数据库下载SARS-CoV-2基因组的速度缓慢且不可靠,这主要是由于压缩方法选择欠佳。我们评估了现有的压缩器,发现核苷酸存档格式(NAF)与当前方法相比将带来显著改进。对于全球共享禽流感数据倡议组织(GISAID)的预压缩数据集,与gzip压缩数据相比,NAF将使效率提高52.2倍,与xz压缩数据相比提高3.7倍。对于日本DNA数据库(DDBJ),与gzip压缩数据相比,NAF将使通量提高40倍。对于GenBank和欧洲核苷酸档案库(ENA),与未压缩的FASTA相比,NAF将使数据分发速度加快29.3倍。本文提供了NAF安装和使用教程。在序列数据库中提供NAF下载选项将大幅节省时间、带宽和磁盘空间,并加速全球范围内的生物学和医学研究。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7f2f/9481951/2a05bf2a3d60/gr2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7f2f/9481951/af40fb7ba41b/gr1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7f2f/9481951/2a05bf2a3d60/gr2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7f2f/9481951/af40fb7ba41b/gr1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7f2f/9481951/2a05bf2a3d60/gr2.jpg

相似文献

1
Efficient compression of SARS-CoV-2 genome data using Nucleotide Archival Format.使用核苷酸存档格式对严重急性呼吸综合征冠状病毒2(SARS-CoV-2)基因组数据进行高效压缩。
Patterns (N Y). 2022 Sep 9;3(9):100562. doi: 10.1016/j.patter.2022.100562. Epub 2022 Jul 7.
2
Nucleotide Archival Format (NAF) enables efficient lossless reference-free compression of DNA sequences.核苷酸档案格式 (NAF) 可实现 DNA 序列的高效无损、无参考自由压缩。
Bioinformatics. 2019 Oct 1;35(19):3826-3828. doi: 10.1093/bioinformatics/btz144.
3
CovidPhy: A tool for phylogeographic analysis of SARS-CoV-2 variation.CovidPhy:用于 SARS-CoV-2 变异的系统地理学分析的工具。
Environ Res. 2022 Mar;204(Pt A):111909. doi: 10.1016/j.envres.2021.111909. Epub 2021 Aug 20.
4
CoV-Seq, a New Tool for SARS-CoV-2 Genome Analysis and Visualization: Development and Usability Study.CoV-Seq,一种用于SARS-CoV-2基因组分析和可视化的新工具:开发与可用性研究
J Med Internet Res. 2020 Oct 2;22(10):e22299. doi: 10.2196/22299.
5
DNA Data Bank of Japan (DDBJ) update report 2021.日本 DNA 数据库 (DDBJ) 更新报告 2021.
Nucleic Acids Res. 2022 Jan 7;50(D1):D102-D105. doi: 10.1093/nar/gkab995.
6
The international nucleotide sequence database collaboration.国际核苷酸序列数据库合作组织。
Nucleic Acids Res. 2018 Jan 4;46(D1):D48-D51. doi: 10.1093/nar/gkx1097.
7
Comparative studies on the high-performance compression of SARS-CoV-2 genome collections.SARS-CoV-2 基因组集的高性能压缩比较研究。
Brief Funct Genomics. 2022 Apr 11;21(2):103-112. doi: 10.1093/bfgp/elab041.
8
SCALCE: boosting sequence compression algorithms using locally consistent encoding.SCALCE:使用局部一致编码提升序列压缩算法。
Bioinformatics. 2012 Dec 1;28(23):3051-7. doi: 10.1093/bioinformatics/bts593. Epub 2012 Oct 9.
9
Genomic variance of Open Reading Frames (ORFs) and Spike protein in severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2).严重急性呼吸综合征冠状病毒 2(SARS-CoV-2)的开放阅读框(ORFs)和刺突蛋白的基因组变异。
J Chin Med Assoc. 2020 Aug;83(8):725-732. doi: 10.1097/JCMA.0000000000000387.
10
FQC: A novel approach for efficient compression, archival, and dissemination of fastq datasets.FQC:一种用于高效压缩、存档和传播Fastq数据集的新方法。
J Bioinform Comput Biol. 2015 Jun;13(3):1541003. doi: 10.1142/S0219720015410036. Epub 2015 Feb 8.

引用本文的文献

1
SGV-caller: SARS-CoV-2 genome variation caller.SGV 调用器:严重急性呼吸综合征冠状病毒 2 基因组变异调用器。
Heliyon. 2025 Feb 12;11(4):e42613. doi: 10.1016/j.heliyon.2025.e42613. eCollection 2025 Feb 28.
2
Lossless and reference-free compression of FASTQ/A files using GeneSqueeze.使用GeneSqueeze对FASTQ/A文件进行无损且无参考的压缩。
Sci Rep. 2025 Jan 2;15(1):322. doi: 10.1038/s41598-024-79258-6.
3
Considerations for Severe Acute Respiratory Syndrome Coronavirus 2 Genomic Surveillance: A Joint Consensus Recommendation of the Association for Molecular Pathology and Association of Public Health Laboratories.

本文引用的文献

1
Data curation during a pandemic and lessons learned from COVID-19.大流行期间的数据管理以及从 COVID-19 中吸取的教训。
Nat Comput Sci. 2021 Jan;1(1):9-10. doi: 10.1038/s43588-020-00015-6.
2
AGC: compact representation of assembled genomes with fast queries and updates.AGC:带快速查询和更新功能的组装基因组的紧凑表示。
Bioinformatics. 2023 Mar 1;39(3). doi: 10.1093/bioinformatics/btad097.
3
Phylogenetic and phylodynamic approaches to understanding and combating the early SARS-CoV-2 pandemic.从系统发生和系统动力学角度理解和抗击 SARS-CoV-2 大流行早期阶段。
严重急性呼吸综合征冠状病毒2基因组监测的考量:分子病理学协会和公共卫生实验室协会联合共识推荐
J Mol Diagn. 2025 Jan;27(1):12-24. doi: 10.1016/j.jmoldx.2024.09.005. Epub 2024 Oct 21.
Nat Rev Genet. 2022 Sep;23(9):547-562. doi: 10.1038/s41576-022-00483-8. Epub 2022 Apr 22.
4
MBGC: Multiple Bacteria Genome Compressor.MBGC:多细菌基因组压缩器。
Gigascience. 2022 Jan 27;11. doi: 10.1093/gigascience/giab099.
5
GISAID's Role in Pandemic Response.全球流感共享数据库(GISAID)在大流行应对中的作用。
China CDC Wkly. 2021 Dec 3;3(49):1049-1051. doi: 10.46234/ccdcw2021.255.
6
Comparative studies on the high-performance compression of SARS-CoV-2 genome collections.SARS-CoV-2 基因组集的高性能压缩比较研究。
Brief Funct Genomics. 2022 Apr 11;21(2):103-112. doi: 10.1093/bfgp/elab041.
7
GenBank.GenBank
Nucleic Acids Res. 2022 Jan 7;50(D1):D161-D164. doi: 10.1093/nar/gkab1135.
8
The European Nucleotide Archive in 2021.2021 年的欧洲核苷酸档案库。
Nucleic Acids Res. 2022 Jan 7;50(D1):D106-D110. doi: 10.1093/nar/gkab1051.
9
DNA Data Bank of Japan (DDBJ) update report 2021.日本 DNA 数据库 (DDBJ) 更新报告 2021.
Nucleic Acids Res. 2022 Jan 7;50(D1):D102-D105. doi: 10.1093/nar/gkab995.
10
SARS-CoV-2 variants, spike mutations and immune escape.SARS-CoV-2 变体、刺突突变和免疫逃逸。
Nat Rev Microbiol. 2021 Jul;19(7):409-424. doi: 10.1038/s41579-021-00573-0. Epub 2021 Jun 1.