• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

FASTAFS:随机访问压缩 FASTA 文件的文件系统虚拟化。

FASTAFS: file system virtualisation of random access compressed FASTA files.

机构信息

Department of Neurology, Erasmus University Medical Center, Dr. Molewaterplein 40, 3015 GD, Rotterdam, The Netherlands.

Department of Urology, Erasmus MC Cancer Institute, University Medical Center, Rotterdam, The Netherlands.

出版信息

BMC Bioinformatics. 2021 Nov 1;22(1):535. doi: 10.1186/s12859-021-04455-3.

DOI:10.1186/s12859-021-04455-3
PMID:34724897
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC8558547/
Abstract

BACKGROUND

The FASTA file format, used to store polymeric sequence data, has become a bioinformatics file standard used for decades. The relatively large files require additional files, beyond the scope of the original format, to identify sequences and to provide random access. Multiple compressors have been developed to archive FASTA files back and forth, but these lack direct access to targeted content or metadata of the archive. Moreover, these solutions are not directly backwards compatible to FASTA files, resulting in limited software integration.

RESULTS

We designed a linux based toolkit that virtualises the content of DNA, RNA and protein FASTA archives into the filesystem by using filesystem in userspace. This guarantees in-sync virtualised metadata files and offers fast random-access decompression using bit encodings plus Zstandard (zstd). The toolkit, FASTAFS, can track all its system-wide running instances, allows file integrity verification and can provide, instantly, scriptable access to sequence files and is easy to use and deploy. The file compression ratios were comparable but not superior to other state of the art archival tools, despite the innovative random access feature implemented in FASTAFS.

CONCLUSIONS

FASTAFS is a user-friendly and easy to deploy backwards compatible generic purpose solution to store and access compressed FASTA files, since it offers file system access to FASTA files as well as in-sync metadata files through file virtualisation. Using virtual filesystems as in-between layer offers format conversion without the need to rewrite code into different programming languages while preserving compatibility.

摘要

背景

FASTA 文件格式,用于存储聚合序列数据,已成为几十年来生物信息学文件的标准。相对较大的文件需要额外的文件来识别序列并提供随机访问,超出了原始格式的范围。已经开发了多种压缩器来来回回地归档 FASTA 文件,但这些压缩器缺乏对存档内容或元数据的直接访问。此外,这些解决方案与 FASTA 文件不直接向后兼容,导致软件集成有限。

结果

我们设计了一个基于 Linux 的工具包,通过在用户空间中使用文件系统,将 DNA、RNA 和蛋白质 FASTA 档案的内容虚拟化为文件系统。这保证了同步的虚拟化元数据文件,并通过位编码加 Zstandard(zstd)提供快速随机访问解压缩。FASTAFS 工具包可以跟踪其所有系统范围内的运行实例,允许文件完整性验证,并可以即时提供对序列文件的脚本访问,并且易于使用和部署。尽管 FASTAFS 实现了创新的随机访问功能,但文件压缩比与其他最先进的归档工具相当,但不占优势。

结论

FASTAFS 是一种用户友好且易于部署的向后兼容的通用解决方案,用于存储和访问压缩的 FASTA 文件,因为它通过文件虚拟化为 FASTA 文件以及同步的元数据文件提供文件系统访问。使用虚拟文件系统作为中间层,在不将代码重写为不同编程语言的情况下提供格式转换,同时保持兼容性。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/89d0/8559344/b3ed3987b2dc/12859_2021_4455_Fig4_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/89d0/8559344/08fbf9eeb762/12859_2021_4455_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/89d0/8559344/0290dcdf1423/12859_2021_4455_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/89d0/8559344/f8626e6c4fa8/12859_2021_4455_Fig3_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/89d0/8559344/b3ed3987b2dc/12859_2021_4455_Fig4_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/89d0/8559344/08fbf9eeb762/12859_2021_4455_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/89d0/8559344/0290dcdf1423/12859_2021_4455_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/89d0/8559344/f8626e6c4fa8/12859_2021_4455_Fig3_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/89d0/8559344/b3ed3987b2dc/12859_2021_4455_Fig4_HTML.jpg

相似文献

1
FASTAFS: file system virtualisation of random access compressed FASTA files.FASTAFS:随机访问压缩 FASTA 文件的文件系统虚拟化。
BMC Bioinformatics. 2021 Nov 1;22(1):535. doi: 10.1186/s12859-021-04455-3.
2
Pyfastx: a robust Python package for fast random access to sequences from plain and gzipped FASTA/Q files.Pyfastx:一个强大的 Python 包,用于快速随机访问来自普通和 gzipped FASTA/Q 文件的序列。
Brief Bioinform. 2021 Jul 20;22(4). doi: 10.1093/bib/bbaa368.
3
FASTA/Q data compressors for MapReduce-Hadoop genomics: space and time savings made easy.FASTA/Q 数据压缩器在 MapReduce-Hadoop 基因组学中的应用:轻松节省空间和时间。
BMC Bioinformatics. 2021 Mar 22;22(1):144. doi: 10.1186/s12859-021-04063-1.
4
Fasta2Structure: a user-friendly tool for converting multiple aligned FASTA files to STRUCTURE format.Fasta2Structure:一个将多个对齐 FASTA 文件转换为 STRUCTURE 格式的用户友好型工具。
BMC Bioinformatics. 2024 Feb 15;25(1):73. doi: 10.1186/s12859-024-05697-7.
5
Proteomics FASTA archive and reference resource.蛋白质组学FASTA存档与参考资源。
Proteomics. 2008 May;8(9):1756-7. doi: 10.1002/pmic.200701194.
6
smallWig: parallel compression of RNA-seq WIG files.smallWig:RNA序列WIG文件的并行压缩
Bioinformatics. 2016 Jan 15;32(2):173-80. doi: 10.1093/bioinformatics/btv561. Epub 2015 Sep 30.
7
Proteomics Standards Initiative Extended FASTA Format.蛋白质组学标准倡议扩展 FASTA 格式。
J Proteome Res. 2019 Jun 7;18(6):2686-2692. doi: 10.1021/acs.jproteome.9b00064. Epub 2019 May 23.
8
Nucleotide Archival Format (NAF) enables efficient lossless reference-free compression of DNA sequences.核苷酸档案格式 (NAF) 可实现 DNA 序列的高效无损、无参考自由压缩。
Bioinformatics. 2019 Oct 1;35(19):3826-3828. doi: 10.1093/bioinformatics/btz144.
9
MetaCRAM: an integrated pipeline for metagenomic taxonomy identification and compression.MetaCRAM:一种用于宏基因组分类识别和压缩的集成流程。
BMC Bioinformatics. 2016 Feb 19;17:94. doi: 10.1186/s12859-016-0932-x.
10
SeqKit: A Cross-Platform and Ultrafast Toolkit for FASTA/Q File Manipulation.SeqKit:一个用于FASTA/Q文件操作的跨平台超快速工具包。
PLoS One. 2016 Oct 5;11(10):e0163962. doi: 10.1371/journal.pone.0163962. eCollection 2016.

引用本文的文献

1
A lossless reference-free sequence compression algorithm leveraging grammatical, statistical, and substitution rules.一种利用语法、统计和替换规则的无损无参考序列压缩算法。
Brief Funct Genomics. 2025 Jan 15;24. doi: 10.1093/bfgp/elae050.
2
Integrated ACMG-approved genes and ICD codes for the translational research and precision medicine.整合 ACMG 批准的基因和 ICD 编码,用于转化研究和精准医学。
Database (Oxford). 2023 May 17;2023. doi: 10.1093/database/baad033.
3
Artificial Intelligence, Healthcare, Clinical Genomics, and Pharmacogenomics Approaches in Precision Medicine.

本文引用的文献

1
Nucleotide Archival Format (NAF) enables efficient lossless reference-free compression of DNA sequences.核苷酸档案格式 (NAF) 可实现 DNA 序列的高效无损、无参考自由压缩。
Bioinformatics. 2019 Oct 1;35(19):3826-3828. doi: 10.1093/bioinformatics/btz144.
2
miRBase: from microRNA sequences to function.miRBase:从 microRNA 序列到功能。
Nucleic Acids Res. 2019 Jan 8;47(D1):D155-D162. doi: 10.1093/nar/gky1141.
3
Snakemake-a scalable bioinformatics workflow engine.Snakemake——一个可扩展的生物信息学工作流引擎。
精准医学中的人工智能、医疗保健、临床基因组学和药物基因组学方法。
Front Genet. 2022 Jul 6;13:929736. doi: 10.3389/fgene.2022.929736. eCollection 2022.
Bioinformatics. 2018 Oct 15;34(20):3600. doi: 10.1093/bioinformatics/bty350.
4
Nextflow enables reproducible computational workflows.Nextflow支持可重复的计算工作流程。
Nat Biotechnol. 2017 Apr 11;35(4):316-319. doi: 10.1038/nbt.3820.
5
SeqKit: A Cross-Platform and Ultrafast Toolkit for FASTA/Q File Manipulation.SeqKit:一个用于FASTA/Q文件操作的跨平台超快速工具包。
PLoS One. 2016 Oct 5;11(10):e0163962. doi: 10.1371/journal.pone.0163962. eCollection 2016.
6
JBrowse: a dynamic web platform for genome visualization and analysis.JBrowse:一个用于基因组可视化和分析的动态网络平台。
Genome Biol. 2016 Apr 12;17:66. doi: 10.1186/s13059-016-0924-1.
7
DSRC 2--Industry-oriented compression of FASTQ files.DSRC 2--面向 FASTQ 文件的行业导向压缩。
Bioinformatics. 2014 Aug 1;30(15):2213-5. doi: 10.1093/bioinformatics/btu208. Epub 2014 Apr 18.
8
MFCompress: a compression tool for FASTA and multi-FASTA data.MFCompress:FASTA 和多 FASTA 数据的压缩工具。
Bioinformatics. 2014 Jan 1;30(1):117-8. doi: 10.1093/bioinformatics/btt594. Epub 2013 Oct 16.
9
The Subread aligner: fast, accurate and scalable read mapping by seed-and-vote.Subread 比对工具:基于种子投票的快速、准确和可扩展的读段比对。
Nucleic Acids Res. 2013 May 1;41(10):e108. doi: 10.1093/nar/gkt214. Epub 2013 Apr 4.
10
The SILVA ribosomal RNA gene database project: improved data processing and web-based tools. SILVA 核糖体 RNA 基因数据库项目:改进的数据处理和基于网络的工具。
Nucleic Acids Res. 2013 Jan;41(Database issue):D590-6. doi: 10.1093/nar/gks1219. Epub 2012 Nov 28.