• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

FastaValidator:一个用于解析和验证FASTA格式序列的开源Java库。

FastaValidator: an open-source Java library to parse and validate FASTA formatted sequences.

作者信息

Waldmann Jost, Gerken Jan, Hankeln Wolfgang, Schweer Timmy, Glöckner Frank Oliver

机构信息

Microbial Genomics and Bioinformatics Research Group, Max Planck Institute for Marine Microbiology, Celsiusstrasse 1, 28359 Bremen, Germany.

出版信息

BMC Res Notes. 2014 Jun 14;7:365. doi: 10.1186/1756-0500-7-365.

DOI:10.1186/1756-0500-7-365
PMID:24929426
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC4094456/
Abstract

BACKGROUND

Advances in sequencing technologies challenge the efficient importing and validation of FASTA formatted sequence data which is still a prerequisite for most bioinformatic tools and pipelines. Comparative analysis of commonly used Bio*-frameworks (BioPerl, BioJava and Biopython) shows that their scalability and accuracy is hampered.

FINDINGS

FastaValidator represents a platform-independent, standardized, light-weight software library written in the Java programming language. It targets computer scientists and bioinformaticians writing software which needs to parse quickly and accurately large amounts of sequence data. For end-users FastaValidator includes an interactive out-of-the-box validation of FASTA formatted files, as well as a non-interactive mode designed for high-throughput validation in software pipelines.

CONCLUSIONS

The accuracy and performance of the FastaValidator library qualifies it for large data sets such as those commonly produced by massive parallel (NGS) technologies. It offers scientists a fast, accurate and standardized method for parsing and validating FASTA formatted sequence data.

摘要

背景

测序技术的进步对FASTA格式序列数据的高效导入和验证提出了挑战,而FASTA格式序列数据仍是大多数生物信息学工具和流程的前提条件。对常用的Bio*框架(BioPerl、BioJava和Biopython)的比较分析表明,它们的可扩展性和准确性受到了阻碍。

研究结果

FastaValidator是一个用Java编程语言编写的独立于平台的、标准化的轻量级软件库。它面向编写需要快速准确解析大量序列数据的软件的计算机科学家和生物信息学家。对于终端用户,FastaValidator包括对FASTA格式文件的开箱即用的交互式验证,以及为软件流程中的高通量验证设计的非交互式模式。

结论

FastaValidator库的准确性和性能使其适用于大规模并行(NGS)技术通常产生的大型数据集。它为科学家提供了一种快速、准确和标准化的方法来解析和验证FASTA格式的序列数据。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8b90/4094456/900d500c7ab0/1756-0500-7-365-1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8b90/4094456/900d500c7ab0/1756-0500-7-365-1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8b90/4094456/900d500c7ab0/1756-0500-7-365-1.jpg

相似文献

1
FastaValidator: an open-source Java library to parse and validate FASTA formatted sequences.FastaValidator:一个用于解析和验证FASTA格式序列的开源Java库。
BMC Res Notes. 2014 Jun 14;7:365. doi: 10.1186/1756-0500-7-365.
2
Sharing Programming Resources Between Bio* Projects.生物相关项目间的编程资源共享。
Methods Mol Biol. 2019;1910:747-766. doi: 10.1007/978-1-4939-9074-0_25.
3
Sharing programming resources between Bio* projects through remote procedure call and native call stack strategies.通过远程过程调用和原生调用栈策略在生物相关项目之间共享编程资源。
Methods Mol Biol. 2012;856:513-27. doi: 10.1007/978-1-61779-585-5_21.
4
BpWrapper: BioPerl-based sequence and tree utilities for rapid prototyping of bioinformatics pipelines.BpWrapper:基于 BioPerl 的序列和树实用程序,用于快速原型化生物信息学管道。
BMC Bioinformatics. 2018 Mar 2;19(1):76. doi: 10.1186/s12859-018-2074-9.
5
BLASTGrabber: a bioinformatic tool for visualization, analysis and sequence selection of massive BLAST data.BLASTGrabber:一种用于大规模BLAST数据可视化、分析和序列选择的生物信息学工具。
BMC Bioinformatics. 2014 May 5;15:128. doi: 10.1186/1471-2105-15-128.
6
ORFer--retrieval of protein sequences and open reading frames from GenBank and storage into relational databases or text files.ORFer——从GenBank中检索蛋白质序列和开放阅读框,并存储到关系数据库或文本文件中。
BMC Bioinformatics. 2002 Dec 19;3:40. doi: 10.1186/1471-2105-3-40.
7
BioJava: an open-source framework for bioinformatics.BioJava:一个用于生物信息学的开源框架。
Bioinformatics. 2008 Sep 15;24(18):2096-7. doi: 10.1093/bioinformatics/btn397. Epub 2008 Aug 8.
8
Windows .NET Network Distributed Basic Local Alignment Search Toolkit (W.ND-BLAST).Windows .NET网络分布式基本局部比对搜索工具包(W.ND-BLAST)。
BMC Bioinformatics. 2005 Apr 8;6:93. doi: 10.1186/1471-2105-6-93.
9
Tools for loading MEDLINE into a local relational database.将医学文献数据库(MEDLINE)加载到本地关系数据库的工具。
BMC Bioinformatics. 2004 Oct 7;5:146. doi: 10.1186/1471-2105-5-146.
10
TREE2FASTA: a flexible Perl script for batch extraction of FASTA sequences from exploratory phylogenetic trees.TREE2FASTA:一个灵活的Perl脚本,用于从探索性系统发育树中批量提取FASTA序列。
BMC Res Notes. 2018 Mar 5;11(1):164. doi: 10.1186/s13104-018-3268-y.

引用本文的文献

1
Autonomous Self-Evolving Research on Biomedical Data: The DREAM Paradigm.生物医学数据的自主自我进化研究:DREAM范式。
Adv Sci (Weinh). 2025 May 8:e2417066. doi: 10.1002/advs.202417066.
2
JSpeciesWS: a web server for prokaryotic species circumscription based on pairwise genome comparison.JSpeciesWS:一个基于成对基因组比较进行原核生物物种界定的网络服务器。
Bioinformatics. 2016 Mar 15;32(6):929-31. doi: 10.1093/bioinformatics/btv681. Epub 2015 Nov 16.

本文引用的文献

1
The SILVA ribosomal RNA gene database project: improved data processing and web-based tools. SILVA 核糖体 RNA 基因数据库项目:改进的数据处理和基于网络的工具。
Nucleic Acids Res. 2013 Jan;41(Database issue):D590-6. doi: 10.1093/nar/gks1219. Epub 2012 Nov 28.
2
CDinFusion--submission-ready, on-line integration of sequence and contextual data.CDinFusion--提交就绪的、在线的序列和上下文数据集成。
PLoS One. 2011;6(9):e24797. doi: 10.1371/journal.pone.0024797. Epub 2011 Sep 13.
3
Next-generation DNA sequencing methods.下一代DNA测序方法。
Annu Rev Genomics Hum Genet. 2008;9:387-402. doi: 10.1146/annurev.genom.9.081307.164359.
4
The Sorcerer II Global Ocean Sampling expedition: expanding the universe of protein families.“魔法师二号”全球海洋采样考察:拓展蛋白质家族的范畴
PLoS Biol. 2007 Mar;5(3):e16. doi: 10.1371/journal.pbio.0050016.
5
Escherichia coli K-12: a cooperatively developed annotation snapshot--2005.大肠杆菌K-12:一个合作开发的注释快照——2005年。
Nucleic Acids Res. 2006 Jan 5;34(1):1-9. doi: 10.1093/nar/gkj405. Print 2006.
6
Protein sequence databases.蛋白质序列数据库。
Curr Opin Chem Biol. 2004 Feb;8(1):76-80. doi: 10.1016/j.cbpa.2003.12.004.
7
The Bio* toolkits--a brief overview.生物工具包——简要概述。
Brief Bioinform. 2002 Sep;3(3):296-302. doi: 10.1093/bib/3.3.296.
8
IUPAC-IUB Joint Commission on Biochemical Nomenclature (JCBN). Nomenclature and symbolism for amino acids and peptides. Corrections to recommendations 1983.
Eur J Biochem. 1993 Apr 1;213(1):2. doi: 10.1111/j.1432-1033.1993.tb17727.x_2.
9
IUPAC-IUB Joint Commission on Biochemical Nomenclature (JCBN). Nomenclature and symbolism for amino acids and peptides. Recommendations 1983.
Eur J Biochem. 1984 Jan 2;138(1):9-37. doi: 10.1111/j.1432-1033.1984.tb07877.x.
10
Improved tools for biological sequence comparison.用于生物序列比较的改进工具。
Proc Natl Acad Sci U S A. 1988 Apr;85(8):2444-8. doi: 10.1073/pnas.85.8.2444.