• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

使用FASTA查找蛋白质和核苷酸的相似性。

Finding Protein and Nucleotide Similarities with FASTA.

作者信息

Pearson William R

机构信息

University of Virginia School of Medicine, Charlottesville, Virginia.

出版信息

Curr Protoc Bioinformatics. 2016 Mar 24;53:3.9.1-3.9.25. doi: 10.1002/0471250953.bi0309s53.

DOI:10.1002/0471250953.bi0309s53
PMID:27010337
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC5072362/
Abstract

The FASTA programs provide a comprehensive set of rapid similarity searching tools (fasta36, fastx36, tfastx36, fasty36, tfasty36), similar to those provided by the BLAST package, as well as programs for slower, optimal, local, and global similarity searches (ssearch36, ggsearch36), and for searching with short peptides and oligonucleotides (fasts36, fastm36). The FASTA programs use an empirical strategy for estimating statistical significance that accommodates a range of similarity scoring matrices and gap penalties, improving alignment boundary accuracy and search sensitivity. The FASTA programs can produce "BLAST-like" alignment and tabular output, for ease of integration into existing analysis pipelines, and can search small, representative databases, and then report results for a larger set of sequences, using links from the smaller dataset. The FASTA programs work with a wide variety of database formats, including mySQL and postgreSQL databases. The programs also provide a strategy for integrating domain and active site annotations into alignments and highlighting the mutational state of functionally critical residues. These protocols describe how to use the FASTA programs to characterize protein and DNA sequences, using protein:protein, protein:DNA, and DNA:DNA comparisons.

摘要

FASTA程序提供了一套全面的快速相似性搜索工具(fasta36、fastx36、tfastx36、fasty36、tfasty36),与BLAST软件包提供的工具类似,还有用于较慢的、最优的、局部和全局相似性搜索的程序(ssearch36、ggsearch36),以及用于短肽和寡核苷酸搜索的程序(fasts36、fastm36)。FASTA程序使用一种经验策略来估计统计显著性,该策略适用于一系列相似性评分矩阵和空位罚分,提高了比对边界准确性和搜索灵敏度。FASTA程序可以生成“类似BLAST”的比对和表格输出,以便于集成到现有的分析流程中,并且可以搜索小型代表性数据库,然后使用来自较小数据集的链接报告更大一组序列的结果。FASTA程序可与多种数据库格式配合使用,包括mySQL和postgreSQL数据库。这些程序还提供了一种将结构域和活性位点注释整合到比对中并突出功能关键残基突变状态的策略。这些协议描述了如何使用FASTA程序通过蛋白质与蛋白质、蛋白质与DNA以及DNA与DNA比较来表征蛋白质和DNA序列。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/49be/5072362/71ae535ed084/nihms799150f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/49be/5072362/024d5d4e34e0/nihms799150f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/49be/5072362/b9b8cfdfae93/nihms799150f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/49be/5072362/71ae535ed084/nihms799150f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/49be/5072362/024d5d4e34e0/nihms799150f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/49be/5072362/b9b8cfdfae93/nihms799150f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/49be/5072362/71ae535ed084/nihms799150f3.jpg

相似文献

1
Finding Protein and Nucleotide Similarities with FASTA.使用FASTA查找蛋白质和核苷酸的相似性。
Curr Protoc Bioinformatics. 2016 Mar 24;53:3.9.1-3.9.25. doi: 10.1002/0471250953.bi0309s53.
2
Finding protein and nucleotide similarities with FASTA.使用FASTA查找蛋白质和核苷酸的相似性。
Curr Protoc Bioinformatics. 2004 Feb;Chapter 3:Unit3.9. doi: 10.1002/0471250953.bi0309s04.
3
BLAST and FASTA similarity searching for multiple sequence alignment.用于多序列比对的BLAST和FASTA相似性搜索。
Methods Mol Biol. 2014;1079:75-101. doi: 10.1007/978-1-62703-646-7_5.
4
Computing multiple sequence/structure alignments with the T-coffee package.使用T-coffee软件包计算多序列/结构比对
Curr Protoc Bioinformatics. 2004 Feb;Chapter 3:Unit3.8. doi: 10.1002/0471250953.bi0308s04.
5
Flexible sequence similarity searching with the FASTA3 program package.使用FASTA3程序包进行灵活的序列相似性搜索。
Methods Mol Biol. 2000;132:185-219. doi: 10.1385/1-59259-192-2:185.
6
Selecting the Right Similarity-Scoring Matrix.选择合适的相似性评分矩阵。
Curr Protoc Bioinformatics. 2013;43:3.5.1-3.5.9. doi: 10.1002/0471250953.bi0305s43.
7
Comparison of methods for searching protein sequence databases.蛋白质序列数据库搜索方法的比较。
Protein Sci. 1995 Jun;4(6):1145-60. doi: 10.1002/pro.5560040613.
8
Database similarity searches.数据库相似性搜索。
Methods Mol Biol. 2008;484:361-78. doi: 10.1007/978-1-59745-398-1_24.
9
Visual BLAST and visual FASTA: graphic workbenches for interactive analysis of full BLAST and FASTA outputs under MICROSOFT WINDOWS 95/NT.可视化BLAST和可视化FASTA:用于在微软Windows 95/NT系统下对完整的BLAST和FASTA输出结果进行交互式分析的图形化工作台。
Comput Appl Biosci. 1997 Aug;13(4):407-13. doi: 10.1093/bioinformatics/13.4.407.
10
Adjusting scoring matrices to correct overextended alignments.调整评分矩阵以纠正过度延伸的比对。
Bioinformatics. 2013 Dec 1;29(23):3007-13. doi: 10.1093/bioinformatics/btt517. Epub 2013 Aug 31.

引用本文的文献

1
Data-driven de novo design of super-adhesive hydrogels.基于数据驱动的超粘性水凝胶的从头设计。
Nature. 2025 Aug;644(8075):89-95. doi: 10.1038/s41586-025-09269-4. Epub 2025 Aug 6.
2
The subordinate role of pseudogenization to recombinative deletion following polyploidization in angiosperms.被子植物多倍体化后假基因化相对于重组缺失的次要作用。
Nat Commun. 2025 Jul 9;16(1):6335. doi: 10.1038/s41467-025-61676-3.
3
Genomic epidemiology reveals antibiotic resistance transfer and polyclonal dissemination of in a Paraguayan hospital.

本文引用的文献

1
Maximum-likelihood estimation of the statistical distribution of Smith-Waterman local sequence similarity scores.史密斯-沃特曼局部序列相似性得分统计分布的最大似然估计。
Bull Math Biol. 1992 Jan;54(1):59-75. doi: 10.1007/BF02458620.
2
UniProt: a hub for protein information.通用蛋白质数据库(UniProt):蛋白质信息中心。
Nucleic Acids Res. 2015 Jan;43(Database issue):D204-12. doi: 10.1093/nar/gku989. Epub 2014 Oct 27.
3
Pfam: the protein families database.Pfam:蛋白质家族数据库。
基因组流行病学揭示了巴拉圭一家医院中抗生素耐药性的转移和多克隆传播。 (原文中“of”后面似乎缺失了具体内容)
Antimicrob Agents Chemother. 2025 Aug 6;69(8):e0007725. doi: 10.1128/aac.00077-25. Epub 2025 Jul 8.
4
varVAMP: degenerate primer design for tiled full genome sequencing and qPCR.可变VAMP:用于平铺式全基因组测序和定量PCR的简并引物设计。
Nat Commun. 2025 May 31;16(1):5067. doi: 10.1038/s41467-025-60175-9.
5
ProTaxoVis-protein taxonomic visualisation of presence.ProTaxoVis——蛋白质分类存在情况的可视化
BMC Bioinformatics. 2025 May 19;26(1):128. doi: 10.1186/s12859-025-06146-9.
6
Evaluating the advancements in protein language models for encoding strategies in protein function prediction: a comprehensive review.评估蛋白质语言模型在蛋白质功能预测编码策略方面的进展:全面综述。
Front Bioeng Biotechnol. 2025 Jan 21;13:1506508. doi: 10.3389/fbioe.2025.1506508. eCollection 2025.
7
DIONYSUS: a database of protein-carbohydrate interfaces.狄俄尼索斯:一个蛋白质-碳水化合物界面数据库。
Nucleic Acids Res. 2025 Jan 6;53(D1):D387-D395. doi: 10.1093/nar/gkae890.
8
The chordata olfactory receptor database.脊索动物嗅觉受体数据库。
Protein Cell. 2025 Apr 18;16(4):286-295. doi: 10.1093/procel/pwae050.
9
SpanSeq: similarity-based sequence data splitting method for improved development and assessment of deep learning projects.SpanSeq:基于相似度的序列数据分割方法,用于改进深度学习项目的开发与评估。
NAR Genom Bioinform. 2024 Aug 16;6(3):lqae106. doi: 10.1093/nargab/lqae106. eCollection 2024 Sep.
10
The genomes of all lungfish inform on genome expansion and tetrapod evolution.所有肺鱼的基因组都为基因组扩张和四足动物进化提供了信息。
Nature. 2024 Oct;634(8032):96-103. doi: 10.1038/s41586-024-07830-1. Epub 2024 Aug 14.
Nucleic Acids Res. 2014 Jan;42(Database issue):D222-30. doi: 10.1093/nar/gkt1223. Epub 2013 Nov 27.
4
Adjusting scoring matrices to correct overextended alignments.调整评分矩阵以纠正过度延伸的比对。
Bioinformatics. 2013 Dec 1;29(23):3007-13. doi: 10.1093/bioinformatics/btt517. Epub 2013 Aug 31.
5
Accelerated Profile HMM Searches.加速轮廓隐马尔可夫模型搜索。
PLoS Comput Biol. 2011 Oct;7(10):e1002195. doi: 10.1371/journal.pcbi.1002195. Epub 2011 Oct 20.
6
HMMER web server: interactive sequence similarity searching.HMMER 网页服务器:交互式序列相似性搜索。
Nucleic Acids Res. 2011 Jul;39(Web Server issue):W29-37. doi: 10.1093/nar/gkr367. Epub 2011 May 18.
7
RefProtDom: a protein database with improved domain boundaries and homology relationships.RefProtDom:一个具有改进的结构域边界和同源关系的蛋白质数据库。
Bioinformatics. 2010 Sep 15;26(18):2361-2. doi: 10.1093/bioinformatics/btq426. Epub 2010 Aug 6.
8
Striped Smith-Waterman speeds database searches six times over other SIMD implementations.条纹史密斯-沃特曼算法在数据库搜索速度上比其他单指令多数据(SIMD)实现快六倍。
Bioinformatics. 2007 Jan 15;23(2):156-61. doi: 10.1093/bioinformatics/btl582. Epub 2006 Nov 16.
9
Empirical determination of effective gap penalties for sequence comparison.序列比对中有效空位罚分的经验性确定。
Bioinformatics. 2002 Nov;18(11):1500-7. doi: 10.1093/bioinformatics/18.11.1500.
10
Performance evaluation of a new algorithm for the detection of remote homologs with sequence comparison.一种用于通过序列比较检测远程同源物的新算法的性能评估。
Proteins. 2002 Aug 1;48(2):367-76. doi: 10.1002/prot.10117.