Suppr超能文献

使用 NoBadWordsCombiner 合并和最小化针对多个真核基因注释数据库的 BLAST 命中的“不良词汇”的协议。

Protocol for using NoBadWordsCombiner to merge and minimize "bad words" from BLAST hits against multiple eukaryotic gene annotation databases.

机构信息

Department of Biochemistry and Molecular Biology, Dalhousie University, Halifax, NS B3H 4R2, Canada.

Institute for Comparative Genomics, Dalhousie University, Halifax, NS B3H 4R2, Canada.

出版信息

STAR Protoc. 2021 Oct 16;2(4):100888. doi: 10.1016/j.xpro.2021.100888. eCollection 2021 Dec 17.

Abstract

Annotating protein-coding genes can be challenging, especially when searching for the best hits against multiple functional databases. This is partly because of "bad words" appearing as top hits, such as hypothetical or uncharacterized proteins. To help alleviate some of these issues, we designed a bioinformatics tool called NoBadWordsCombiner, which efficiently merges the hits from various databases, strengthening gene definitions by minimizing functional descriptions containing "bad words." Unlike other available tools, NoBadWordsCombiner is user friendly, but it does require users to have some general bioinformatics skills, including a basic understanding of the BLAST package and dash shell in Linux/Unix environments. For complete details on the use and execution of this protocol, please refer to Zhang et al. (2021a).

摘要

注释蛋白质编码基因可能具有挑战性,特别是在针对多个功能数据库搜索最佳匹配时。这在一定程度上是因为出现了“坏词”作为顶级匹配,例如假设或未表征的蛋白质。为了帮助缓解其中的一些问题,我们设计了一种名为 NoBadWordsCombiner 的生物信息学工具,它可以有效地合并来自各种数据库的命中结果,通过最小化包含“坏词”的功能描述来加强基因定义。与其他可用工具不同,NoBadWordsCombiner 用户友好,但它确实要求用户具备一些一般的生物信息学技能,包括对 BLAST 包和 Linux/Unix 环境中的 dash shell 的基本了解。有关此协议的使用和执行的详细信息,请参阅 Zhang 等人(2021a)。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/acae/8521201/92ea34924f4f/fx1.jpg

相似文献

7
blastjs: a BLAST+ wrapper for Node.js.blastjs:一个用于Node.js的BLAST+包装器。
BMC Res Notes. 2016 Feb 27;9:130. doi: 10.1186/s13104-016-1938-1.
8
Finding similar nucleotide sequences using network BLAST searches.使用网络BLAST搜索寻找相似的核苷酸序列。
Curr Protoc Bioinformatics. 2009 Jun;Chapter 3:3.3.1-3.3.26. doi: 10.1002/0471250953.bi0303s26.

本文引用的文献

2
Draft genome sequence of the Antarctic green alga sp. UWO241.南极绿藻UWO241菌株的基因组序列草图
iScience. 2021 Jan 20;24(2):102084. doi: 10.1016/j.isci.2021.102084. eCollection 2021 Feb 19.
6
A beginner's guide to eukaryotic genome annotation.真核生物基因组注释入门指南。
Nat Rev Genet. 2012 Apr 18;13(5):329-42. doi: 10.1038/nrg3174.
8
InterProScan: protein domains identifier.InterProScan:蛋白质结构域识别工具。
Nucleic Acids Res. 2005 Jul 1;33(Web Server issue):W116-20. doi: 10.1093/nar/gki442.

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验