Suppr超能文献

Seqrutinator:对大型蛋白质超家族序列数据集进行仔细检查,以识别和消除非功能同源物。

Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologues.

机构信息

Laboratorio de Procesamiento de Imágenes, ICyTE-CONICET-UNMdP, Mar del Plata, Argentina.

Computational Biology and Comparative Genomics, IIB-CONICET-UNMdP, Mar del Plata, Argentina.

出版信息

Genome Biol. 2024 Aug 26;25(1):230. doi: 10.1186/s13059-024-03371-y.

Abstract

Seqrutinator is an objective, flexible pipeline that removes sequences with sequencing and/or gene model errors and sequences from pseudogenes from complex, eukaryotic protein superfamilies. Testing Seqrutinator on major superfamilies BAHD, CYP, and UGT removes only 1.94% of SwissProt entries, 14% of entries from the model plant Arabidopsis thaliana, but 80% of entries from Pinus taeda's recent complete proteome. Application of Seqrutinator on crude BAHDomes, CYPomes, and UGTomes obtained from 16 plant proteomes shows convergence of the numbers of paralogues. MSAs, phylogenies, and particularly functional clustering improve drastically upon Seqrutinator application, indicating good performance.

摘要

Seqrutinator 是一个客观、灵活的管道,可从复杂的真核蛋白超家族中去除具有测序和/或基因模型错误的序列以及来自假基因的序列。在 BAHD、CYP 和 UGT 等主要超家族上测试 Seqrutinator 仅去除了 1.94%的 SwissProt 条目、14%的拟南芥模式植物条目,但去除了 80%的来自火炬松最近完成的完整蛋白质组的条目。将 Seqrutinator 应用于从 16 种植物蛋白质组中获得的原始 BAHDomes、CYPomes 和 UGTomes 表明,旁系同源物的数量趋于一致。MSA、系统发育,特别是功能聚类在 Seqrutinator 应用后有了显著改善,表明其性能良好。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/99c3/11346255/0b7846e42c3c/13059_2024_3371_Fig1_HTML.jpg

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验