• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

基于氨基酸k聚体的灵活蛋白质数据库。

Flexible protein database based on amino acid k-mers.

作者信息

Déraspe Maxime, Boisvert Sébastien, Laviolette François, Roy Paul H, Corbeil Jacques

机构信息

Department of Molecular Medicine, Université Laval, Quebec, Canada.

Big Data Research Center, Université Laval, Quebec, Canada.

出版信息

Sci Rep. 2022 Jun 1;12(1):9101. doi: 10.1038/s41598-022-12843-9.

DOI:10.1038/s41598-022-12843-9
PMID:35650262
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC9160020/
Abstract

Identification of proteins is one of the most computationally intensive steps in genomics studies. It usually relies on aligners that do not accommodate rich information on proteins and require additional pipelining steps for protein identification. We introduce kAAmer, a protein database engine based on amino-acid k-mers that provides efficient identification of proteins while supporting the incorporation of flexible annotations on these proteins. Moreover, the database is built to be used as a microservice, to be hosted and queried remotely.

摘要

蛋白质鉴定是基因组学研究中计算量最大的步骤之一。它通常依赖于比对工具,这些工具无法容纳丰富的蛋白质信息,并且需要额外的流水线步骤来进行蛋白质鉴定。我们引入了kAAmer,这是一种基于氨基酸k聚体的蛋白质数据库引擎,它能在支持对这些蛋白质进行灵活注释的同时,高效地鉴定蛋白质。此外,该数据库被构建为一个微服务,可以远程托管和查询。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3d6a/9160020/cfed7cb196c0/41598_2022_12843_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3d6a/9160020/cfed7cb196c0/41598_2022_12843_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3d6a/9160020/cfed7cb196c0/41598_2022_12843_Fig1_HTML.jpg

相似文献

1
Flexible protein database based on amino acid k-mers.基于氨基酸k聚体的灵活蛋白质数据库。
Sci Rep. 2022 Jun 1;12(1):9101. doi: 10.1038/s41598-022-12843-9.
2
Real time metagenomics: using k-mers to annotate metagenomes.实时宏基因组学:使用 k- -mer 对宏基因组进行注释。
Bioinformatics. 2012 Dec 15;28(24):3316-7. doi: 10.1093/bioinformatics/bts599. Epub 2012 Oct 9.
3
Joker de Bruijn: Covering k-Mers Using Joker Characters.乔克·德·布鲁因:使用小丑字符覆盖k元子串
J Comput Biol. 2018 Nov;25(11):1171-1178. doi: 10.1089/cmb.2018.0032. Epub 2018 Aug 17.
4
Database Creator for Mass Analysis of Peptides and Proteins, DC-MAPP: A Standalone Tool for Simplifying Manual Analysis of Mass Spectral Data to Identify Peptide/Protein Sequences.数据库创建工具用于肽和蛋白质的质量分析,简称 DC-MAPP:一种简化手动分析质谱数据以识别肽/蛋白质序列的独立工具。
J Am Soc Mass Spectrom. 2023 Sep 6;34(9):1962-1969. doi: 10.1021/jasms.3c00030. Epub 2023 Aug 1.
5
Comparative database search engine analysis on massive tandem mass spectra of pork-based food products for halal proteomics.基于猪肉的食品清真蛋白质组学大规模串联质谱的比较数据库搜索引擎分析
J Proteomics. 2021 Jun 15;241:104240. doi: 10.1016/j.jprot.2021.104240. Epub 2021 Apr 21.
6
Algorithms for database-dependent search of MS/MS data.用于基于数据库搜索MS/MS数据的算法。
Methods Mol Biol. 2013;1007:119-38. doi: 10.1007/978-1-62703-392-3_5.
7
transAlign: using amino acids to facilitate the multiple alignment of protein-coding DNA sequences.transAlign:利用氨基酸促进蛋白质编码DNA序列的多重比对。
BMC Bioinformatics. 2005 Jun 22;6:156. doi: 10.1186/1471-2105-6-156.
8
Comet: an open-source MS/MS sequence database search tool.彗星:一个开源的 MS/MS 序列数据库搜索工具。
Proteomics. 2013 Jan;13(1):22-4. doi: 10.1002/pmic.201200439. Epub 2012 Dec 4.
9
kmcEx: memory-frugal and retrieval-efficient encoding of counted k-mers.kmcEx:用于计数 k-mer 的节省内存和高效检索的编码。
Bioinformatics. 2019 Dec 1;35(23):4871-4878. doi: 10.1093/bioinformatics/btz299.
10
Recombination spot identification Based on gapped k-mers.基于缺口 k- -mer 的重组位点识别。
Sci Rep. 2016 Mar 31;6:23934. doi: 10.1038/srep23934.

引用本文的文献

1
Missing microbial eukaryotes and misleading meta-omic conclusions.缺失的微生物真核生物和误导性的宏基因组学结论。
Nat Commun. 2024 Nov 14;15(1):9873. doi: 10.1038/s41467-024-52212-w.
2
aaHash: recursive amino acid sequence hashing.氨基酸哈希值:递归氨基酸序列哈希法。
Bioinform Adv. 2023 Nov 11;3(1):vbad162. doi: 10.1093/bioadv/vbad162. eCollection 2023.

本文引用的文献

1
MGnify: the microbiome analysis resource in 2020.MGnify:2020 年的微生物组分析资源。
Nucleic Acids Res. 2020 Jan 8;48(D1):D570-D578. doi: 10.1093/nar/gkz1035.
2
CARD 2020: antibiotic resistome surveillance with the comprehensive antibiotic resistance database.CARD 2020:利用综合抗生素耐药数据库进行抗生素耐药组监测。
Nucleic Acids Res. 2020 Jan 8;48(D1):D517-D525. doi: 10.1093/nar/gkz935.
3
Validating the AMRFinder Tool and Resistance Gene Database by Using Antimicrobial Resistance Genotype-Phenotype Correlations in a Collection of Isolates.
通过在分离株集合中使用抗生素耐药基因型-表型相关性来验证 AMRFinder 工具和耐药基因数据库。
Antimicrob Agents Chemother. 2019 Oct 22;63(11). doi: 10.1128/AAC.00483-19. Print 2019 Nov.
4
Sequenceserver: A Modern Graphical User Interface for Custom BLAST Databases.序列服务器:用于定制 BLAST 数据库的现代图形用户界面。
Mol Biol Evol. 2019 Dec 1;36(12):2922-2924. doi: 10.1093/molbev/msz185.
5
UniProt: a worldwide hub of protein knowledge.UniProt:蛋白质知识的全球枢纽。
Nucleic Acids Res. 2019 Jan 8;47(D1):D506-D515. doi: 10.1093/nar/gky1049.
6
Fast batch searching for protein homology based on compression and clustering.基于压缩和聚类的蛋白质同源性快速批量搜索
BMC Bioinformatics. 2017 Nov 21;18(1):508. doi: 10.1186/s12859-017-1938-8.
7
MMseqs2 enables sensitive protein sequence searching for the analysis of massive data sets.MMseqs2支持进行灵敏的蛋白质序列搜索,以分析海量数据集。
Nat Biotechnol. 2017 Nov;35(11):1026-1028. doi: 10.1038/nbt.3988. Epub 2017 Oct 16.
8
Complete Genome of a Panresistant Strain, Isolated from a Patient with Respiratory Failure in a Canadian Community Hospital.从加拿大一家社区医院一名呼吸衰竭患者身上分离出的泛耐药菌株的全基因组
Genome Announc. 2017 Jun 1;5(22):e00458-17. doi: 10.1128/genomeA.00458-17.
9
Mash: fast genome and metagenome distance estimation using MinHash.Mash:使用MinHash进行快速的基因组和宏基因组距离估计。
Genome Biol. 2016 Jun 20;17(1):132. doi: 10.1186/s13059-016-0997-x.
10
Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation.美国国立生物技术信息中心的参考序列(RefSeq)数据库:当前状态、分类扩展及功能注释。
Nucleic Acids Res. 2016 Jan 4;44(D1):D733-45. doi: 10.1093/nar/gkv1189. Epub 2015 Nov 8.