• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

氨基酸哈希值:递归氨基酸序列哈希法。

aaHash: recursive amino acid sequence hashing.

作者信息

Wong Johnathan, Kazemi Parham, Coombe Lauren, Warren René L, Birol Inanç

机构信息

Canada's Michael Smith Genome Sciences Centre, BC Cancer, Vancouver, BC V5Z 4S6, Canada.

出版信息

bioRxiv. 2023 May 10:2023.05.08.539909. doi: 10.1101/2023.05.08.539909.

DOI:10.1101/2023.05.08.539909
PMID:37214907
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC10197579/
Abstract

MOTIVATION

-mer hashing is a common operation in many foundational bioinformatics problems. However, generic string hashing algorithms are not optimized for this application. Strings in bioinformatics use specific alphabets, a trait leveraged for nucleic acid sequences in earlier work. We note that amino acid sequences, with complexities and context that cannot be captured by generic hashing algorithms, can also benefit from a domain-specific hashing algorithm. Such a hashing algorithm can accelerate and improve the sensitivity of bioinformatics applications developed for protein sequences.

RESULTS

Here, we present aaHash, a recursive hashing algorithm tailored for amino acid sequences. This algorithm utilizes multiple hash levels to represent biochemical similarities between amino acids. aaHash performs ~10X faster than generic string hashing algorithms in hashing adjacent -mers.

AVAILABILITY AND IMPLEMENTATION

aaHash is available online at https://github.com/bcgsc/btllib and is free for academic use.

摘要

动机

-mer哈希是许多基础生物信息学问题中的常见操作。然而,通用字符串哈希算法并未针对此应用进行优化。生物信息学中的字符串使用特定字母表,这一特性在早期工作中已被用于核酸序列。我们注意到,氨基酸序列具有通用哈希算法无法捕捉的复杂性和上下文信息,也能从特定领域的哈希算法中受益。这样的哈希算法可以加速并提高针对蛋白质序列开发的生物信息学应用的灵敏度。

结果

在此,我们提出了aaHash,一种专为氨基酸序列量身定制的递归哈希算法。该算法利用多个哈希级别来表示氨基酸之间的生化相似性。在对相邻-mer进行哈希时,aaHash的执行速度比通用字符串哈希算法快约10倍。

可用性与实现

aaHash可在https://github.com/bcgsc/btllib上在线获取,供学术使用免费。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/dc1f/10197579/705ae2a52c6d/nihpp-2023.05.08.539909v1-f0001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/dc1f/10197579/705ae2a52c6d/nihpp-2023.05.08.539909v1-f0001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/dc1f/10197579/705ae2a52c6d/nihpp-2023.05.08.539909v1-f0001.jpg

相似文献

1
aaHash: recursive amino acid sequence hashing.氨基酸哈希值:递归氨基酸序列哈希法。
bioRxiv. 2023 May 10:2023.05.08.539909. doi: 10.1101/2023.05.08.539909.
2
aaHash: recursive amino acid sequence hashing.氨基酸哈希值:递归氨基酸序列哈希法。
Bioinform Adv. 2023 Nov 11;3(1):vbad162. doi: 10.1093/bioadv/vbad162. eCollection 2023.
3
ntHash: recursive nucleotide hashing.ntHash:递归核苷酸哈希
Bioinformatics. 2016 Nov 15;32(22):3492-3494. doi: 10.1093/bioinformatics/btw397. Epub 2016 Jul 16.
4
ntHash2: recursive spaced seed hashing for nucleotide sequences.ntHash2:核苷酸序列的递归间隔种子哈希。
Bioinformatics. 2022 Oct 14;38(20):4812-4813. doi: 10.1093/bioinformatics/btac564.
5
Iterative Spaced Seed Hashing: Closing the Gap Between Spaced Seed Hashing and -mer Hashing.迭代间隔种子哈希:缩小间隔种子哈希与k-mer哈希之间的差距。
J Comput Biol. 2020 Feb;27(2):223-233. doi: 10.1089/cmb.2019.0298. Epub 2019 Dec 4.
6
FSH: fast spaced seed hashing exploiting adjacent hashes.FSH:利用相邻哈希的快速间隔种子哈希
Algorithms Mol Biol. 2018 Mar 22;13:8. doi: 10.1186/s13015-018-0125-4. eCollection 2018.
7
Sparse and skew hashing of K-mers.K- -mer 的稀疏和偏斜哈希。
Bioinformatics. 2022 Jun 24;38(Suppl 1):i185-i194. doi: 10.1093/bioinformatics/btac245.
8
Locality-sensitive hashing for the edit distance.基于编辑距离的位置敏感哈希
Bioinformatics. 2019 Jul 15;35(14):i127-i135. doi: 10.1093/bioinformatics/btz354.
9
ntCard: a streaming algorithm for cardinality estimation in genomics data.ntCard:一种用于基因组数据基数估计的流算法。
Bioinformatics. 2017 May 1;33(9):1324-1330. doi: 10.1093/bioinformatics/btw832.
10
Efficient computation of spaced seed hashing with block indexing.基于块索引的高效间距种子哈希计算。
BMC Bioinformatics. 2018 Nov 30;19(Suppl 15):441. doi: 10.1186/s12859-018-2415-8.