• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

ntHash:递归核苷酸哈希

ntHash: recursive nucleotide hashing.

作者信息

Mohamadi Hamid, Chu Justin, Vandervalk Benjamin P, Birol Inanc

机构信息

Canada's Michael Smith Genome Sciences Centre, British Columbia Cancer Agency, Vancouver, BC V5Z 4S6, Canada.

出版信息

Bioinformatics. 2016 Nov 15;32(22):3492-3494. doi: 10.1093/bioinformatics/btw397. Epub 2016 Jul 16.

DOI:10.1093/bioinformatics/btw397
PMID:27423894
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC5181554/
Abstract

MOTIVATION

Hashing has been widely used for indexing, querying and rapid similarity search in many bioinformatics applications, including sequence alignment, genome and transcriptome assembly, k-mer counting and error correction. Hence, expediting hashing operations would have a substantial impact in the field, making bioinformatics applications faster and more efficient.

RESULTS

We present ntHash, a hashing algorithm tuned for processing DNA/RNA sequences. It performs the best when calculating hash values for adjacent k-mers in an input sequence, operating an order of magnitude faster than the best performing alternatives in typical use cases.

AVAILABILITY AND IMPLEMENTATION

ntHash is available online at http://www.bcgsc.ca/platform/bioinfo/software/nthash and is free for academic use.

CONTACTS

hmohamadi@bcgsc.ca or ibirol@bcgsc.caSupplementary information: Supplementary data are available at Bioinformatics online.

摘要

动机

哈希已广泛应用于许多生物信息学应用中的索引、查询和快速相似性搜索,包括序列比对、基因组和转录组组装、k-mer计数和错误校正。因此,加速哈希运算将对该领域产生重大影响,使生物信息学应用更快、更高效。

结果

我们提出了ntHash,一种针对处理DNA/RNA序列进行优化的哈希算法。在为输入序列中的相邻k-mer计算哈希值时,它表现最佳,在典型用例中比性能最佳的替代方案快一个数量级。

可用性和实现方式

ntHash可在http://www.bcgsc.ca/platform/bioinfo/software/nthash在线获取,供学术使用免费。

联系方式

hmohamadi@bcgsc.ca或ibirol@bcgsc.ca

补充信息

补充数据可在《生物信息学》在线获取。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f914/5181554/18519c51fe8a/btw397f1p.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f914/5181554/18519c51fe8a/btw397f1p.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f914/5181554/18519c51fe8a/btw397f1p.jpg

相似文献

1
ntHash: recursive nucleotide hashing.ntHash:递归核苷酸哈希
Bioinformatics. 2016 Nov 15;32(22):3492-3494. doi: 10.1093/bioinformatics/btw397. Epub 2016 Jul 16.
2
ntHash2: recursive spaced seed hashing for nucleotide sequences.ntHash2:核苷酸序列的递归间隔种子哈希。
Bioinformatics. 2022 Oct 14;38(20):4812-4813. doi: 10.1093/bioinformatics/btac564.
3
ntCard: a streaming algorithm for cardinality estimation in genomics data.ntCard:一种用于基因组数据基数估计的流算法。
Bioinformatics. 2017 May 1;33(9):1324-1330. doi: 10.1093/bioinformatics/btw832.
4
aaHash: recursive amino acid sequence hashing.氨基酸哈希值:递归氨基酸序列哈希法。
bioRxiv. 2023 May 10:2023.05.08.539909. doi: 10.1101/2023.05.08.539909.
5
aaHash: recursive amino acid sequence hashing.氨基酸哈希值:递归氨基酸序列哈希法。
Bioinform Adv. 2023 Nov 11;3(1):vbad162. doi: 10.1093/bioadv/vbad162. eCollection 2023.
6
FSH: fast spaced seed hashing exploiting adjacent hashes.FSH:利用相邻哈希的快速间隔种子哈希
Algorithms Mol Biol. 2018 Mar 22;13:8. doi: 10.1186/s13015-018-0125-4. eCollection 2018.
7
KCMBT: a k-mer Counter based on Multiple Burst Trees.KCMBT:一种基于多重突发树的k-mer计数器。
Bioinformatics. 2016 Sep 15;32(18):2783-90. doi: 10.1093/bioinformatics/btw345. Epub 2016 Jun 9.
8
Squeakr: an exact and approximate k-mer counting system.Squeakr:一种精确和近似的 k-mer 计数系统。
Bioinformatics. 2018 Feb 15;34(4):568-575. doi: 10.1093/bioinformatics/btx636.
9
kmcEx: memory-frugal and retrieval-efficient encoding of counted k-mers.kmcEx:用于计数 k-mer 的节省内存和高效检索的编码。
Bioinformatics. 2019 Dec 1;35(23):4871-4878. doi: 10.1093/bioinformatics/btz299.
10
Locality-sensitive hashing for the edit distance.基于编辑距离的位置敏感哈希
Bioinformatics. 2019 Jul 15;35(14):i127-i135. doi: 10.1093/bioinformatics/btz354.

引用本文的文献

1
Fast and flexible minimizer digestion with digest.使用digest进行快速灵活的最小化酶切。
Bioinformatics. 2025 Jul 1;41(7). doi: 10.1093/bioinformatics/btaf368.
2
AlfaPang: alignment free algorithm for pangenome graph construction.AlfaPang:用于构建泛基因组图的无比对算法。
Algorithms Mol Biol. 2025 May 15;20(1):7. doi: 10.1186/s13015-025-00277-7.
3
The open-closed mod-minimizer algorithm.开闭模极小化算法。
Algorithms Mol Biol. 2025 Mar 17;20(1):4. doi: 10.1186/s13015-025-00270-0.
4
Fast and flexible minimizer digestion with digest.使用digest进行快速灵活的最小化消化。
bioRxiv. 2025 Jan 8:2025.01.02.631161. doi: 10.1101/2025.01.02.631161.
5
dna2bit: high performance genomic distance estimation software for microbial genome analysis.dna2bit:用于微生物基因组分析的高性能基因组距离估计软件。
Front Microbiol. 2024 Dec 23;15:1521181. doi: 10.3389/fmicb.2024.1521181. eCollection 2024.
6
Seamless, rapid, and accurate analyses of outbreak genomic data using split -mer analysis.利用分拆分析实现爆发基因组数据的无缝、快速和准确分析。
Genome Res. 2024 Oct 29;34(10):1661-1673. doi: 10.1101/gr.279449.124.
7
Designing efficient randstrobes for sequence similarity analyses.设计用于序列相似性分析的高效随机频闪仪。
Bioinformatics. 2024 Mar 29;40(4). doi: 10.1093/bioinformatics/btae187.
8
A simple refined DNA minimizer operator enables 2-fold faster computation.一个简单的改进 DNA 简化操作符可以使计算速度提高 2 倍。
Bioinformatics. 2024 Feb 1;40(2). doi: 10.1093/bioinformatics/btae045.
9
On the Maximal Independent Sets of -mers with the Edit Distance.关于具有编辑距离的 - 聚体的最大独立集
ACM BCB. 2023 Sep;2023. doi: 10.1145/3584371.3612982. Epub 2023 Oct 4.
10
aaHash: recursive amino acid sequence hashing.氨基酸哈希值:递归氨基酸序列哈希法。
Bioinform Adv. 2023 Nov 11;3(1):vbad162. doi: 10.1093/bioadv/vbad162. eCollection 2023.