• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

用于 DNA 序列的 WM-q 多重精确字符串匹配算法。

The WM-q multiple exact string matching algorithm for DNA sequences.

机构信息

Department of Computer Engineering, Ege University, Izmir, Turkey.

出版信息

Comput Biol Med. 2021 Sep;136:104656. doi: 10.1016/j.compbiomed.2021.104656. Epub 2021 Jul 17.

DOI:10.1016/j.compbiomed.2021.104656
PMID:34333228
Abstract

The string matching algorithms are among the essential fields in computer science, such as text search, intrusion detection systems, fraud detection, sequence search in bioinformatics. The exact string matching algorithms are divided into two parts: single and multiple. Multiple string matching algorithms involve finding elements of the pattern set P in a given input text T. String matching processes should be done in a time-efficient manner for DNA sequences. As the volume of the text T increases and the number of search patterns increases, the total runtime increases. Efficient algorithms should be selected to perform these search operations as soon as possible. In this study, the Wu-Manber algorithm, one of the multiple exact string matching algorithms, is improved. Although the Wu-Manber algorithm is effective, it has some limitations, such as hash collisions. In this study, the WM-q algorithm, a version of the Wu-Manber algorithm based on the perfect hash function for DNA sequences, is proposed. String matching is performed using different block lengths provided by the perfect hash function instead of using the fixed block length as in the traditional Wu-Manber algorithm. The proposed approach has been compared with E. Coli and Human Chromosome1 datasets, frequently used in the literature, using multiple exact string matching algorithms. The proposed algorithm gives better results for performance metrics such as the average runtime, the average number of characters and hash comparisons.

摘要

串匹配算法是计算机科学中的重要领域之一,例如文本搜索、入侵检测系统、欺诈检测、生物信息学中的序列搜索。确切的串匹配算法分为两类:单模式和多模式。多模式串匹配算法涉及在给定的输入文本 T 中查找模式集 P 的元素。对于 DNA 序列,串匹配过程应该以高效的方式进行。随着文本 T 的体积增加和搜索模式的数量增加,总运行时间会增加。应该选择有效的算法来尽快执行这些搜索操作。在本研究中,改进了多模式精确串匹配算法之一的 Wu-Manber 算法。虽然 Wu-Manber 算法是有效的,但它有一些局限性,例如哈希冲突。在本研究中,提出了基于完美哈希函数的 Wu-Manber 算法的 WM-q 版本,用于 DNA 序列。使用完美哈希函数提供的不同块长度而不是使用传统 Wu-Manber 算法中的固定块长度来执行串匹配。使用多模式精确串匹配算法,将所提出的方法与文献中常用的 E. Coli 和 Human Chromosome1 数据集进行了比较。对于平均运行时间、平均字符数和哈希比较等性能指标,所提出的算法给出了更好的结果。

相似文献

1
The WM-q multiple exact string matching algorithm for DNA sequences.用于 DNA 序列的 WM-q 多重精确字符串匹配算法。
Comput Biol Med. 2021 Sep;136:104656. doi: 10.1016/j.compbiomed.2021.104656. Epub 2021 Jul 17.
2
Improving hash-q exact string matching algorithm with perfect hashing for DNA sequences.利用完美哈希提高 DNA 序列的哈希-Q 精确字符串匹配算法。
Comput Biol Med. 2021 Apr;131:104292. doi: 10.1016/j.compbiomed.2021.104292. Epub 2021 Feb 22.
3
Encoded expansion: an efficient algorithm to discover identical string motifs.编码扩展:一种发现相同字符串基序的高效算法。
PLoS One. 2014 May 28;9(5):e95148. doi: 10.1371/journal.pone.0095148. eCollection 2014.
4
Fast exact string pattern-matching algorithms adapted to the characteristics of the medical language.适应医学语言特点的快速精确字符串模式匹配算法。
J Am Med Inform Assoc. 2000 Jul-Aug;7(4):378-91. doi: 10.1136/jamia.2000.0070378.
5
A parallel approximate string matching under Levenshtein distance on graphics processing units using warp-shuffle operations.一种在图形处理单元上使用 warp 混洗操作的基于莱文斯坦距离的并行近似字符串匹配。
PLoS One. 2017 Oct 10;12(10):e0186251. doi: 10.1371/journal.pone.0186251. eCollection 2017.
6
libFLASM: a software library for fixed-length approximate string matching.libFLASM:一个用于固定长度近似字符串匹配的软件库。
BMC Bioinformatics. 2016 Nov 10;17(1):454. doi: 10.1186/s12859-016-1320-2.
7
Entropy-Based Approach in Selection Exact String-Matching Algorithms.基于熵的精确字符串匹配算法选择方法。
Entropy (Basel). 2020 Dec 28;23(1):31. doi: 10.3390/e23010031.
8
A multi-pattern hash-binary hybrid algorithm for URL matching in the HTTP protocol.一种用于HTTP协议中URL匹配的多模式哈希-二进制混合算法。
PLoS One. 2017 Apr 11;12(4):e0175500. doi: 10.1371/journal.pone.0175500. eCollection 2017.
9
Optimization and Performance Analysis of CAT Method for DNA Sequence Similarity Searching and Alignment.CAT 方法在 DNA 序列相似性搜索和比对中的优化与性能分析。
Genes (Basel). 2024 Mar 7;15(3):341. doi: 10.3390/genes15030341.
10
FASTPAT: a fast and efficient algorithm for string searching in DNA sequences.FASTPAT:一种用于在DNA序列中进行字符串搜索的快速高效算法。
Comput Appl Biosci. 1993 Oct;9(5):541-5. doi: 10.1093/bioinformatics/9.5.541.

引用本文的文献

1
A Systematic Review of the Use of T-Pattern and T-String Analysis (TPA) With Theme: An Analysis Using Mixed Methods and Data Mining Techniques.主题为T模式和T字符串分析(TPA)应用的系统评价:采用混合方法和数据挖掘技术的分析
Front Psychol. 2022 Jul 22;13:943907. doi: 10.3389/fpsyg.2022.943907. eCollection 2022.
2
PredMHC: An Effective Predictor of Major Histocompatibility Complex Using Mixed Features.PredMHC:一种使用混合特征的主要组织相容性复合体有效预测器。
Front Genet. 2022 Apr 25;13:875112. doi: 10.3389/fgene.2022.875112. eCollection 2022.