• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

无损近似模式匹配:高效搜索方案的自动化设计。

Lossless Approximate Pattern Matching: Automated Design of Efficient Search Schemes.

机构信息

Internet Technology and Data Science Lab, Ghent University, Ghent, Belgium.

Center for Bioinformatics Saar, Saarland University, Saarbrücken, Germany.

出版信息

J Comput Biol. 2024 Oct;31(10):975-989. doi: 10.1089/cmb.2024.0664. Epub 2024 Sep 30.

DOI:10.1089/cmb.2024.0664
PMID:39344875
Abstract

This study introduces a pioneering approach to automate the creation of search schemes for lossless approximate pattern matching. Search schemes are combinatorial structures that define a series of searches over a partitioned pattern. Each search specifies the processing order of these parts and the cumulative lower and upper bounds on the number of errors in each part of the pattern. Together, these searches ensure the identification of all approximate occurrences of a search pattern within a predefined limit of errors. While existing literature offers designed schemes for up to = 4 errors, designing search schemes for larger values incurs escalating computational costs. Our method integrates a greedy algorithm and a novel Integer Linear Programming (ILP) formulation to design efficient search schemes for up to = 7 errors. Comparative analyses demonstrate the superiority of our ILP-optimal schemes over alternative strategies in both theoretical and practical contexts. Additionally, we propose a dynamic scheme selection technique tailored to specific search patterns, further enhancing efficiency. Combined, this yields runtime reductions of up to 53% for higher values. To facilitate search scheme generation, we present Hato, an open-source software tool (AGPL-3.0 license) employing the greedy algorithm and utilizing CPLEX for ILP solving. Furthermore, we introduce Columba 1.2, an open-source lossless read-mapper (AGPL-3.0 license) implemented in C++. Columba surpasses existing state-of-the-art tools by identifying all approximate occurrences of 100,000 Illumina reads (150 bp) in the human reference genome within 24 seconds (maximum edit distance of 4) and 75 seconds (maximum edit distance of 6) using a single CPU core. Notably, our study showcases Columba's capability to align 100,000 reads of length 50, with high error rates and up to an edit distance of 7, in a mere 2 hours and 15 minutes. This achievement is unmatched by other lossless aligners, which require over 3 hours for edit distance 5 alignments. Moreover, Columba exhibits a mapping rate four times higher than that of a lossy tool for this dataset.

摘要

这项研究介绍了一种开创性的方法,用于自动创建无损近似模式匹配的搜索方案。搜索方案是组合结构,定义了对分区模式的一系列搜索。每个搜索指定了这些部分的处理顺序,以及模式中每个部分的错误数量的累积下限和上限。这些搜索一起确保在预定义的错误限制内识别搜索模式的所有近似出现。虽然现有文献提供了最多 = 4 个错误的设计方案,但设计 值较大的搜索方案会导致计算成本的增加。我们的方法集成了贪婪算法和新颖的整数线性规划(ILP)公式,用于设计最多可达 = 7 个错误的高效搜索方案。比较分析表明,我们的 ILP 最优方案在理论和实际上下文中都优于替代策略。此外,我们提出了一种针对特定搜索模式的动态方案选择技术,进一步提高了效率。结合使用,这可以为更高的 值减少多达 53%的运行时间。为了促进搜索方案的生成,我们提出了 Hato,这是一个采用贪婪算法并使用 CPLEX 解决 ILP 的开源软件工具(AGPL-3.0 许可证)。此外,我们引入了 Columba 1.2,这是一个用 C++实现的开源无损读映射器(AGPL-3.0 许可证)。Columba 通过在人类参考基因组中在 24 秒(最大编辑距离为 4)和 75 秒(最大编辑距离为 6)内识别 100,000 个 Illumina 读取(150 bp)的所有近似出现,超过了现有的最先进工具。值得注意的是,我们的研究展示了 Columba 在仅仅 2 小时 15 分钟内对齐具有高错误率和高达 7 的编辑距离的 100,000 个长度为 50 的读取的能力,这是其他无损对齐器无法实现的。此外,Columba 对于这个数据集的映射率比有损工具高四倍。

相似文献

1
Lossless Approximate Pattern Matching: Automated Design of Efficient Search Schemes.无损近似模式匹配:高效搜索方案的自动化设计。
J Comput Biol. 2024 Oct;31(10):975-989. doi: 10.1089/cmb.2024.0664. Epub 2024 Sep 30.
2
Dynamic partitioning of search patterns for approximate pattern matching using search schemes.使用搜索方案对近似模式匹配的搜索模式进行动态分区。
iScience. 2021 Jun 10;24(7):102687. doi: 10.1016/j.isci.2021.102687. eCollection 2021 Jul 23.
3
Pan-genome de Bruijn graph using the bidirectional FM-index.基于双向 FM-index 的泛基因组 de Bruijn 图
BMC Bioinformatics. 2023 Oct 26;24(1):400. doi: 10.1186/s12859-023-05531-6.
4
Fast online and index-based algorithms for approximate search of RNA sequence-structure patterns.快速在线和基于索引的算法,用于近似搜索 RNA 序列-结构模式。
BMC Bioinformatics. 2013 Jul 17;14:226. doi: 10.1186/1471-2105-14-226.
5
libFLASM: a software library for fixed-length approximate string matching.libFLASM:一个用于固定长度近似字符串匹配的软件库。
BMC Bioinformatics. 2016 Nov 10;17(1):454. doi: 10.1186/s12859-016-1320-2.
6
Approximate Graph Edit Distance in Quadratic Time.二次时间内的近似图编辑距离。
IEEE/ACM Trans Comput Biol Bioinform. 2020 Mar-Apr;17(2):483-494. doi: 10.1109/TCBB.2015.2478463. Epub 2015 Sep 14.
7
b-move: Faster Lossless Approximate Pattern Matching in a Run-Length Compressed Index.b移动:游程长度压缩索引中的更快无损近似模式匹配
Res Sq. 2024 Nov 18:rs.3.rs-5367343. doi: 10.21203/rs.3.rs-5367343/v1.
8
Improved algorithms for approximate string matching (extended abstract).用于近似字符串匹配的改进算法(扩展摘要)。
BMC Bioinformatics. 2009 Jan 30;10 Suppl 1(Suppl 1):S10. doi: 10.1186/1471-2105-10-S1-S10.
9
SeArcH schemes for Approximate stRing mAtching.近似字符串匹配的搜索方案
NAR Genom Bioinform. 2025 Mar 18;7(1):lqaf025. doi: 10.1093/nargab/lqaf025. eCollection 2025 Mar.
10
A k-mismatch string matching for generalized edit distance using diagonal skipping method.基于对角线跳跃法的广义编辑距离的 k 不匹配字符串匹配。
PLoS One. 2021 May 4;16(5):e0251047. doi: 10.1371/journal.pone.0251047. eCollection 2021.

引用本文的文献

1
b-move: faster lossless approximate pattern matching in a run-length compressed index.b移动:在游程长度压缩索引中实现更快的无损近似模式匹配。
Algorithms Mol Biol. 2025 Aug 12;20(1):15. doi: 10.1186/s13015-025-00281-x.
2
SeArcH schemes for Approximate stRing mAtching.近似字符串匹配的搜索方案
NAR Genom Bioinform. 2025 Mar 18;7(1):lqaf025. doi: 10.1093/nargab/lqaf025. eCollection 2025 Mar.
3
Run-length compressed metagenomic read classification with SMEM-finding and tagging.基于SMEM查找和标记的游程长度压缩宏基因组读取分类
bioRxiv. 2025 Mar 24:2025.02.25.640119. doi: 10.1101/2025.02.25.640119.
4
b-move: Faster Lossless Approximate Pattern Matching in a Run-Length Compressed Index.b移动:游程长度压缩索引中的更快无损近似模式匹配
Res Sq. 2024 Nov 18:rs.3.rs-5367343. doi: 10.21203/rs.3.rs-5367343/v1.
5
b-move: faster bidirectional character extensions in a run-length compressed index.b移动:游程长度压缩索引中更快的双向字符扩展
bioRxiv. 2024 Jun 2:2024.05.30.596587. doi: 10.1101/2024.05.30.596587.