• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

探索基于编辑距离的 motif 搜索的可扩展并行化。

Exploring Scalable Parallelization for Edit Distance-Based Motif Search.

出版信息

IEEE/ACM Trans Comput Biol Bioinform. 2023 Mar-Apr;20(2):1587-1593. doi: 10.1109/TCBB.2022.3208867.

DOI:10.1109/TCBB.2022.3208867
PMID:37815943
Abstract

Motif Searching is an important problem that can reveal crucial information from biological data. Since the general motif searching is NP-hard and the volume of biological data is growing exponentially in recent years, there is a pressing need for developing time and space-efficient algorithms to find motifs. In this paper, we explore scalable parallelization for Edit Distance-Based Motif Search (EMS). We introduce two parallel designs, recursEMS which integrates the existing EMS solver into a parallel recursion tree running in multiple processes, and parEMS that presents a novel thread-based method which avoids the storage of redundant motif candidates. To make the parallel designs practical, we implement SPEMS, a Scalability-sensitive Parallel solver for EMS. For any given biological dataset and search instance, SPEMS can provide an EMS parallelization towards the optimal performance, or a sub-optimal performance but being more space efficient. Evaluations on two real-world DNA dataset TRANSFAC and ChIP-seq show that SPEMS can obtain 10× geometric mean speedup over the state-of-the-art at the expense of no less than 74.7% memory overheads, or provide 2.2× geometric mean speedup with the possibility of consuming less memory, when running on a 48-core machine.

摘要

模体搜索是一个重要的问题,可以从生物数据中揭示关键信息。由于一般的模体搜索是 NP 难问题,并且近年来生物数据的数量呈指数级增长,因此迫切需要开发时间和空间效率高的算法来寻找模体。在本文中,我们探索了基于编辑距离的模体搜索(EMS)的可扩展并行化。我们引入了两种并行设计,recursEMS 将现有的 EMS 求解器集成到多个进程中运行的并行递归树中,parEMS 提出了一种新的基于线程的方法,避免了冗余模体候选的存储。为了使并行设计实用化,我们实现了 SPEMS,这是一种针对 EMS 的可扩展并行求解器。对于任何给定的生物数据集和搜索实例,SPEMS 都可以提供 EMS 并行化,以实现最佳性能,或者提供次优性能但更节省空间。在两个真实的 DNA 数据集 TRANSFAC 和 ChIP-seq 上的评估表明,SPEMS 可以在不超过 74.7%的内存开销的情况下,获得比最先进的方法快 10 倍的几何平均加速,或者在可能消耗更少内存的情况下提供 2.2 倍的几何平均加速,当在 48 核机器上运行时。

相似文献

1
Exploring Scalable Parallelization for Edit Distance-Based Motif Search.探索基于编辑距离的 motif 搜索的可扩展并行化。
IEEE/ACM Trans Comput Biol Bioinform. 2023 Mar-Apr;20(2):1587-1593. doi: 10.1109/TCBB.2022.3208867.
2
Efficient sequential and parallel algorithms for finding edit distance based motifs.用于查找基于编辑距离的基序的高效顺序和并行算法。
BMC Genomics. 2016 Aug 18;17 Suppl 4(Suppl 4):465. doi: 10.1186/s12864-016-2789-9.
3
EMS3: An Improved Algorithm for Finding Edit-Distance Based Motifs.EMS3:一种用于寻找基于编辑距离的基序的改进算法。
IEEE/ACM Trans Comput Biol Bioinform. 2021 Jan-Feb;18(1):27-37. doi: 10.1109/TCBB.2020.3024222. Epub 2021 Feb 3.
4
A hybrid method for the exact planted (l, d) motif finding problem and its parallelization.用于精确种植 (l, d) 模式问题的混合方法及其并行化。
BMC Bioinformatics. 2012;13 Suppl 17(Suppl 17):S10. doi: 10.1186/1471-2105-13-S17-S10. Epub 2012 Dec 13.
5
Novel algorithms for LDD motif search.新型 LDD 基序搜索算法。
BMC Genomics. 2019 Jun 6;20(Suppl 5):424. doi: 10.1186/s12864-019-5701-6.
6
Efficient sequential and parallel algorithms for planted motif search.高效的序列和并行算法,用于种植模式搜索。
BMC Bioinformatics. 2014 Jan 31;15:34. doi: 10.1186/1471-2105-15-34.
7
A Practical and Scalable Tool to Find Overlaps between Sequences.一种用于查找序列间重叠部分的实用且可扩展的工具。
Biomed Res Int. 2015;2015:905261. doi: 10.1155/2015/905261. Epub 2015 Apr 19.
8
DiNAMO: highly sensitive DNA motif discovery in high-throughput sequencing data.DiNAMO:高通量测序数据中高度敏感的 DNA 基序发现。
BMC Bioinformatics. 2018 Jun 11;19(1):223. doi: 10.1186/s12859-018-2215-1.
9
A clique-based method for the edit distance between unordered trees and its application to analysis of glycan structures.基于团的无序树编辑距离方法及其在聚糖结构分析中的应用。
BMC Bioinformatics. 2011 Feb 15;12 Suppl 1(Suppl 1):S13. doi: 10.1186/1471-2105-12-S1-S13.
10
A speedup technique for (l, d)-motif finding algorithms.一种用于(l,d)基序查找算法的加速技术。
BMC Res Notes. 2011 Mar 8;4:54. doi: 10.1186/1756-0500-4-54.

引用本文的文献

1
Optimizing resource utilization for large scale problems through architecture aware scheduling.通过架构感知调度优化大规模问题的资源利用。
Sci Rep. 2024 Nov 1;14(1):26356. doi: 10.1038/s41598-024-75711-8.