• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

在大型 DNA 序列数据集上进行种植基序搜索的高效精确算法。

An Efficient Exact Algorithm for Planted Motif Search on Large DNA Sequence Datasets.

出版信息

IEEE/ACM Trans Comput Biol Bioinform. 2024 Sep-Oct;21(5):1542-1551. doi: 10.1109/TCBB.2024.3404136. Epub 2024 Oct 9.

DOI:10.1109/TCBB.2024.3404136
PMID:38801693
Abstract

DNA motif is the pattern shared by similar fragments in DNA sequences, which plays a key role in regulating gene expression, and DNA motif discovery has become a key research topic. Exact planted ( l, d )-motif search (PMS) is one of the motif discovery approaches, which aims to find from t sequences all the ( l, d )-motifs that are motifs of l length appearing in at least qt sequences with at most d mismatches. The existing exact PMS algorithms are only suitable for small datasets of DNA sequences. The development of high-throughput sequencing technology generates vast amount of DNA sequence data, which brings challenges to solving exact PMS problems efficiently. Therefore, we propose an efficient exact PMS algorithm called PMmotif for large datasets of DNA sequences, after analyzing the time complexity of the existing exact PMS algorithms. PMmotif finds ( l, d )-motifs with strategy by searching the branches on the pattern tree that may contain ( l, d )-motifs. It is verified by experiments that the running time ratio of some existing excellent PMS algorithms to PMmotif is between 14.83 and 58.94. In addition, for the first time, PMmotif can solve the ( 15,5 )and ( 17,6 ) challenge problem instances on large DNA sequence datasets (3000 sequences of length 200) within 24 hours.

摘要

DNA 基序是 DNA 序列中相似片段所共有的模式,在基因表达调控中起着关键作用,因此 DNA 基序发现已成为一个关键的研究课题。精确种植(l,d)-基序搜索(PMS)是基序发现方法之一,旨在从 t 个序列中找到所有(l,d)-基序,这些基序是长度为 l 的基序,出现在至少 qt 个序列中,且最多有 d 个错配。现有的精确 PMS 算法仅适用于小型 DNA 序列数据集。高通量测序技术的发展产生了大量的 DNA 序列数据,这给高效解决精确 PMS 问题带来了挑战。因此,我们提出了一种名为 PMmotif 的高效精确 PMS 算法,用于大型 DNA 序列数据集,在分析了现有的精确 PMS 算法的时间复杂度之后。PMmotif 通过在模式树的分支上搜索可能包含(l,d)-基序的策略来找到(l,d)-基序。实验验证了一些现有优秀 PMS 算法与 PMmotif 的运行时间比在 14.83 到 58.94 之间。此外,PMmotif 首次可以在 24 小时内解决大型 DNA 序列数据集(长度为 200 的 3000 个序列)上的(15,5)和(17,6)挑战问题实例。

相似文献

1
An Efficient Exact Algorithm for Planted Motif Search on Large DNA Sequence Datasets.在大型 DNA 序列数据集上进行种植基序搜索的高效精确算法。
IEEE/ACM Trans Comput Biol Bioinform. 2024 Sep-Oct;21(5):1542-1551. doi: 10.1109/TCBB.2024.3404136. Epub 2024 Oct 9.
2
SamSelect: a sample sequence selection algorithm for quorum planted motif search on large DNA datasets.SamSelect:一种用于在大型 DNA 数据集上进行约定种植基序搜索的样本序列选择算法。
BMC Bioinformatics. 2018 Jun 18;19(1):228. doi: 10.1186/s12859-018-2242-y.
3
Efficient sequential and parallel algorithms for planted motif search.高效的序列和并行算法,用于种植模式搜索。
BMC Bioinformatics. 2014 Jan 31;15:34. doi: 10.1186/1471-2105-15-34.
4
Improved Exact Enumerative Algorithms for the Planted (l, d)-Motif Search Problem.用于植入式(l, d)基序搜索问题的改进精确枚举算法。
IEEE/ACM Trans Comput Biol Bioinform. 2014 Mar-Apr;11(2):361-74. doi: 10.1109/TCBB.2014.2306842.
5
Efficient sequential and parallel algorithms for finding edit distance based motifs.用于查找基于编辑距离的基序的高效顺序和并行算法。
BMC Genomics. 2016 Aug 18;17 Suppl 4(Suppl 4):465. doi: 10.1186/s12864-016-2789-9.
6
PairMotif: A new pattern-driven algorithm for planted (l, d) DNA motif search.PairMotif:一种新的基于模式驱动的算法,用于搜索(l,d)DNA 基序。
PLoS One. 2012;7(10):e48442. doi: 10.1371/journal.pone.0048442. Epub 2012 Oct 31.
7
PMS5: an efficient exact algorithm for the (ℓ, d)-motif finding problem.PMS5:(ℓ,d)-基序发现问题的高效精确算法。
BMC Bioinformatics. 2011 Oct 24;12:410. doi: 10.1186/1471-2105-12-410.
8
An Efficient Algorithm for Discovering Motifs in Large DNA Data Sets.一种在大型DNA数据集中发现基序的高效算法。
IEEE Trans Nanobioscience. 2015 Jul;14(5):535-44. doi: 10.1109/TNB.2015.2421340. Epub 2015 Apr 9.
9
A hybrid method for the exact planted (l, d) motif finding problem and its parallelization.用于精确种植 (l, d) 模式问题的混合方法及其并行化。
BMC Bioinformatics. 2012;13 Suppl 17(Suppl 17):S10. doi: 10.1186/1471-2105-13-S17-S10. Epub 2012 Dec 13.
10
RefSelect: a reference sequence selection algorithm for planted (l, d) motif search.RefSelect:一种用于植入(l,d)基序搜索的参考序列选择算法。
BMC Bioinformatics. 2016 Jul 19;17 Suppl 9(Suppl 9):266. doi: 10.1186/s12859-016-1130-6.