• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

SamSelect:一种用于在大型 DNA 数据集上进行约定种植基序搜索的样本序列选择算法。

SamSelect: a sample sequence selection algorithm for quorum planted motif search on large DNA datasets.

机构信息

School of Computer Science and Technology, Xidian University, Xi'an, 710071, China.

出版信息

BMC Bioinformatics. 2018 Jun 18;19(1):228. doi: 10.1186/s12859-018-2242-y.

DOI:10.1186/s12859-018-2242-y
PMID:29914360
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC6006848/
Abstract

BACKGROUND

Given a set of t n-length DNA sequences, q satisfying 0 < q ≤ 1, and l and d satisfying 0 ≤ d < l < n, the quorum planted motif search (qPMS) finds l-length strings that occur in at least qt input sequences with up to d mismatches and is mainly used to locate transcription factor binding sites in DNA sequences. Existing qPMS algorithms have been able to efficiently process small standard datasets (e.g., t = 20 and n = 600), but they are too time consuming to process large DNA datasets, such as ChIP-seq datasets that contain thousands of sequences or more.

RESULTS

We analyze the effects of t and q on the time performance of qPMS algorithms and find that a large t or a small q causes a longer computation time. Based on this information, we improve the time performance of existing qPMS algorithms by selecting a sample sequence set D' with a small t and a large q from the large input dataset D and then executing qPMS algorithms on D'. A sample sequence selection algorithm named SamSelect is proposed. The experimental results on both simulated and real data show (1) that SamSelect can select D' efficiently and (2) that the qPMS algorithms executed on D' can find implanted or real motifs in a significantly shorter time than when executed on D.

CONCLUSIONS

We improve the ability of existing qPMS algorithms to process large DNA datasets from the perspective of selecting high-quality sample sequence sets so that the qPMS algorithms can find motifs in a short time in the selected sample sequence set D', rather than take an unfeasibly long time to search the original sequence set D. Our motif discovery method is an approximate algorithm.

摘要

背景

给定一组 t 个 n 长度的 DNA 序列、满足 0<q≤1 的 q 和满足 0≤d<l<n 的 l 和 d,众数种植 motif 搜索(qPMS)查找至少在 qt 个输入序列中出现的 l 长度字符串,这些序列最多有 d 个错配,主要用于在 DNA 序列中定位转录因子结合位点。现有的 qPMS 算法已经能够有效地处理小的标准数据集(例如,t=20 和 n=600),但处理大型 DNA 数据集(如包含数千个或更多序列的 ChIP-seq 数据集)的时间开销太大。

结果

我们分析了 t 和 q 对 qPMS 算法时间性能的影响,发现大的 t 或小的 q 会导致更长的计算时间。基于此信息,我们通过从小的输入数据集 D 中选择一个具有小 t 和大 q 的样本序列集 D',然后在 D'上执行 qPMS 算法,从而改进了现有 qPMS 算法的时间性能。提出了一种名为 SamSelect 的样本序列选择算法。在模拟和真实数据上的实验结果表明:(1)SamSelect 可以有效地选择 D';(2)在 D'上执行的 qPMS 算法可以比在 D 上执行的算法更快地找到植入或真实的 motif。

结论

我们从选择高质量样本序列集的角度改进了现有 qPMS 算法处理大型 DNA 数据集的能力,以便 qPMS 算法能够在所选样本序列集 D'中快速找到 motif,而不是在原始序列集 D 中花费不切实际的长时间搜索。我们的 motif 发现方法是一种近似算法。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/97f3/6006848/b470d0045873/12859_2018_2242_Fig4_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/97f3/6006848/4b80075d52af/12859_2018_2242_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/97f3/6006848/d419c5688c3d/12859_2018_2242_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/97f3/6006848/ed8354607744/12859_2018_2242_Fig3_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/97f3/6006848/b470d0045873/12859_2018_2242_Fig4_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/97f3/6006848/4b80075d52af/12859_2018_2242_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/97f3/6006848/d419c5688c3d/12859_2018_2242_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/97f3/6006848/ed8354607744/12859_2018_2242_Fig3_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/97f3/6006848/b470d0045873/12859_2018_2242_Fig4_HTML.jpg

相似文献

1
SamSelect: a sample sequence selection algorithm for quorum planted motif search on large DNA datasets.SamSelect:一种用于在大型 DNA 数据集上进行约定种植基序搜索的样本序列选择算法。
BMC Bioinformatics. 2018 Jun 18;19(1):228. doi: 10.1186/s12859-018-2242-y.
2
An Efficient Exact Algorithm for Planted Motif Search on Large DNA Sequence Datasets.在大型 DNA 序列数据集上进行种植基序搜索的高效精确算法。
IEEE/ACM Trans Comput Biol Bioinform. 2024 Sep-Oct;21(5):1542-1551. doi: 10.1109/TCBB.2024.3404136. Epub 2024 Oct 9.
3
Improved Exact Enumerative Algorithms for the Planted (l, d)-Motif Search Problem.用于植入式(l, d)基序搜索问题的改进精确枚举算法。
IEEE/ACM Trans Comput Biol Bioinform. 2014 Mar-Apr;11(2):361-74. doi: 10.1109/TCBB.2014.2306842.
4
An Efficient Algorithm for Discovering Motifs in Large DNA Data Sets.一种在大型DNA数据集中发现基序的高效算法。
IEEE Trans Nanobioscience. 2015 Jul;14(5):535-44. doi: 10.1109/TNB.2015.2421340. Epub 2015 Apr 9.
5
qPMS7: a fast algorithm for finding (ℓ, d)-motifs in DNA and protein sequences.qPMS7:一种在 DNA 和蛋白质序列中查找(ℓ,d)-基序的快速算法。
PLoS One. 2012;7(7):e41425. doi: 10.1371/journal.pone.0041425. Epub 2012 Jul 24.
6
qPMS9: an efficient algorithm for quorum Planted Motif Search.qPMS9:一种用于群体植入基序搜索的高效算法。
Sci Rep. 2015 Jan 15;5:7813. doi: 10.1038/srep07813.
7
A new algorithm for DNA motif discovery using multiple sample sequence sets.一种使用多个样本序列集进行DNA基序发现的新算法。
J Bioinform Comput Biol. 2019 Aug;17(4):1950021. doi: 10.1142/S0219720019500215.
8
A hybrid method for the exact planted (l, d) motif finding problem and its parallelization.用于精确种植 (l, d) 模式问题的混合方法及其并行化。
BMC Bioinformatics. 2012;13 Suppl 17(Suppl 17):S10. doi: 10.1186/1471-2105-13-S17-S10. Epub 2012 Dec 13.
9
Fast exact algorithms for the closest string and substring problems with application to the planted (L, d)-motif model.快速精确算法求解最接近字符串和子字符串问题及其在 (L, d)-基序模型中的应用。
IEEE/ACM Trans Comput Biol Bioinform. 2011 Sep-Oct;8(5):1400-10. doi: 10.1109/TCBB.2011.21.
10
Freezing firefly algorithm for efficient planted (ℓ, d) motif search.用于有效搜索种植 (ℓ, d) 基序的冻结萤火虫算法。
Med Biol Eng Comput. 2022 Feb;60(2):511-530. doi: 10.1007/s11517-021-02468-x. Epub 2022 Jan 12.

引用本文的文献

1
Expanding the DNA-encoded library toolbox: identifying small molecules targeting RNA.拓展 DNA 编码文库工具包:鉴定靶向 RNA 的小分子。
Nucleic Acids Res. 2022 Jul 8;50(12):e67. doi: 10.1093/nar/gkac173.
2
A Clustering Approach for Motif Discovery in ChIP-Seq Dataset.一种用于ChIP-Seq数据集中基序发现的聚类方法。
Entropy (Basel). 2019 Aug 16;21(8):802. doi: 10.3390/e21080802.

本文引用的文献

1
MotifHyades: expectation maximization for de novo DNA motif pair discovery on paired sequences.Hyades 基序:从头开始发现配对序列中 DNA 基序对的期望最大化方法。
Bioinformatics. 2017 Oct 1;33(19):3028-3035. doi: 10.1093/bioinformatics/btx381.
2
An algorithmic perspective of de novo cis-regulatory motif finding based on ChIP-seq data.基于 ChIP-seq 数据的从头调控基序发现的算法视角。
Brief Bioinform. 2018 Sep 28;19(5):1069-1081. doi: 10.1093/bib/bbx026.
3
PairMotifChIP: A Fast Algorithm for Discovery of Patterns Conserved in Large ChIP-seq Data Sets.
配对基序染色质免疫沉淀测序:一种用于在大型染色质免疫沉淀测序数据集中发现保守模式的快速算法。
Biomed Res Int. 2016;2016:4986707. doi: 10.1155/2016/4986707. Epub 2016 Oct 24.
4
Improved Exact Enumerative Algorithms for the Planted (l, d)-Motif Search Problem.用于植入式(l, d)基序搜索问题的改进精确枚举算法。
IEEE/ACM Trans Comput Biol Bioinform. 2014 Mar-Apr;11(2):361-74. doi: 10.1109/TCBB.2014.2306842.
5
A review of ensemble methods for de novo motif discovery in ChIP-Seq data.ChIP-Seq数据中从头基序发现的集成方法综述。
Brief Bioinform. 2015 Nov;16(6):964-73. doi: 10.1093/bib/bbv022. Epub 2015 Apr 17.
6
qPMS9: an efficient algorithm for quorum Planted Motif Search.qPMS9:一种用于群体植入基序搜索的高效算法。
Sci Rep. 2015 Jan 15;5:7813. doi: 10.1038/srep07813.
7
Determination and inference of eukaryotic transcription factor sequence specificity.真核转录因子序列特异性的测定和推断。
Cell. 2014 Sep 11;158(6):1431-1443. doi: 10.1016/j.cell.2014.08.009.
8
Efficient sequential and parallel algorithms for planted motif search.高效的序列和并行算法,用于种植模式搜索。
BMC Bioinformatics. 2014 Jan 31;15:34. doi: 10.1186/1471-2105-15-34.
9
A new exhaustive method and strategy for finding motifs in ChIP-enriched regions.一种在 ChIP 富集区域中寻找基序的全新穷举方法和策略。
PLoS One. 2014 Jan 24;9(1):e86044. doi: 10.1371/journal.pone.0086044. eCollection 2014.
10
Systematic discovery and characterization of regulatory motifs in ENCODE TF binding experiments.系统发现和描绘 ENCODE TF 结合实验中的调控基序。
Nucleic Acids Res. 2014 Mar;42(5):2976-87. doi: 10.1093/nar/gkt1249. Epub 2013 Dec 13.