• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

一种用于序列数据的通用基序发现算法。

A generic motif discovery algorithm for sequential data.

作者信息

Jensen Kyle L, Styczynski Mark P, Rigoutsos Isidore, Stephanopoulos Gregory N

机构信息

Department of Chemical Engineering, Massachusetts Institute of Technology, Cambridge, MA 02139, USA.

出版信息

Bioinformatics. 2006 Jan 1;22(1):21-8. doi: 10.1093/bioinformatics/bti745. Epub 2005 Oct 27.

DOI:10.1093/bioinformatics/bti745
PMID:16257985
Abstract

MOTIVATION

Motif discovery in sequential data is a problem of great interest and with many applications. However, previous methods have been unable to combine exhaustive search with complex motif representations and are each typically only applicable to a certain class of problems.

RESULTS

Here we present a generic motif discovery algorithm (Gemoda) for sequential data. Gemoda can be applied to any dataset with a sequential character, including both categorical and real-valued data. As we show, Gemoda deterministically discovers motifs that are maximal in composition and length. As well, the algorithm allows any choice of similarity metric for finding motifs. Finally, Gemoda's output motifs are representation-agnostic: they can be represented using regular expressions, position weight matrices or any number of other models for any type of sequential data. We demonstrate a number of applications of the algorithm, including the discovery of motifs in amino acids sequences, a new solution to the (l,d)-motif problem in DNA sequences and the discovery of conserved protein substructures.

AVAILABILITY

Gemoda is freely available at http://web.mit.edu/bamel/gemoda

摘要

动机

在序列数据中发现基序是一个备受关注且有许多应用的问题。然而,先前的方法无法将穷举搜索与复杂的基序表示相结合,并且通常每种方法仅适用于某一类问题。

结果

在此,我们提出了一种用于序列数据的通用基序发现算法(Gemoda)。Gemoda可应用于任何具有序列特征的数据集,包括分类数据和实值数据。如我们所示,Gemoda能确定性地发现组成和长度上最大的基序。此外,该算法允许在寻找基序时选择任何相似性度量。最后,Gemoda输出的基序与表示方式无关:它们可以使用正则表达式、位置权重矩阵或用于任何类型序列数据的许多其他模型来表示。我们展示了该算法的一些应用,包括在氨基酸序列中发现基序、DNA序列中(l,d)-基序问题的新解决方案以及保守蛋白质子结构的发现。

可用性

Gemoda可在http://web.mit.edu/bamel/gemoda免费获取。

相似文献

1
A generic motif discovery algorithm for sequential data.一种用于序列数据的通用基序发现算法。
Bioinformatics. 2006 Jan 1;22(1):21-8. doi: 10.1093/bioinformatics/bti745. Epub 2005 Oct 27.
2
WebMOTIFS: automated discovery, filtering and scoring of DNA sequence motifs using multiple programs and Bayesian approaches.WebMOTIFS:使用多个程序和贝叶斯方法对DNA序列基序进行自动发现、筛选和评分。
Nucleic Acids Res. 2007 Jul;35(Web Server issue):W217-20. doi: 10.1093/nar/gkm376. Epub 2007 Jun 21.
3
MUSA: a parameter free algorithm for the identification of biologically significant motifs.MUSA:一种用于识别具有生物学意义基序的无参数算法。
Bioinformatics. 2006 Dec 15;22(24):2996-3002. doi: 10.1093/bioinformatics/btl537. Epub 2006 Oct 26.
4
Predicting functional sites with an automated algorithm suitable for heterogeneous datasets.使用适用于异构数据集的自动算法预测功能位点。
BMC Bioinformatics. 2005 May 13;6:116. doi: 10.1186/1471-2105-6-116.
5
A profile-based deterministic sequential Monte Carlo algorithm for motif discovery.一种基于轮廓的确定性序贯蒙特卡罗基序发现算法。
Bioinformatics. 2008 Jan 1;24(1):46-55. doi: 10.1093/bioinformatics/btm543. Epub 2007 Nov 17.
6
Fast model-based protein homology detection without alignment.基于快速模型的无需比对的蛋白质同源性检测。
Bioinformatics. 2007 Jul 15;23(14):1728-36. doi: 10.1093/bioinformatics/btm247. Epub 2007 May 8.
7
Combining phylogenetic motif discovery and motif clustering to predict co-regulated genes.结合系统发育基序发现和基序聚类来预测共调控基因。
Bioinformatics. 2005 Oct 15;21(20):3832-9. doi: 10.1093/bioinformatics/bti628. Epub 2005 Aug 16.
8
Detection of generic spaced motifs using submotif pattern mining.使用子基序模式挖掘检测通用间隔基序
Bioinformatics. 2007 Jun 15;23(12):1476-85. doi: 10.1093/bioinformatics/btm118. Epub 2007 May 5.
9
Rapid detection of conserved regions in protein sequences using wavelets.使用小波快速检测蛋白质序列中的保守区域。
In Silico Biol. 2004;4(2):133-48.
10
Localized motif discovery in gene regulatory sequences.基因调控序列中的局部模体发现。
Bioinformatics. 2010 May 1;26(9):1152-9. doi: 10.1093/bioinformatics/btq106. Epub 2010 Mar 11.

引用本文的文献

1
Navigating freely-available software tools for metabolomics analysis.探索用于代谢组学分析的免费软件工具。
Metabolomics. 2017;13(9):106. doi: 10.1007/s11306-017-1242-7. Epub 2017 Aug 9.
2
Efficient motif search in ranked lists and applications to variable gap motifs.在排序列表中进行高效的基序搜索及其在可变间隙基序中的应用。
Nucleic Acids Res. 2012 Jul;40(13):5832-47. doi: 10.1093/nar/gks206. Epub 2012 Mar 13.
3
Breaking the computational barrier: a divide-conquer and aggregate based approach for Alu insertion site characterisation.
突破计算障碍:一种基于分治与聚合的Alu插入位点表征方法
Int J Comput Biol Drug Des. 2009;2(4):302-22. doi: 10.1504/IJCBDD.2009.030763. Epub 2009 Jan 4.
4
iTriplet, a rule-based nucleic acid sequence motif finder.iTriplet,一种基于规则的核酸序列基序查找工具。
Algorithms Mol Biol. 2009 Oct 29;4:14. doi: 10.1186/1748-7188-4-14.
5
Real-Time PCR: Revolutionizing Detection and Expression Analysis of Genes.实时 PCR:基因检测和表达分析的革命。
Curr Genomics. 2007 Jun;8(4):234-51. doi: 10.2174/138920207781386960.
6
A Caenorhabditis motif compendium for studying transcriptional gene regulation.用于研究转录基因调控的秀丽隐杆线虫基序汇编。
BMC Genomics. 2008 Jan 23;9:30. doi: 10.1186/1471-2164-9-30.
7
Comparative analysis of regulatory motif discovery tools for transcription factor binding sites.用于转录因子结合位点的调控基序发现工具的比较分析。
Genomics Proteomics Bioinformatics. 2007 May;5(2):131-42. doi: 10.1016/S1672-0229(07)60023-0.