• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

Hyades 基序:从头开始发现配对序列中 DNA 基序对的期望最大化方法。

MotifHyades: expectation maximization for de novo DNA motif pair discovery on paired sequences.

机构信息

Department of Computer Science, City University of Hong Kong, Kowloon Tong, Hong Kong.

出版信息

Bioinformatics. 2017 Oct 1;33(19):3028-3035. doi: 10.1093/bioinformatics/btx381.

DOI:10.1093/bioinformatics/btx381
PMID:28633280
Abstract

MOTIVATION

In higher eukaryotes, protein-DNA binding interactions are the central activities in gene regulation. In particular, DNA motifs such as transcription factor binding sites are the key components in gene transcription. Harnessing the recently available chromatin interaction data, computational methods are desired for identifying the coupling DNA motif pairs enriched on long-range chromatin-interacting sequence pairs (e.g. promoter-enhancer pairs) systematically.

RESULTS

To fill the void, a novel probabilistic model (namely, MotifHyades) is proposed and developed for de novo DNA motif pair discovery on paired sequences. In particular, two expectation maximization algorithms are derived for efficient model training with linear computational complexity. Under diverse scenarios, MotifHyades is demonstrated faster and more accurate than the existing ad hoc computational pipeline. In addition, MotifHyades is applied to discover thousands of DNA motif pairs with higher gold standard motif matching ratio, higher DNase accessibility and higher evolutionary conservation than the previous ones in the human K562 cell line. Lastly, it has been run on five other human cell lines (i.e. GM12878, HeLa-S3, HUVEC, IMR90, and NHEK), revealing another thousands of novel DNA motif pairs which are characterized across a broad spectrum of genomic features on long-range promoter-enhancer pairs.

AVAILABILITY AND IMPLEMENTATION

The matrix-algebra-optimized versions of MotifHyades and the discovered DNA motif pairs can be found in http://bioinfo.cs.cityu.edu.hk/MotifHyades.

CONTACT

kc.w@cityu.edu.hk.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

在高等真核生物中,蛋白质与 DNA 的相互作用是基因调控的核心活动。特别是,转录因子结合位点等 DNA 基序是基因转录的关键组成部分。利用最近可用的染色质相互作用数据,需要计算方法系统地识别长程染色质相互作用序列对(例如启动子-增强子对)上富集的耦合 DNA 基序对。

结果

为了填补空白,提出并开发了一种新的概率模型(即 MotifHyades),用于从头发现成对序列上的 DNA 基序对。特别是,推导了两个期望最大化算法,用于具有线性计算复杂度的有效模型训练。在各种情况下,MotifHyades 被证明比现有的特定计算管道更快、更准确。此外,MotifHyades 被应用于在人类 K562 细胞系中发现数千对 DNA 基序对,其与现有基序的匹配率更高,DNase 可及性更高,进化保守性更高。最后,它已在另外五个人类细胞系(即 GM12878、HeLa-S3、HUVEC、IMR90 和 NHEK)上运行,揭示了数千个新的 DNA 基序对,这些基序对在长程启动子-增强子对上具有广泛的基因组特征。

可用性和实现

Matrix-algebra-optimized 版本的 MotifHyades 和发现的 DNA 基序对可在 http://bioinfo.cs.cityu.edu.hk/MotifHyades 上找到。

联系人

kc.w@cityu.edu.hk。

补充信息

补充数据可在 Bioinformatics 在线获得。

相似文献

1
MotifHyades: expectation maximization for de novo DNA motif pair discovery on paired sequences.Hyades 基序:从头开始发现配对序列中 DNA 基序对的期望最大化方法。
Bioinformatics. 2017 Oct 1;33(19):3028-3035. doi: 10.1093/bioinformatics/btx381.
2
Identification of coupling DNA motif pairs on long-range chromatin interactions in human K562 cells.鉴定人类 K562 细胞中长程染色质相互作用上的耦合 DNA 基序对。
Bioinformatics. 2016 Feb 1;32(3):321-4. doi: 10.1093/bioinformatics/btv555. Epub 2015 Sep 26.
3
Heterodimeric DNA motif synthesis and validations.异二聚体 DNA 基序合成与验证。
Nucleic Acids Res. 2019 Feb 28;47(4):1628-1636. doi: 10.1093/nar/gky1297.
4
DeFCoM: analysis and modeling of transcription factor binding sites using a motif-centric genomic footprinter.DeFCoM:使用以基序为中心的基因组足迹法对转录因子结合位点进行分析和建模。
Bioinformatics. 2017 Apr 1;33(7):956-963. doi: 10.1093/bioinformatics/btw740.
5
BinDNase: a discriminatory approach for transcription factor binding prediction using DNase I hypersensitivity data.BinDNase:一种利用DNA酶I超敏反应数据进行转录因子结合预测的鉴别方法。
Bioinformatics. 2015 Sep 1;31(17):2852-9. doi: 10.1093/bioinformatics/btv294. Epub 2015 May 7.
6
MotifHub: Detection of trans-acting DNA motif group with probabilistic modeling algorithm.MotifHub:基于概率建模算法的反式作用 DNA 基序组检测。
Comput Biol Med. 2024 Jan;168:107753. doi: 10.1016/j.compbiomed.2023.107753. Epub 2023 Nov 25.
7
EXTREME: an online EM algorithm for motif discovery.极端:一种用于基序发现的在线 EM 算法。
Bioinformatics. 2014 Jun 15;30(12):1667-73. doi: 10.1093/bioinformatics/btu093. Epub 2014 Feb 14.
8
Finding de novo methylated DNA motifs.发现从头甲基化 DNA 基序。
Bioinformatics. 2019 Sep 15;35(18):3287-3293. doi: 10.1093/bioinformatics/btz079.
9
STREME: accurate and versatile sequence motif discovery.STREME:准确且通用的序列基序发现。
Bioinformatics. 2021 Sep 29;37(18):2834-2840. doi: 10.1093/bioinformatics/btab203.
10
Exploiting sequence-based features for predicting enhancer-promoter interactions.利用基于序列的特征预测增强子-启动子相互作用。
Bioinformatics. 2017 Jul 15;33(14):i252-i260. doi: 10.1093/bioinformatics/btx257.

引用本文的文献

1
Identification of DNA motif pairs on paired sequences based on composite heterogeneous graph.基于复合异构图的配对序列上DNA基序对的识别
Front Genet. 2024 Jun 17;15:1424085. doi: 10.3389/fgene.2024.1424085. eCollection 2024.
2
Discovering DNA shape motifs with multiple DNA shape features: generalization, methods, and validation.发现具有多种 DNA 形状特征的 DNA 形状基序:概括、方法和验证。
Nucleic Acids Res. 2024 May 8;52(8):4137-4150. doi: 10.1093/nar/gkae210.
3
A Clustering Approach for Motif Discovery in ChIP-Seq Dataset.
一种用于ChIP-Seq数据集中基序发现的聚类方法。
Entropy (Basel). 2019 Aug 16;21(8):802. doi: 10.3390/e21080802.
4
Heterodimeric DNA motif synthesis and validations.异二聚体 DNA 基序合成与验证。
Nucleic Acids Res. 2019 Feb 28;47(4):1628-1636. doi: 10.1093/nar/gky1297.
5
GLNMDA: a novel method for miRNA-disease association prediction based on global linear neighborhoods.GLNMDA:一种基于全局线性邻域的 miRNA-疾病关联预测新方法。
RNA Biol. 2018;15(9):1215-1227. doi: 10.1080/15476286.2018.1521210. Epub 2018 Sep 23.
6
SamSelect: a sample sequence selection algorithm for quorum planted motif search on large DNA datasets.SamSelect:一种用于在大型 DNA 数据集上进行约定种植基序搜索的样本序列选择算法。
BMC Bioinformatics. 2018 Jun 18;19(1):228. doi: 10.1186/s12859-018-2242-y.