• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

使用随机森林在顺式调控元件中发现细胞类型特异性 DNA 基元语法。

Discovery of cell-type specific DNA motif grammar in cis-regulatory elements using random Forest.

机构信息

Victor Chang Cardiac Research Institute, Darlinghurst, NSW, 2010, Australia.

St. Vincent's Clinical School, University of New South Wales, Darlinghurst, NSW, 2010, Australia.

出版信息

BMC Genomics. 2018 Jan 19;19(Suppl 1):929. doi: 10.1186/s12864-017-4340-z.

DOI:10.1186/s12864-017-4340-z
PMID:29363433
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC5780765/
Abstract

BACKGROUND

It has been observed that many transcription factors (TFs) can bind to different genomic loci depending on the cell type in which a TF is expressed in, even though the individual TF usually binds to the same core motif in different cell types. How a TF can bind to the genome in such a highly cell-type specific manner, is a critical research question. One hypothesis is that a TF requires co-binding of different TFs in different cell types. If this is the case, it may be possible to observe different combinations of TF motifs - a motif grammar - located at the TF binding sites in different cell types. In this study, we develop a bioinformatics method to systematically identify DNA motifs in TF binding sites across multiple cell types based on published ChIP-seq data, and address two questions: (1) can we build a machine learning classifier to predict cell-type specificity based on motif combinations alone, and (2) can we extract meaningful cell-type specific motif grammars from this classifier model.

RESULTS

We present a Random Forest (RF) based approach to build a multi-class classifier to predict the cell-type specificity of a TF binding site given its motif content. We applied this RF classifier to two published ChIP-seq datasets of TF (TCF7L2 and MAX) across multiple cell types. Using cross-validation, we show that motif combinations alone are indeed predictive of cell types. Furthermore, we present a rule mining approach to extract the most discriminatory rules in the RF classifier, thus allowing us to discover the underlying cell-type specific motif grammar.

CONCLUSIONS

Our bioinformatics analysis supports the hypothesis that combinatorial TF motif patterns are cell-type specific.

摘要

背景

已经观察到,许多转录因子(TFs)可以根据表达 TF 的细胞类型而结合到不同的基因组位置,即使单个 TF 通常在不同的细胞类型中结合到相同的核心基序。TF 如何以如此高度的细胞类型特异性方式结合到基因组,是一个关键的研究问题。一种假设是,TF 需要在不同的细胞类型中共同结合不同的 TF。如果是这样,那么可能可以观察到不同的 TF 基序组合 - 一种基序语法 - 位于不同细胞类型中的 TF 结合位点。在这项研究中,我们开发了一种基于已发表的 ChIP-seq 数据的生物信息学方法,用于系统地识别多个细胞类型中 TF 结合位点的 DNA 基序,并解决两个问题:(1)我们能否仅基于基序组合构建一种机器学习分类器来预测细胞类型特异性,以及(2)我们能否从该分类器模型中提取有意义的细胞类型特异性基序语法。

结果

我们提出了一种基于随机森林(RF)的方法来构建多类分类器,以根据其基序内容预测 TF 结合位点的细胞类型特异性。我们将这种 RF 分类器应用于两个已发表的跨多个细胞类型的 TF(TCF7L2 和 MAX)的 ChIP-seq 数据集。通过交叉验证,我们表明基序组合本身确实可以预测细胞类型。此外,我们提出了一种规则挖掘方法来提取 RF 分类器中最具区分性的规则,从而使我们能够发现潜在的细胞类型特异性基序语法。

结论

我们的生物信息学分析支持这样的假设,即组合 TF 基序模式是细胞类型特异性的。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d2aa/5780765/452248ac7132/12864_2017_4340_Fig3_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d2aa/5780765/cdb0a7551466/12864_2017_4340_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d2aa/5780765/87163af8744b/12864_2017_4340_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d2aa/5780765/452248ac7132/12864_2017_4340_Fig3_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d2aa/5780765/cdb0a7551466/12864_2017_4340_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d2aa/5780765/87163af8744b/12864_2017_4340_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d2aa/5780765/452248ac7132/12864_2017_4340_Fig3_HTML.jpg

相似文献

1
Discovery of cell-type specific DNA motif grammar in cis-regulatory elements using random Forest.使用随机森林在顺式调控元件中发现细胞类型特异性 DNA 基元语法。
BMC Genomics. 2018 Jan 19;19(Suppl 1):929. doi: 10.1186/s12864-017-4340-z.
2
COPS: detecting co-occurrence and spatial arrangement of transcription factor binding motifs in genome-wide datasets.COPS:在全基因组数据集中检测转录因子结合基序的共现和空间排列。
PLoS One. 2012;7(12):e52055. doi: 10.1371/journal.pone.0052055. Epub 2012 Dec 18.
3
Transcription factor-binding k-mer analysis clarifies the cell type dependency of binding specificities and cis-regulatory SNPs in humans.转录因子结合 k- -mer 分析阐明了人类结合特异性和顺式调控 SNP 的细胞类型依赖性。
BMC Genomics. 2023 Oct 7;24(1):597. doi: 10.1186/s12864-023-09692-9.
4
A widespread role of the motif environment in transcription factor binding across diverse protein families.模体环境在不同蛋白质家族转录因子结合中的广泛作用。
Genome Res. 2015 Sep;25(9):1268-80. doi: 10.1101/gr.184671.114. Epub 2015 Jul 9.
5
RSAT::Plants: Motif Discovery in ChIP-Seq Peaks of Plant Genomes.RSAT::植物:植物基因组ChIP-Seq峰中的基序发现
Methods Mol Biol. 2016;1482:297-322. doi: 10.1007/978-1-4939-6396-6_19.
6
MOCCS: Clarifying DNA-binding motif ambiguity using ChIP-Seq data.MOCCS:利用染色质免疫沉淀测序(ChIP-Seq)数据澄清DNA结合基序的模糊性。
Comput Biol Chem. 2016 Aug;63:62-72. doi: 10.1016/j.compbiolchem.2016.01.014. Epub 2016 Feb 13.
7
Analysis of Co-Associated Transcription Factors via Ordered Adjacency Differences on Motif Distribution.通过 motif 分布上的有序邻接差异分析共关联转录因子。
Sci Rep. 2017 Feb 27;7:43597. doi: 10.1038/srep43597.
8
Predicting transcription factor binding using ensemble random forest models.使用集成随机森林模型预测转录因子结合
F1000Res. 2018 Oct 4;7:1603. doi: 10.12688/f1000research.16200.2. eCollection 2018.
9
Probing transcription factor combinatorics in different promoter classes and in enhancers.探究不同启动子类和增强子中的转录因子组合。
BMC Genomics. 2019 Feb 1;20(1):103. doi: 10.1186/s12864-018-5408-0.
10
De novo prediction of cis-regulatory elements and modules through integrative analysis of a large number of ChIP datasets.通过对大量染色质免疫沉淀数据集进行综合分析,从头预测顺式调控元件和模块。
BMC Genomics. 2014 Dec 2;15:1047. doi: 10.1186/1471-2164-15-1047.

引用本文的文献

1
The combinatorial binding syntax of transcription factors in forebrain-specific enhancers.前脑特异性增强子中转录因子的组合结合语法。
Biol Open. 2025 Feb 15;14(2). doi: 10.1242/bio.061751. Epub 2025 Feb 19.
2
Polygenic risk modeling of tumor stage and survival in bladder cancer.膀胱癌肿瘤分期和生存的多基因风险建模
BioData Min. 2022 Sep 30;15(1):23. doi: 10.1186/s13040-022-00306-w.
3
Modeling binding specificities of transcription factor pairs with random forests.用随机森林模型模拟转录因子对的结合特异性。

本文引用的文献

1
Modular combinatorial binding among human trans-acting factors reveals direct and indirect factor binding.人类反式作用因子之间的模块化组合结合揭示了直接和间接因子结合。
BMC Genomics. 2017 Jan 6;18(1):45. doi: 10.1186/s12864-016-3434-3.
2
DNA context represents transcription regulation of the gene in mouse embryonic stem cells.DNA 背景代表了该基因在小鼠胚胎干细胞中的转录调控。
Sci Rep. 2016 Apr 14;6:24343. doi: 10.1038/srep24343.
3
Role of estrogen receptor in breast cancer cell gene expression.雌激素受体在乳腺癌细胞基因表达中的作用。
BMC Bioinformatics. 2022 Jun 3;23(1):212. doi: 10.1186/s12859-022-04734-7.
4
SeqEnhDL: sequence-based classification of cell type-specific enhancers using deep learning models.SeqEnhDL:使用深度学习模型对细胞类型特异性增强子进行基于序列的分类
BMC Res Notes. 2021 Mar 19;14(1):104. doi: 10.1186/s13104-021-05518-7.
5
Machine learning: A powerful tool for gene function prediction in plants.机器学习:植物基因功能预测的强大工具。
Appl Plant Sci. 2020 Jul 28;8(7):e11376. doi: 10.1002/aps3.11376. eCollection 2020 Jul.
6
How to balance the bioinformatics data: pseudo-negative sampling.如何平衡生物信息学数据:伪阴性采样。
BMC Bioinformatics. 2019 Dec 24;20(Suppl 25):695. doi: 10.1186/s12859-019-3269-4.
7
Predicting prognosis of endometrioid endometrial adenocarcinoma on the basis of gene expression and clinical features using Random Forest.利用随机森林基于基因表达和临床特征预测子宫内膜样腺癌的预后。
Oncol Lett. 2019 Aug;18(2):1597-1606. doi: 10.3892/ol.2019.10504. Epub 2019 Jun 20.
8
Classifying Included and Excluded Exons in Exon Skipping Event Using Histone Modifications.利用组蛋白修饰对外显子跳跃事件中的包含和排除外显子进行分类
Front Genet. 2018 Oct 1;9:433. doi: 10.3389/fgene.2018.00433. eCollection 2018.
9
A bioinformatics potpourri.生物信息学大杂烩。
BMC Genomics. 2018 Jan 19;19(Suppl 1):920. doi: 10.1186/s12864-017-4326-x.
Mol Med Rep. 2016 May;13(5):4046-50. doi: 10.3892/mmr.2016.5018. Epub 2016 Mar 21.
4
Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning.通过深度学习预测 DNA 和 RNA 结合蛋白的序列特异性。
Nat Biotechnol. 2015 Aug;33(8):831-8. doi: 10.1038/nbt.3300. Epub 2015 Jul 27.
5
Regulation and function of the NFE2 transcription factor in hematopoietic and non-hematopoietic cells.NFE2转录因子在造血细胞和非造血细胞中的调控与功能
Cell Mol Life Sci. 2015 Jun;72(12):2323-35. doi: 10.1007/s00018-015-1866-6. Epub 2015 Feb 27.
6
Transcription factor binding dynamics during human ES cell differentiation.人类胚胎干细胞分化过程中转录因子结合的动态变化。
Nature. 2015 Feb 19;518(7539):344-9. doi: 10.1038/nature14233.
7
Rule-based design of synthetic transcription factors in eukaryotes.真核生物中基于规则的合成转录因子设计
ACS Synth Biol. 2014 Oct 17;3(10):737-44. doi: 10.1021/sb400134k. Epub 2014 Jan 3.
8
A single amino acid in EBNA-2 determines superior B lymphoblastoid cell line growth maintenance by Epstein-Barr virus type 1 EBNA-2.EBNA-2 单一氨基酸决定了 EBV-1 EBNA-2 对 B 淋巴母细胞系生长维持的卓越作用。
J Virol. 2014 Aug;88(16):8743-53. doi: 10.1128/JVI.01000-14. Epub 2014 May 21.
9
MYC, MAX, and small cell lung cancer.MYC、MAX 和小细胞肺癌。
Cancer Discov. 2014 Mar;4(3):273-4. doi: 10.1158/2159-8290.CD-14-0069.
10
Alternative human liver transcripts of TCF7L2 bind to the gluconeogenesis regulator HNF4α at the protein level.TCF7L2 的替代人类肝脏转录本在蛋白质水平上与糖异生调节因子 HNF4α 结合。
Diabetologia. 2014 Apr;57(4):785-96. doi: 10.1007/s00125-013-3154-z. Epub 2014 Jan 26.