• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

SArKS:通过后缀数组核平滑进行基因表达调控基序位点和结构域的从头发现。

SArKS: de novo discovery of gene expression regulatory motif sites and domains by suffix array kernel smoothing.

机构信息

Center for Computational Biology and Bioinformatics, University of Texas at Austin, Austin, TX, USA.

Institute for Cellular and Molecular Biology, University of Texas at Austin, Austin, TX, USA.

出版信息

Bioinformatics. 2019 Oct 15;35(20):3944-3952. doi: 10.1093/bioinformatics/btz198.

DOI:10.1093/bioinformatics/btz198
PMID:30903136
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC7963082/
Abstract

MOTIVATION

We set out to develop an algorithm that can mine differential gene expression data to identify candidate cell type-specific DNA regulatory sequences. Differential expression is usually quantified as a continuous score-fold-change, test-statistic, P-value-comparing biological classes. Unlike existing approaches, our de novo strategy, termed SArKS, applies non-parametric kernel smoothing to uncover promoter motif sites that correlate with elevated differential expression scores. SArKS detects motif k-mers by smoothing sequence scores over sequence similarity. A second round of smoothing over spatial proximity reveals multi-motif domains (MMDs). Discovered motif sites can then be merged or extended based on adjacency within MMDs. False positive rates are estimated and controlled by permutation testing.

RESULTS

We applied SArKS to published gene expression data representing distinct neocortical neuron classes in Mus musculus and interneuron developmental states in Homo sapiens. When benchmarked against several existing algorithms using a cross-validation procedure, SArKS identified larger motif sets that formed the basis for regression models with higher correlative power.

AVAILABILITY AND IMPLEMENTATION

https://github.com/denniscwylie/sarks.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

我们旨在开发一种算法,能够挖掘差异基因表达数据,以识别候选细胞类型特异性 DNA 调控序列。差异表达通常被量化为连续的分数变化、检验统计量、比较生物类别的 P 值。与现有方法不同,我们的从头开始策略,称为 SArKS,应用非参数核平滑来揭示与升高的差异表达分数相关的启动子 motif 位点。SArKS 通过在序列相似性上平滑序列分数来检测 motif k-mers。第二轮在空间接近度上的平滑揭示了多 motif 域(MMD)。然后可以根据 MMD 内的邻接关系合并或扩展发现的 motif 位点。通过置换检验估计和控制假阳性率。

结果

我们将 SArKS 应用于已发表的基因表达数据,这些数据代表了 Mus musculus 中不同的新皮层神经元类和 Homo sapiens 中的中间神经元发育状态。当使用交叉验证程序与几种现有算法进行基准测试时,SArKS 确定了更大的 motif 集,这些 motif 集构成了具有更高相关能力的回归模型的基础。

可用性和实现

https://github.com/denniscwylie/sarks。

补充信息

补充数据可在 Bioinformatics 在线获取。

相似文献

1
SArKS: de novo discovery of gene expression regulatory motif sites and domains by suffix array kernel smoothing.SArKS:通过后缀数组核平滑进行基因表达调控基序位点和结构域的从头发现。
Bioinformatics. 2019 Oct 15;35(20):3944-3952. doi: 10.1093/bioinformatics/btz198.
2
Set cover-based methods for motif selection.基于集合覆盖的 motif 选择方法。
Bioinformatics. 2020 Feb 15;36(4):1044-1051. doi: 10.1093/bioinformatics/btz697.
3
Index suffix-prefix overlaps by (w, k)-minimizer to generate long contigs for reads compression.通过 (w, k)-最小化子索引后缀-前缀重叠来生成用于读取压缩的长连续体。
Bioinformatics. 2019 Jun 1;35(12):2066-2074. doi: 10.1093/bioinformatics/bty936.
4
Thermodynamic modeling reveals widespread multivalent binding by RNA-binding proteins.热力学建模揭示 RNA 结合蛋白的广泛多价结合。
Bioinformatics. 2021 Jul 12;37(Suppl_1):i308-i316. doi: 10.1093/bioinformatics/btab300.
5
BLSSpeller: exhaustive comparative discovery of conserved cis-regulatory elements.BLSSpeller:保守顺式调控元件的详尽比较发现
Bioinformatics. 2015 Dec 1;31(23):3758-66. doi: 10.1093/bioinformatics/btv466. Epub 2015 Aug 8.
6
A novel method for predicting activity of cis-regulatory modules, based on a diverse training set.一种基于多样化训练集预测顺式调控模块活性的新方法。
Bioinformatics. 2017 Jan 1;33(1):1-7. doi: 10.1093/bioinformatics/btw552. Epub 2016 Sep 7.
7
SA-SSR: a suffix array-based algorithm for exhaustive and efficient SSR discovery in large genetic sequences.SA-SSR:一种基于后缀数组的算法,用于在大型基因序列中全面高效地发现简单重复序列(SSR)
Bioinformatics. 2016 Sep 1;32(17):2707-9. doi: 10.1093/bioinformatics/btw298. Epub 2016 May 11.
8
TrawlerWeb: an online de novo motif discovery tool for next-generation sequencing datasets.拖网生物:下一代测序数据集的在线从头基序发现工具。
BMC Genomics. 2018 Apr 5;19(1):238. doi: 10.1186/s12864-018-4630-0.
9
A space and time-efficient index for the compacted colored de Bruijn graph.一种用于压缩彩色 de Bruijn 图的空间和时间高效索引。
Bioinformatics. 2018 Jul 1;34(13):i169-i177. doi: 10.1093/bioinformatics/bty292.
10
Sequence motif finder using memetic algorithm.基于进化算法的序列模体查找。
BMC Bioinformatics. 2018 Jan 3;19(1):4. doi: 10.1186/s12859-017-2005-1.

引用本文的文献

1
Targeting Subsets of Mammalian Neurons.靶向哺乳动物神经元亚群
Neurosci Insights. 2020 Feb 27;15:2633105520908537. doi: 10.1177/2633105520908537. eCollection 2020.
2
Functional Access to Neuron Subclasses in Rodent and Primate Forebrain.在啮齿动物和灵长类动物前脑中实现神经元亚类的功能访问。
Cell Rep. 2019 Mar 5;26(10):2818-2832.e8. doi: 10.1016/j.celrep.2019.02.011.

本文引用的文献

1
Single-Cell Profiling of an In Vitro Model of Human Interneuron Development Reveals Temporal Dynamics of Cell Type Production and Maturation.人类中间神经元发育体外模型的单细胞分析揭示了细胞类型产生和成熟的时间动态变化。
Neuron. 2017 Mar 8;93(5):1035-1048.e5. doi: 10.1016/j.neuron.2017.02.014.
2
Retrotransposons as regulators of gene expression.逆转录转座子作为基因表达的调控因子。
Science. 2016 Feb 12;351(6274):aac7247. doi: 10.1126/science.aac7247. Epub 2016 Feb 11.
3
JASPAR 2016: a major expansion and update of the open-access database of transcription factor binding profiles.JASPAR 2016:转录因子结合谱开放获取数据库的重大扩展与更新
Nucleic Acids Res. 2016 Jan 4;44(D1):D110-5. doi: 10.1093/nar/gkv1176. Epub 2015 Nov 3.
4
Epigenomic Signatures of Neuronal Diversity in the Mammalian Brain.哺乳动物大脑中神经元多样性的表观基因组特征
Neuron. 2015 Jun 17;86(6):1369-84. doi: 10.1016/j.neuron.2015.05.018.
5
STEME: a robust, accurate motif finder for large data sets.STEME:一种用于大型数据集的强大、精确的基序查找工具。
PLoS One. 2014 Mar 13;9(3):e90735. doi: 10.1371/journal.pone.0090735. eCollection 2014.
6
Discriminative motif analysis of high-throughput dataset.高通量数据集的判别基序分析。
Bioinformatics. 2014 Mar 15;30(6):775-83. doi: 10.1093/bioinformatics/btt615. Epub 2013 Oct 25.
7
Why transcription factor binding sites are ten nucleotides long.为什么转录因子结合位点的长度为 10 个核苷酸。
Genetics. 2012 Nov;192(3):973-85. doi: 10.1534/genetics.112.143370. Epub 2012 Aug 10.
8
STEME: efficient EM to find motifs in large data sets.STEME:高效的 EM 算法,用于在大数据集中发现模式。
Nucleic Acids Res. 2011 Oct;39(18):e126. doi: 10.1093/nar/gkr574. Epub 2011 Jul 23.
9
DECOD: fast and accurate discriminative DNA motif finding.DECOD:快速且准确的判别式 DNA 基序发现。
Bioinformatics. 2011 Sep 1;27(17):2361-7. doi: 10.1093/bioinformatics/btr412. Epub 2011 Jul 12.
10
DREME: motif discovery in transcription factor ChIP-seq data.DREME:转录因子 ChIP-seq 数据中的 motif 发现。
Bioinformatics. 2011 Jun 15;27(12):1653-9. doi: 10.1093/bioinformatics/btr261. Epub 2011 May 4.