• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

dipwmsearch:一个用于搜索双 PWM 基序的 Python 包。

dipwmsearch: a Python package for searching di-PWM motifs.

机构信息

LIRMM, Univ Montpellier, CNRS, Montpellier, France.

Institut Français de Bioinformatique, CNRS UAR 3601, Évry, France.

出版信息

Bioinformatics. 2023 Apr 3;39(4). doi: 10.1093/bioinformatics/btad141.

DOI:10.1093/bioinformatics/btad141
PMID:37010504
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC10081870/
Abstract

MOTIVATION

Seeking probabilistic motifs in a sequence is a common task to annotate putative transcription factor binding sites or other RNA/DNA binding sites. Useful motif representations include position weight matrices (PWMs), dinucleotide PWMs (di-PWMs), and hidden Markov models (HMMs). Dinucleotide PWMs not only combine the simplicity of PWMs-a matrix form and a cumulative scoring function-but also incorporate dependency between adjacent positions in the motif (unlike PWMs which disregard any dependency). For instance to represent binding sites, the HOCOMOCO database provides di-PWM motifs derived from experimental data. Currently, two programs, SPRy-SARUS and MOODS, can search for occurrences of di-PWMs in sequences.

RESULTS

We propose a Python package called dipwmsearch, which provides an original and efficient algorithm for this task (it first enumerates matching words for the di-PWM, and then searches these all at once in the sequence, even if the latter contains IUPAC codes). The user benefits from an easy installation via Pypi or conda, a comprehensive documentation, and executable scripts that facilitate the use of di-PWMs.

AVAILABILITY AND IMPLEMENTATION

dipwmsearch is available at https://pypi.org/project/dipwmsearch/ and https://gite.lirmm.fr/rivals/dipwmsearch/ under Cecill license.

摘要

动机

在序列中寻找概率基序是注释假定转录因子结合位点或其他 RNA/DNA 结合位点的常见任务。有用的基序表示形式包括位置权重矩阵 (PWMs)、二核苷酸 PWMs (di-PWMs) 和隐马尔可夫模型 (HMMs)。二核苷酸 PWMs 不仅结合了 PWM 的简单性——矩阵形式和累积评分函数,而且还包含基序中相邻位置之间的依赖性(与 PWM 不同,PWM 忽略任何依赖性)。例如,为了表示结合位点,HOCOMOCO 数据库提供了来自实验数据的 di-PWM 基序。目前,有两个程序,SPRy-SARUS 和 MOODS,可以在序列中搜索 di-PWM 的出现。

结果

我们提出了一个名为 dipwmsearch 的 Python 包,它为这项任务提供了一种原始而有效的算法(它首先为 di-PWM 枚举匹配的单词,然后在序列中一次性搜索这些单词,即使后者包含 IUPAC 代码)。用户可以通过 Pypi 或 conda 轻松安装,文档全面,并且可执行脚本简化了 di-PWM 的使用。

可用性和实现

dipwmsearch 可在 https://pypi.org/project/dipwmsearch/ 和 Cecill 许可证下的 https://gite.lirmm.fr/rivals/dipwmsearch/ 获得。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/c72b/10081870/c111aa21c787/btad141f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/c72b/10081870/c111aa21c787/btad141f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/c72b/10081870/c111aa21c787/btad141f1.jpg

相似文献

1
dipwmsearch: a Python package for searching di-PWM motifs.dipwmsearch:一个用于搜索双 PWM 基序的 Python 包。
Bioinformatics. 2023 Apr 3;39(4). doi: 10.1093/bioinformatics/btad141.
2
Fast motif matching revisited: high-order PWMs, SNPs and indels.重新审视快速基序匹配:高阶位置权重矩阵、单核苷酸多态性和插入缺失。
Bioinformatics. 2017 Feb 15;33(4):514-521. doi: 10.1093/bioinformatics/btw683.
3
abc4pwm: affinity based clustering for position weight matrices in applications of DNA sequence analysis.abc4pwm:基于亲和度的位置权重矩阵聚类在 DNA 序列分析中的应用。
BMC Bioinformatics. 2022 Mar 3;23(1):83. doi: 10.1186/s12859-022-04615-z.
4
Optimized position weight matrices in prediction of novel putative binding sites for transcription factors in the Drosophila melanogaster genome.优化位置权重矩阵以预测果蝇基因组中转录因子的新型潜在结合位点。
PLoS One. 2013 Aug 6;8(8):e68712. doi: 10.1371/journal.pone.0068712. Print 2013.
5
Increasing coverage of transcription factor position weight matrices through domain-level homology.通过域级同源性提高转录因子位置权重矩阵的覆盖率。
PLoS One. 2012;7(8):e42779. doi: 10.1371/journal.pone.0042779. Epub 2012 Aug 27.
6
Optimizing the GATA-3 position weight matrix to improve the identification of novel binding sites.优化 GATA-3 位置权重矩阵以提高新结合位点的识别能力。
BMC Genomics. 2012 Aug 22;13:416. doi: 10.1186/1471-2164-13-416.
7
Dinucleotide weight matrices for predicting transcription factor binding sites: generalizing the position weight matrix.二核苷酸权重矩阵用于预测转录因子结合位点:位置权重矩阵的推广。
PLoS One. 2010 Mar 22;5(3):e9722. doi: 10.1371/journal.pone.0009722.
8
A DNA shape-based regulatory score improves position-weight matrix-based recognition of transcription factor binding sites.一种基于DNA形状的调控评分提高了基于位置权重矩阵对转录因子结合位点的识别。
Bioinformatics. 2015 Nov 1;31(21):3445-50. doi: 10.1093/bioinformatics/btv391. Epub 2015 Jun 30.
9
Bayesian Markov models consistently outperform PWMs at predicting motifs in nucleotide sequences.在预测核苷酸序列中的基序方面,贝叶斯马尔可夫模型始终优于位置权重矩阵。
Nucleic Acids Res. 2016 Jul 27;44(13):6055-69. doi: 10.1093/nar/gkw521. Epub 2016 Jun 9.
10
On counting position weight matrix matches in a sequence, with application to discriminative motif finding.关于计算序列中的位置权重矩阵匹配及其在判别性基序发现中的应用。
Bioinformatics. 2006 Jul 15;22(14):e454-63. doi: 10.1093/bioinformatics/btl227.