• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

BLAMM:一种基于 BLAS 的算法,用于在 CPU 和 GPU 上的 DNA 序列中查找位置权重矩阵出现的情况。

BLAMM: BLAS-based algorithm for finding position weight matrix occurrences in DNA sequences on CPUs and GPUs.

机构信息

Department of Information Technology - IDLab, Ghent University - imec, Technologiepark 126, Ghent (Zwijnaarde), B-9052, Belgium.

出版信息

BMC Bioinformatics. 2020 Mar 11;21(Suppl 2):81. doi: 10.1186/s12859-020-3348-6.

DOI:10.1186/s12859-020-3348-6
PMID:32164557
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC7068855/
Abstract

BACKGROUND

The identification of all matches of a large set of position weight matrices (PWMs) in long DNA sequences requires significant computational resources for which a number of efficient yet complex algorithms have been proposed.

RESULTS

We propose BLAMM, a simple and efficient tool inspired by high performance computing techniques. The workload is expressed in terms of matrix-matrix products that are evaluated with high efficiency using optimized BLAS library implementations. The algorithm is easy to parallelize and implement on CPUs and GPUs and has a runtime that is independent of the selected p-value. In terms of single-core performance, it is competitive with state-of-the-art software for PWM matching while being much more efficient when using multithreading. Additionally, BLAMM requires negligible memory. For example, both strands of the entire human genome can be scanned for 1404 PWMs in the JASPAR database in 13 min with a p-value of 10 using a 36-core machine. On a dual GPU system, the same task can be performed in under 5 min.

CONCLUSIONS

BLAMM is an efficient tool for identifying PWM matches in large DNA sequences. Its C++ source code is available under the GNU General Public License Version 3 at https://github.com/biointec/blamm.

摘要

背景

在长 DNA 序列中识别大量位置权重矩阵 (PWMs) 的所有匹配项需要大量的计算资源,为此已经提出了许多高效但复杂的算法。

结果

我们提出了 BLAMM,这是一种受高性能计算技术启发的简单而高效的工具。工作负载表示为矩阵-矩阵乘积,使用经过优化的 BLAS 库实现高效地评估。该算法易于在 CPU 和 GPU 上并行化和实现,并且其运行时间与所选 p 值无关。在单核性能方面,它与 PWM 匹配的最先进软件具有竞争力,而在使用多线程时效率更高。此外,BLAMM 需要的内存很少。例如,在一台 36 核机器上,使用 p 值为 10,可以在 13 分钟内扫描整个人类基因组的两条链,以查找 JASPAR 数据库中的 1404 个 PWM。在双 GPU 系统上,相同的任务可以在不到 5 分钟内完成。

结论

BLAMM 是一种用于在大型 DNA 序列中识别 PWM 匹配项的高效工具。其 C++源代码可在 https://github.com/biointec/blamm 下根据 GNU 通用公共许可证第 3 版获得。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ff35/7068855/e4d86f61e907/12859_2020_3348_Fig4_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ff35/7068855/12ed524f3334/12859_2020_3348_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ff35/7068855/e1801ece315b/12859_2020_3348_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ff35/7068855/5f97f6a1c0c4/12859_2020_3348_Fig3_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ff35/7068855/e4d86f61e907/12859_2020_3348_Fig4_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ff35/7068855/12ed524f3334/12859_2020_3348_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ff35/7068855/e1801ece315b/12859_2020_3348_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ff35/7068855/5f97f6a1c0c4/12859_2020_3348_Fig3_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ff35/7068855/e4d86f61e907/12859_2020_3348_Fig4_HTML.jpg

相似文献

1
BLAMM: BLAS-based algorithm for finding position weight matrix occurrences in DNA sequences on CPUs and GPUs.BLAMM:一种基于 BLAS 的算法,用于在 CPU 和 GPU 上的 DNA 序列中查找位置权重矩阵出现的情况。
BMC Bioinformatics. 2020 Mar 11;21(Suppl 2):81. doi: 10.1186/s12859-020-3348-6.
2
NMF-mGPU: non-negative matrix factorization on multi-GPU systems.NMF-mGPU:多GPU系统上的非负矩阵分解
BMC Bioinformatics. 2015 Feb 13;16:43. doi: 10.1186/s12859-015-0485-4.
3
Fast motif matching revisited: high-order PWMs, SNPs and indels.重新审视快速基序匹配:高阶位置权重矩阵、单核苷酸多态性和插入缺失。
Bioinformatics. 2017 Feb 15;33(4):514-521. doi: 10.1093/bioinformatics/btw683.
4
WFA-GPU: gap-affine pairwise read-alignment using GPUs.WFA-GPU:基于 GPU 的缺口仿射两两序列比对
Bioinformatics. 2023 Dec 1;39(12). doi: 10.1093/bioinformatics/btad701.
5
dipwmsearch: a Python package for searching di-PWM motifs.dipwmsearch:一个用于搜索双 PWM 基序的 Python 包。
Bioinformatics. 2023 Apr 3;39(4). doi: 10.1093/bioinformatics/btad141.
6
High performance computing for deformable image registration: towards a new paradigm in adaptive radiotherapy.用于可变形图像配准的高性能计算:迈向自适应放射治疗的新范式。
Med Phys. 2008 Aug;35(8):3546-53. doi: 10.1118/1.2948318.
7
BEAGLE: an application programming interface and high-performance computing library for statistical phylogenetics.BEAGLE:一个用于统计系统发生学的应用程序编程接口和高性能计算库。
Syst Biol. 2012 Jan;61(1):170-3. doi: 10.1093/sysbio/syr100. Epub 2011 Oct 1.
8
MOODS: fast search for position weight matrix matches in DNA sequences.MOODS:在 DNA 序列中快速搜索位置权重矩阵匹配。
Bioinformatics. 2009 Dec 1;25(23):3181-2. doi: 10.1093/bioinformatics/btp554. Epub 2009 Sep 22.
9
Advanced complex trait analysis.高级复杂性状分析。
Bioinformatics. 2012 Dec 1;28(23):3134-6. doi: 10.1093/bioinformatics/bts571. Epub 2012 Sep 27.
10
Grid-based algorithm to search critical points, in the electron density, accelerated by graphics processing units.基于网格的算法,用于在电子密度中搜索临界点,由图形处理单元加速。
J Comput Chem. 2014 Dec 5;35(31):2272-8. doi: 10.1002/jcc.23752.

引用本文的文献

1
Deep learning the cis-regulatory code for gene expression in selected model plants.深度学习选定模式植物中基因表达的顺式调控密码。
Nat Commun. 2024 Apr 25;15(1):3488. doi: 10.1038/s41467-024-47744-0.
2
Main findings and advances in bioinformatics and biomedical engineering- IWBBIO 2018.生物信息学和生物医学工程的主要发现和进展——IWBBIO 2018。
BMC Bioinformatics. 2020 May 5;21(Suppl 7):153. doi: 10.1186/s12859-020-3467-0.

本文引用的文献

1
JASPAR 2018: update of the open-access database of transcription factor binding profiles and its web framework.JASPAR 2018:转录因子结合谱开放获取数据库及其网络框架的更新
Nucleic Acids Res. 2018 Jan 4;46(D1):D1284. doi: 10.1093/nar/gkx1188.
2
Next-generation sequencing: big data meets high performance computing.下一代测序:大数据邂逅高性能计算。
Drug Discov Today. 2017 Apr;22(4):712-717. doi: 10.1016/j.drudis.2017.01.014. Epub 2017 Feb 2.
3
Fast motif matching revisited: high-order PWMs, SNPs and indels.重新审视快速基序匹配:高阶位置权重矩阵、单核苷酸多态性和插入缺失。
Bioinformatics. 2017 Feb 15;33(4):514-521. doi: 10.1093/bioinformatics/btw683.
4
JASPAR 2016: a major expansion and update of the open-access database of transcription factor binding profiles.JASPAR 2016:转录因子结合谱开放获取数据库的重大扩展与更新
Nucleic Acids Res. 2016 Jan 4;44(D1):D110-5. doi: 10.1093/nar/gkv1176. Epub 2015 Nov 3.
5
Finding significant matches of position weight matrices in linear time.在线性时间内找到位置权重矩阵的显著匹配。
IEEE/ACM Trans Comput Biol Bioinform. 2011 Jan-Mar;8(1):69-79. doi: 10.1109/TCBB.2009.35.
6
The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data.基因组分析工具包:一种用于分析下一代 DNA 测序数据的 MapReduce 框架。
Genome Res. 2010 Sep;20(9):1297-303. doi: 10.1101/gr.107524.110. Epub 2010 Jul 19.
7
MOODS: fast search for position weight matrix matches in DNA sequences.MOODS:在 DNA 序列中快速搜索位置权重矩阵匹配。
Bioinformatics. 2009 Dec 1;25(23):3181-2. doi: 10.1093/bioinformatics/btp554. Epub 2009 Sep 22.
8
Pseudocounts for transcription factor binding sites.转录因子结合位点的伪计数
Nucleic Acids Res. 2009 Feb;37(3):939-44. doi: 10.1093/nar/gkn1019. Epub 2008 Dec 23.
9
UniPROBE: an online database of protein binding microarray data on protein-DNA interactions.UniPROBE:一个关于蛋白质与DNA相互作用的蛋白质结合微阵列数据在线数据库。
Nucleic Acids Res. 2009 Jan;37(Database issue):D77-82. doi: 10.1093/nar/gkn660. Epub 2008 Oct 8.
10
Efficient and accurate P-value computation for Position Weight Matrices.位置权重矩阵的高效准确P值计算。
Algorithms Mol Biol. 2007 Dec 11;2:15. doi: 10.1186/1748-7188-2-15.