• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

KegAlign:通过对角线划分优化成对序列比对

KegAlign: Optimizing pairwise alignments with diagonal partitioning.

作者信息

Gulhan A Burak, Burhans Richard, Harris Robert, Kandemir Mahmut, Haeussler Maximilian, Nekrutenko Anton

机构信息

Department of Computer Science and Engineering, Penn State University.

Department of Biochemistry and Molecular Biology, Penn State University.

出版信息

bioRxiv. 2024 Sep 3:2024.09.02.610839. doi: 10.1101/2024.09.02.610839.

DOI:10.1101/2024.09.02.610839
PMID:39282333
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC11398343/
Abstract

Our ability to generate sequencing data and assemble it into high quality complete genomes has rapidly advanced in recent years. These data promise to advance our understanding of organismal biology and answer longstanding evolutionary questions. Multiple genome alignment is a key tool in this quest. It is also the area which is lagging: today we can generate genomes faster than we can construct and update multiple alignments containing them. The bottleneck is in considerable computational time required to generate accurate pairwise alignments between divergent genomes, an unavoidable precursor to multiple alignments. This step is typically performed with lastZ, a very sensitive and yet equally slow tool. Here we describe an optimized GPU-enabled pairwise aligner KegAlign. It incorporates a new parallelization strategy, diagonal partitioning, with the latest features of modern GPUs. With KegAlign a typical human/mouse alignment can be computed in under 6 hours on a machine containing a single NVidia A100 GPU and 80 CPU cores without the need for any pre-partitioning of input sequences: a ~150× improvement over lastZ. While other pairwise aligners can complete this task in a fraction of that time, none achieves the sensitivity of KegAlign's main alignment engine, lastZ, and thus may not be suitable for comparing divergent genomes. In addition to providing the source code and a Conda package for KegAlign we also provide a Galaxy workflow that can be readily used by anyone.

摘要

近年来,我们生成测序数据并将其组装成高质量完整基因组的能力迅速提升。这些数据有望增进我们对生物生物学的理解,并解答长期存在的进化问题。多重基因组比对是实现这一目标的关键工具。然而,这也是目前进展滞后的领域:如今我们生成基因组的速度比构建和更新包含这些基因组的多重比对的速度更快。瓶颈在于生成不同基因组之间准确的两两比对所需的大量计算时间,而这是多重比对不可避免的前置步骤。这一步骤通常使用lastZ来执行,它是一个非常灵敏但同样缓慢的工具。在此,我们描述了一种经过优化的、支持GPU的两两比对工具KegAlign。它采用了一种新的并行化策略——对角线分区,并结合了现代GPU的最新特性。使用KegAlign,在一台配备单个英伟达A100 GPU和80个CPU核心的机器上,无需对输入序列进行任何预先分区,就能在6小时内完成典型的人类/小鼠比对:比lastZ快约150倍。虽然其他两两比对工具能在更短的时间内完成这项任务,但没有一个能达到KegAlign主要比对引擎lastZ的灵敏度,因此可能不适用于比较差异较大的基因组。除了提供KegAlign的源代码和Conda包外,我们还提供了一个任何人都能轻松使用的Galaxy工作流程。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/b2ef/11398343/3e31965ae26c/nihpp-2024.09.02.610839v1-f0008.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/b2ef/11398343/f4ad973b6676/nihpp-2024.09.02.610839v1-f0001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/b2ef/11398343/7466f93f537f/nihpp-2024.09.02.610839v1-f0002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/b2ef/11398343/d6ebcffbdb50/nihpp-2024.09.02.610839v1-f0003.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/b2ef/11398343/ab9fcd333c02/nihpp-2024.09.02.610839v1-f0004.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/b2ef/11398343/98ededdcef8c/nihpp-2024.09.02.610839v1-f0005.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/b2ef/11398343/eb93c857e936/nihpp-2024.09.02.610839v1-f0006.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/b2ef/11398343/bb5c3c993e3b/nihpp-2024.09.02.610839v1-f0007.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/b2ef/11398343/3e31965ae26c/nihpp-2024.09.02.610839v1-f0008.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/b2ef/11398343/f4ad973b6676/nihpp-2024.09.02.610839v1-f0001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/b2ef/11398343/7466f93f537f/nihpp-2024.09.02.610839v1-f0002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/b2ef/11398343/d6ebcffbdb50/nihpp-2024.09.02.610839v1-f0003.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/b2ef/11398343/ab9fcd333c02/nihpp-2024.09.02.610839v1-f0004.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/b2ef/11398343/98ededdcef8c/nihpp-2024.09.02.610839v1-f0005.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/b2ef/11398343/eb93c857e936/nihpp-2024.09.02.610839v1-f0006.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/b2ef/11398343/bb5c3c993e3b/nihpp-2024.09.02.610839v1-f0007.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/b2ef/11398343/3e31965ae26c/nihpp-2024.09.02.610839v1-f0008.jpg

相似文献

1
KegAlign: Optimizing pairwise alignments with diagonal partitioning.KegAlign:通过对角线划分优化成对序列比对
bioRxiv. 2024 Sep 3:2024.09.02.610839. doi: 10.1101/2024.09.02.610839.
2
Accelerating Minimap2 for Accurate Long Read Alignment on GPUs.在GPU上加速Minimap2以实现准确的长读长比对
J Biotechnol Biomed. 2023;6(1):13-23. doi: 10.26502/jbb.2642-91280067. Epub 2023 Jan 20.
3
YOC, A new strategy for pairwise alignment of collinear genomes.YOC,一种用于共线基因组两两比对的新策略。
BMC Bioinformatics. 2015 Apr 2;16(1):111. doi: 10.1186/s12859-015-0530-3.
4
Arioc: High-concurrency short-read alignment on multiple GPUs.Arioc:在多个 GPU 上进行高并发性短读对齐。
PLoS Comput Biol. 2020 Nov 9;16(11):e1008383. doi: 10.1371/journal.pcbi.1008383. eCollection 2020 Nov.
5
WFA-GPU: gap-affine pairwise read-alignment using GPUs.WFA-GPU:基于 GPU 的缺口仿射两两序列比对
Bioinformatics. 2023 Dec 1;39(12). doi: 10.1093/bioinformatics/btad701.
6
FEAST: sensitive local alignment with multiple rates of evolution.FEAST:敏感的多进化速率局部比对。
IEEE/ACM Trans Comput Biol Bioinform. 2011 May-Jun;8(3):698-709. doi: 10.1109/TCBB.2010.76.
7
A fast forward projection using multithreads for multirays on GPUs in medical image reconstruction.基于 GPU 的医学图像重建中多线程快速前向投影的多射线算法。
Med Phys. 2011 Jul;38(7):4052-65. doi: 10.1118/1.3591994.
8
Global multiple protein-protein interaction network alignment by combining pairwise network alignments.通过结合成对网络比对进行全局多重蛋白质-蛋白质相互作用网络比对。
BMC Bioinformatics. 2015;16 Suppl 13(Suppl 13):S11. doi: 10.1186/1471-2105-16-S13-S11. Epub 2015 Sep 25.
9
G-Anchor: a novel approach for whole-genome comparative mapping utilizing evolutionary conserved DNA sequences.G-Anchor:一种利用进化保守 DNA 序列进行全基因组比较作图的新方法。
Gigascience. 2018 May 1;7(5). doi: 10.1093/gigascience/giy017.
10
Aligning the unalignable: bacteriophage whole genome alignments.比对不可比对之物:噬菌体全基因组比对
BMC Bioinformatics. 2016 Jan 13;17:30. doi: 10.1186/s12859-015-0869-5.

本文引用的文献

1
The Galaxy platform for accessible, reproducible, and collaborative data analyses: 2024 update.Galaxy 平台,用于可访问、可重现和协作的数据分析:2024 年更新。
Nucleic Acids Res. 2024 Jul 5;52(W1):W83-W94. doi: 10.1093/nar/gkae410.
2
The Planemo toolkit for developing, deploying, and executing scientific data analyses in Galaxy and beyond.Planemo 工具包,用于在 Galaxy 内外开发、部署和执行科学数据分析。
Genome Res. 2023 Feb;33(2):261-268. doi: 10.1101/gr.276963.122. Epub 2023 Feb 24.
3
Optimal gap-affine alignment in O(s) space.
最优间隙仿射对齐,时间复杂度为 O(s)。
Bioinformatics. 2023 Feb 3;39(2). doi: 10.1093/bioinformatics/btad074.
4
The era of reference genomes in conservation genomics.保护基因组学中的参考基因组时代。
Trends Ecol Evol. 2022 Mar;37(3):197-202. doi: 10.1016/j.tree.2021.11.008. Epub 2022 Jan 24.
5
The Earth BioGenome Project 2020: Starting the clock.地球生物基因组计划2020:开启计时。
Proc Natl Acad Sci U S A. 2022 Jan 25;119(4). doi: 10.1073/pnas.2115635118.
6
Toward a genome sequence for every animal: Where are we now?迈向为每一种动物构建基因组序列:我们现在在哪里?
Proc Natl Acad Sci U S A. 2021 Dec 28;118(52). doi: 10.1073/pnas.2109019118.
7
Progressive Cactus is a multiple-genome aligner for the thousand-genome era.渐进仙人掌是一个适用于千基因组时代的多基因组比对工具。
Nature. 2020 Nov;587(7833):246-251. doi: 10.1038/s41586-020-2871-y. Epub 2020 Nov 11.
8
Fast gap-affine pairwise alignment using the wavefront algorithm.基于波前算法的快速间隙亲和双序列比对。
Bioinformatics. 2021 May 1;37(4):456-463. doi: 10.1093/bioinformatics/btaa777.
9
Whole-Genome Alignment and Comparative Annotation.全基因组比对和注释。
Annu Rev Anim Biosci. 2019 Feb 15;7:41-64. doi: 10.1146/annurev-animal-020518-115005. Epub 2018 Oct 31.
10
Minimap2: pairwise alignment for nucleotide sequences.Minimap2:核苷酸序列的两两比对。
Bioinformatics. 2018 Sep 15;34(18):3094-3100. doi: 10.1093/bioinformatics/bty191.