• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

VC@Scale:在集群环境中进行可扩展且高性能的变体调用。

VC@Scale: Scalable and high-performance variant calling on cluster environments.

机构信息

Faculty of Electrical Engineering, Mathematics and Computer Science, Quantum & Computer Engineering Department, Mekelweg 4, 2628 CD Delft, Netherlands.

IBM Austin, TX, USA.

出版信息

Gigascience. 2021 Sep 7;10(9). doi: 10.1093/gigascience/giab057.

DOI:10.1093/gigascience/giab057
PMID:34494101
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC8424057/
Abstract

BACKGROUND

Recently many new deep learning-based variant-calling methods like DeepVariant have emerged as more accurate compared with conventional variant-calling algorithms such as GATK HaplotypeCaller, Sterlka2, and Freebayes albeit at higher computational costs. Therefore, there is a need for more scalable and higher performance workflows of these deep learning methods. Almost all existing cluster-scaled variant-calling workflows that use Apache Spark/Hadoop as big data frameworks loosely integrate existing single-node pre-processing and variant-calling applications. Using Apache Spark just for distributing/scheduling data among loosely coupled applications or using I/O-based storage for storing the output of intermediate applications does not exploit the full benefit of Apache Spark in-memory processing. To achieve this, we propose a native Spark-based workflow that uses Python and Apache Arrow to enable efficient transfer of data between different workflow stages. This benefits from the ease of programmability of Python and the high efficiency of Arrow's columnar in-memory data transformations.

RESULTS

Here we present a scalable, parallel, and efficient implementation of next-generation sequencing data pre-processing and variant-calling workflows. Our design tightly integrates most pre-processing workflow stages, using Spark built-in functions to sort reads by coordinates and mark duplicates efficiently. Our approach outperforms state-of-the-art implementations by >2 times for the pre-processing stages, creating a scalable and high-performance solution for DeepVariant for both CPU-only and CPU + GPU clusters.

CONCLUSIONS

We show the feasibility and easy scalability of our approach to achieve high performance and efficient resource utilization for variant-calling analysis on high-performance computing clusters using the standardized Apache Arrow data representations. All codes, scripts, and configurations used to run our implementations are publicly available and open sourced; see https://github.com/abs-tudelft/variant-calling-at-scale.

摘要

背景

与 GATK HaplotypeCaller、Sterlka2 和 Freebayes 等传统变异calling 算法相比,最近出现了许多基于深度学习的新型变异calling 方法,如 DeepVariant,其准确性更高,尽管计算成本更高。因此,这些深度学习方法需要更具可扩展性和更高性能的工作流程。几乎所有现有的基于集群的变异calling 工作流程都使用 Apache Spark/Hadoop 作为大数据框架,松散地集成了现有的单节点预处理和变异calling 应用程序。使用 Apache Spark 仅用于在松散耦合的应用程序之间分发/调度数据,或者使用基于 I/O 的存储来存储中间应用程序的输出,并不能充分利用 Apache Spark 的内存处理优势。为了实现这一点,我们提出了一种基于 Spark 的原生工作流程,该流程使用 Python 和 Apache Arrow 来实现不同工作流程阶段之间的数据高效传输。这得益于 Python 的易于编程性和 Arrow 的列式内存数据转换的高效率。

结果

在这里,我们提出了一种可扩展的、并行的和高效的下一代测序数据预处理和变异calling 工作流程的实现。我们的设计紧密集成了大多数预处理工作流程阶段,使用 Spark 内置函数按坐标对读取进行排序,并有效地标记重复项。我们的方法在预处理阶段的性能比最先进的实现高出>2 倍,为仅 CPU 和 CPU+GPU 集群上的 DeepVariant 提供了一种可扩展且高性能的解决方案。

结论

我们展示了我们的方法的可行性和易于扩展性,以使用标准化的 Apache Arrow 数据表示实现高性能和高效的资源利用,用于高性能计算集群上的变异calling 分析。所有用于运行我们的实现的代码、脚本和配置都可公开获得并开源;请访问 https://github.com/abs-tudelft/variant-calling-at-scale。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/ba4279b4d366/giab057fig13.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/78d98559aca1/giab057fig1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/7afb874f6d46/giab057fig2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/d86b67be7dc9/giab057fig3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/184fbc617f43/giab057fig4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/fc0dc79da103/giab057fig5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/e27615c71cc2/giab057fig6.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/12a60c3b95e6/giab057fig7.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/78edec5e930a/giab057fig8.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/8ca4f656c2d6/giab057fig9.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/0f4fdb471480/giab057fig10.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/4b41ff5b4b48/giab057fig11.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/41e0b389c4b0/giab057fig12.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/ba4279b4d366/giab057fig13.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/78d98559aca1/giab057fig1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/7afb874f6d46/giab057fig2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/d86b67be7dc9/giab057fig3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/184fbc617f43/giab057fig4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/fc0dc79da103/giab057fig5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/e27615c71cc2/giab057fig6.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/12a60c3b95e6/giab057fig7.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/78edec5e930a/giab057fig8.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/8ca4f656c2d6/giab057fig9.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/0f4fdb471480/giab057fig10.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/4b41ff5b4b48/giab057fig11.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/41e0b389c4b0/giab057fig12.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8a83/8424057/ba4279b4d366/giab057fig13.jpg

相似文献

1
VC@Scale: Scalable and high-performance variant calling on cluster environments.VC@Scale:在集群环境中进行可扩展且高性能的变体调用。
Gigascience. 2021 Sep 7;10(9). doi: 10.1093/gigascience/giab057.
2
Optimizing performance of GATK workflows using Apache Arrow In-Memory data framework.使用 Apache Arrow 内存数据框架优化 GATK 工作流程的性能。
BMC Genomics. 2020 Nov 18;21(Suppl 10):683. doi: 10.1186/s12864-020-07013-y.
3
ADS-HCSpark: A scalable HaplotypeCaller leveraging adaptive data segmentation to accelerate variant calling on Spark.ADS-HCSpark:一种可扩展的基于 Spark 的单倍型调用程序,利用自适应数据分段来加速变异调用。
BMC Bioinformatics. 2019 Feb 14;20(1):76. doi: 10.1186/s12859-019-2665-0.
4
Halvade somatic: Somatic variant calling with Apache Spark.半体变异体调用:基于 Apache Spark 的半体变异体调用。
Gigascience. 2022 Jan 12;11(1). doi: 10.1093/gigascience/giab094.
5
OVarFlow: a resource optimized GATK 4 based Open source Variant calling workFlow.OVarFlow:一种基于资源优化的 GATK4 的开源变异调用工作流程。
BMC Bioinformatics. 2021 Aug 13;22(1):402. doi: 10.1186/s12859-021-04317-y.
6
MaRe: Processing Big Data with application containers on Apache Spark.MaRe:在 Apache Spark 上使用应用程序容器处理大数据。
Gigascience. 2020 May 1;9(5). doi: 10.1093/gigascience/giaa042.
7
Big Data in metagenomics: Apache Spark vs MPI.宏基因组学中的大数据:Apache Spark 与 MPI。
PLoS One. 2020 Oct 6;15(10):e0239741. doi: 10.1371/journal.pone.0239741. eCollection 2020.
8
DECA: scalable XHMM exome copy-number variant calling with ADAM and Apache Spark.DECA:使用 ADAM 和 Apache Spark 进行可扩展的 XHMM 外显子拷贝数变异调用。
BMC Bioinformatics. 2019 Oct 11;20(1):493. doi: 10.1186/s12859-019-3108-7.
9
Bioinformatics applications on Apache Spark.基于 Apache Spark 的生物信息学应用。
Gigascience. 2018 Aug 1;7(8):giy098. doi: 10.1093/gigascience/giy098.
10
Managing genomic variant calling workflows with Swift/T.使用 Swift/T 管理基因组变异调用工作流。
PLoS One. 2019 Jul 9;14(7):e0211608. doi: 10.1371/journal.pone.0211608. eCollection 2019.

引用本文的文献

1
Framing Apache Spark in life sciences.从生命科学角度构建Apache Spark
Heliyon. 2023 Feb 9;9(2):e13368. doi: 10.1016/j.heliyon.2023.e13368. eCollection 2023 Feb.
2
Cloud-native distributed genomic pileup operations.云原生分布式基因组堆积操作。
Bioinformatics. 2023 Jan 1;39(1). doi: 10.1093/bioinformatics/btac804.

本文引用的文献

1
PrecisionFDA Truth Challenge V2: Calling variants from short and long reads in difficult-to-map regions.精准FDA真相挑战V2:在难以映射的区域中从短读长和长读长中识别变异体。
Cell Genom. 2022 May 11;2(5). doi: 10.1016/j.xgen.2022.100129. Epub 2022 Apr 27.
2
A unified haplotype-based method for accurate and comprehensive variant calling.基于统一单倍型的精确和全面变异calling 方法。
Nat Biotechnol. 2021 Jul;39(7):885-892. doi: 10.1038/s41587-021-00861-3. Epub 2021 Mar 29.
3
PipeMEM: A Framework to Speed Up BWA-MEM in Spark with Low Overhead.
PipeMEM:一种在 Spark 中使用低开销加速 BWA-MEM 的框架。
Genes (Basel). 2019 Nov 4;10(11):886. doi: 10.3390/genes10110886.
4
Deep convolutional neural networks for accurate somatic mutation detection.深度卷积神经网络用于准确的体细胞突变检测。
Nat Commun. 2019 Mar 4;10(1):1041. doi: 10.1038/s41467-019-09027-x.
5
A universal SNP and small-indel variant caller using deep neural networks.使用深度神经网络的通用 SNP 和小插入缺失变体调用器。
Nat Biotechnol. 2018 Nov;36(10):983-987. doi: 10.1038/nbt.4235. Epub 2018 Sep 24.
6
Strelka2: fast and accurate calling of germline and somatic variants.Strelka2:快速准确地调用种系和体细胞变异。
Nat Methods. 2018 Aug;15(8):591-594. doi: 10.1038/s41592-018-0051-x. Epub 2018 Jul 16.
7
SeqKit: A Cross-Platform and Ultrafast Toolkit for FASTA/Q File Manipulation.SeqKit:一个用于FASTA/Q文件操作的跨平台超快速工具包。
PLoS One. 2016 Oct 5;11(10):e0163962. doi: 10.1371/journal.pone.0163962. eCollection 2016.
8
SparkBWA: Speeding Up the Alignment of High-Throughput DNA Sequencing Data.SparkBWA:加速高通量DNA测序数据比对
PLoS One. 2016 May 16;11(5):e0155461. doi: 10.1371/journal.pone.0155461. eCollection 2016.
9
VarDict: a novel and versatile variant caller for next-generation sequencing in cancer research.VarDict:一种用于癌症研究中下一代测序的新型多功能变异检测工具。
Nucleic Acids Res. 2016 Jun 20;44(11):e108. doi: 10.1093/nar/gkw227. Epub 2016 Apr 7.
10
Halvade: scalable sequence analysis with MapReduce.Halvade:使用MapReduce进行可扩展序列分析。
Bioinformatics. 2015 Aug 1;31(15):2482-8. doi: 10.1093/bioinformatics/btv179. Epub 2015 Mar 26.