• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

基于 Bin 的索引在基因组数据上可扩展的范围连接。

A Bin-Based Indexing for Scalable Range Join on Genomic Data.

出版信息

IEEE/ACM Trans Comput Biol Bioinform. 2023 May-Jun;20(3):2210-2222. doi: 10.1109/TCBB.2023.3240196. Epub 2023 Jun 5.

DOI:10.1109/TCBB.2023.3240196
PMID:37022216
Abstract

Range-join is an operation for finding overlaps in interval-form genomic data. Range-join is widely used in various genome analysis processes such as annotation, filtering and comparison of variants in whole-genome and exome analysis pipelines. The quadratic complexity of current algorithms with sheer data volume has surged the design challenges. Existing tools have limitations on algorithm efficiency, parallelism, scalability and memory consumption. This paper proposes BIndex, a novel bin-based indexing algorithm and its distributed implementation to attain high throughput range-join processing. BIndex features near-constant search complexity while the inherently parallel data structure facilitates exploitation of parallel computing architectures. Balanced partitioning of dataset further enables scalability on distributed frameworks. The implementation on Message Passing Interface shows upto 933.5x speedup in comparison to state-of-the-art tools. Parallel nature of BIndex further enables GPU-based acceleration with 3.72x speedup than CPU implementations. The add-in modules for Apache Spark provides upto 4.65x speedup than the previously best available tool. BIndex supports wide variety of input and output formats prevalent in bioinformatics community and the algorithm is easily extendable to streaming data in recent Big Data solutions. Furthermore, the index data structure is memory-efficient and consumes upto two orders-of-magnitude lesser RAM, while having no adverse effect on speedup.

摘要

范围连接是一种用于在区间形式的基因组数据中查找重叠的操作。范围连接在各种基因组分析过程中广泛使用,例如在全基因组和外显子组分析管道中的注释、变体过滤和比较。随着数据量的增加,当前算法的二次复杂度给设计带来了挑战。现有的工具在算法效率、并行性、可扩展性和内存消耗方面存在局限性。本文提出了 BIndex,这是一种新颖的基于桶的索引算法及其分布式实现,以实现高通量范围连接处理。BIndex 的特点是搜索复杂度接近常数,而固有的并行数据结构有利于利用并行计算架构。数据集的平衡分区进一步实现了分布式框架的可扩展性。在消息传递接口上的实现与最先进的工具相比,速度提高了 933.5 倍。BIndex 的并行性还使 GPU 加速提高了 3.72 倍,而 CPU 实现的速度提高了 3.72 倍。在 Apache Spark 中的附加模块比以前最好的可用工具提供了高达 4.65 倍的速度提升。BIndex 支持生物信息学社区中流行的各种输入和输出格式,并且算法易于扩展到最近的大数据解决方案中的流数据。此外,索引数据结构具有内存效率,消耗的 RAM 少两个数量级,而对加速没有不利影响。

相似文献

1
A Bin-Based Indexing for Scalable Range Join on Genomic Data.基于 Bin 的索引在基因组数据上可扩展的范围连接。
IEEE/ACM Trans Comput Biol Bioinform. 2023 May-Jun;20(3):2210-2222. doi: 10.1109/TCBB.2023.3240196. Epub 2023 Jun 5.
2
Optimizing performance of GATK workflows using Apache Arrow In-Memory data framework.使用 Apache Arrow 内存数据框架优化 GATK 工作流程的性能。
BMC Genomics. 2020 Nov 18;21(Suppl 10):683. doi: 10.1186/s12864-020-07013-y.
3
VC@Scale: Scalable and high-performance variant calling on cluster environments.VC@Scale:在集群环境中进行可扩展且高性能的变体调用。
Gigascience. 2021 Sep 7;10(9). doi: 10.1093/gigascience/giab057.
4
Big Data in metagenomics: Apache Spark vs MPI.宏基因组学中的大数据:Apache Spark 与 MPI。
PLoS One. 2020 Oct 6;15(10):e0239741. doi: 10.1371/journal.pone.0239741. eCollection 2020.
5
Cloud-native distributed genomic pileup operations.云原生分布式基因组堆积操作。
Bioinformatics. 2023 Jan 1;39(1). doi: 10.1093/bioinformatics/btac804.
6
Fast Equi-Join Algorithms on GPUs: Design and Implementation.基于图形处理器的快速等值连接算法:设计与实现
Sci Stat Database Manag. 2017 Jun;2017. doi: 10.1145/3085504.3085521. Epub 2017 Jun 27.
7
parSMURF, a high-performance computing tool for the genome-wide detection of pathogenic variants.parSMURF,一种用于全基因组致病性变异检测的高性能计算工具。
Gigascience. 2020 May 1;9(5). doi: 10.1093/gigascience/giaa052.
8
SeQuiLa-cov: A fast and scalable library for depth of coverage calculations.SeQuiLa-cov:一个快速且可扩展的覆盖深度计算库。
Gigascience. 2019 Aug 1;8(8). doi: 10.1093/gigascience/giz094.
9
A nonvoxel-based dose convolution/superposition algorithm optimized for scalable GPU architectures.一种针对可扩展GPU架构进行优化的基于非体素的剂量卷积/叠加算法。
Med Phys. 2014 Oct;41(10):101711. doi: 10.1118/1.4895822.
10
Towards a HPC-oriented parallel implementation of a learning algorithm for bioinformatics applications.面向高性能计算的生物信息学应用学习算法并行实现
BMC Bioinformatics. 2014;15 Suppl 5(Suppl 5):S2. doi: 10.1186/1471-2105-15-S5-S2. Epub 2014 May 6.

引用本文的文献

1
Joint Representation Learning for Retrieval and Annotation of Genomic Interval Sets.用于基因组区间集检索和注释的联合表示学习
Bioengineering (Basel). 2024 Mar 8;11(3):263. doi: 10.3390/bioengineering11030263.