• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

Kmerind:一种用于分布式内存系统上生物序列的 K-mer 索引的灵活并行库。

Kmerind: A Flexible Parallel Library for K-mer Indexing of Biological Sequences on Distributed Memory Systems.

出版信息

IEEE/ACM Trans Comput Biol Bioinform. 2019 Jul-Aug;16(4):1117-1131. doi: 10.1109/TCBB.2017.2760829. Epub 2017 Oct 9.

DOI:10.1109/TCBB.2017.2760829
PMID:28991750
Abstract

Counting and indexing fixed length substrings, or $k$k-mers, in biological sequences is a key step in many bioinformatics tasks including genome alignment and mapping, genome assembly, and error correction. While advances in next generation sequencing technologies have dramatically reduced the cost and improved latency and throughput, few bioinformatics tools can efficiently process the datasets at the current generation rate of 1.8 terabases per 3-day experiment from a single sequencer. We present Kmerind, a high performance parallel $k$k-mer indexing library for distributed memory environments. The Kmerind library provides a set of simple and consistent APIs with sequential semantics and parallel implementations that are designed to be flexible and extensible. Kmerind's $k$k-mer counter performs similarly or better than the best existing $k$k-mer counting tools even on shared memory systems. In a distributed memory environment, Kmerind counts $k$k-mers in a 120 GB sequence read dataset in less than 13 seconds on 1024 Xeon CPU cores, and fully indexes their positions in approximately 17 seconds. Querying for 1 percent of the $k$k-mers in these indices can be completed in 0.23 seconds and 28 seconds, respectively. Kmerind is the first $k$k-mer indexing library for distributed memory environments, and the first extensible library for general $k$k-mer indexing and counting. Kmerind is available at https://github.com/ParBLiSS/kmerind.

摘要

在许多生物信息学任务中,例如基因组比对和映射、基因组组装和错误纠正,对生物序列中的固定长度子字符串(或 $k$ -mer)进行计数和索引是关键步骤。尽管下一代测序技术的进步极大地降低了成本并提高了延迟和吞吐量,但很少有生物信息学工具能够有效地处理当前单台测序仪每 3 天实验产生 1.8 太字节数据集的速度。我们提出了 Kmerind,这是一种用于分布式内存环境的高性能并行 $k$ -mer 索引库。Kmerind 库提供了一组简单而一致的 API,具有顺序语义和并行实现,旨在具有灵活性和可扩展性。即使在共享内存系统上,Kmerind 的 $k$ -mer 计数器的性能也与现有的最佳 $k$ -mer 计数工具相似或更好。在分布式内存环境中,Kmerind 在 1024 个 Xeon CPU 内核上不到 13 秒即可对 120GB 序列读取数据集进行 $k$ -mer 计数,并在大约 17 秒内完全索引其位置。在这些索引中查询 1%的 $k$ -mer,可以分别在 0.23 秒和 28 秒内完成。Kmerind 是第一个用于分布式内存环境的 $k$ -mer 索引库,也是第一个用于通用 $k$ -mer 索引和计数的可扩展库。Kmerind 可在 https://github.com/ParBLiSS/kmerind 上获得。

相似文献

1
Kmerind: A Flexible Parallel Library for K-mer Indexing of Biological Sequences on Distributed Memory Systems.Kmerind:一种用于分布式内存系统上生物序列的 K-mer 索引的灵活并行库。
IEEE/ACM Trans Comput Biol Bioinform. 2019 Jul-Aug;16(4):1117-1131. doi: 10.1109/TCBB.2017.2760829. Epub 2017 Oct 9.
2
Querying large read collections in main memory: a versatile data structure.在主内存中查询大型读取集合:一种通用的数据结构。
BMC Bioinformatics. 2011 Jun 17;12:242. doi: 10.1186/1471-2105-12-242.
3
A general near-exact k-mer counting method with low memory consumption enables de novo assembly of 106× human sequence data in 2.7 hours.一种通用的、近精确的低内存消耗 k-mer 计数方法,可在 2.7 小时内完成 106×人类序列数据的从头组装。
Bioinformatics. 2020 Dec 30;36(Suppl_2):i625-i633. doi: 10.1093/bioinformatics/btaa890.
4
Squeakr: an exact and approximate k-mer counting system.Squeakr:一种精确和近似的 k-mer 计数系统。
Bioinformatics. 2018 Feb 15;34(4):568-575. doi: 10.1093/bioinformatics/btx636.
5
A benchmark study of k-mer counting methods for high-throughput sequencing.用于高通量测序的 k-mer 计数方法的基准研究。
Gigascience. 2018 Dec 1;7(12):giy125. doi: 10.1093/gigascience/giy125.
6
KCMBT: a k-mer Counter based on Multiple Burst Trees.KCMBT:一种基于多重突发树的k-mer计数器。
Bioinformatics. 2016 Sep 15;32(18):2783-90. doi: 10.1093/bioinformatics/btw345. Epub 2016 Jun 9.
7
Lossless indexing with counting de Bruijn graphs.基于计数型 de Bruijn 图的无损索引
Genome Res. 2022 Sep 27;32(9):1754-1764. doi: 10.1101/gr.276607.122.
8
BLight: efficient exact associative structure for k-mers.BLight:用于k-mer的高效精确关联结构。
Bioinformatics. 2021 Sep 29;37(18):2858-2865. doi: 10.1093/bioinformatics/btab217.
9
DSK: k-mer counting with very low memory usage.DSK:使用极低内存进行 k-mer 计数。
Bioinformatics. 2013 Mar 1;29(5):652-3. doi: 10.1093/bioinformatics/btt020. Epub 2013 Jan 16.
10
A fast, lock-free approach for efficient parallel counting of occurrences of k-mers.一种快速、无锁的方法,用于高效并行计数 k-mer 的出现次数。
Bioinformatics. 2011 Mar 15;27(6):764-70. doi: 10.1093/bioinformatics/btr011. Epub 2011 Jan 7.

引用本文的文献

1
A survey of k-mer methods and applications in bioinformatics.生物信息学中k-mer方法及其应用综述。
Comput Struct Biotechnol J. 2024 May 21;23:2289-2303. doi: 10.1016/j.csbj.2024.05.025. eCollection 2024 Dec.
2
Genome assembly composition of the String "ACGT" array: a review of data structure accuracy and performance challenges.字符串“ACGT”阵列的基因组组装组成:数据结构准确性和性能挑战综述
PeerJ Comput Sci. 2023 Jul 13;9:e1180. doi: 10.7717/peerj-cs.1180. eCollection 2023.
3
Correlation-Based Analysis of COVID-19 Virus Genome Versus Other Fatal Virus Genomes.
基于相关性的新冠病毒基因组与其他致命病毒基因组分析
Arab J Sci Eng. 2021 Jun 24:1-13. doi: 10.1007/s13369-021-05811-4.
4
A computational toolset for rapid identification of SARS-CoV-2, other viruses and microorganisms from sequencing data.用于从测序数据中快速识别 SARS-CoV-2、其他病毒和微生物的计算工具集。
Brief Bioinform. 2021 Mar 22;22(2):924-935. doi: 10.1093/bib/bbaa231.
5
The parallelism motifs of genomic data analysis.基因组数据分析的并行模式。
Philos Trans A Math Phys Eng Sci. 2020 Mar 6;378(2166):20190394. doi: 10.1098/rsta.2019.0394. Epub 2020 Jan 20.
6
Analyzing big datasets of genomic sequences: fast and scalable collection of k-mer statistics.分析基因组序列的大数据集:快速可扩展的 k-mer 统计信息收集。
BMC Bioinformatics. 2019 Apr 18;20(Suppl 4):138. doi: 10.1186/s12859-019-2694-8.