• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

DSK:使用极低内存进行 k-mer 计数。

DSK: k-mer counting with very low memory usage.

机构信息

Algorizk, 75013 Paris, France.

出版信息

Bioinformatics. 2013 Mar 1;29(5):652-3. doi: 10.1093/bioinformatics/btt020. Epub 2013 Jan 16.

DOI:10.1093/bioinformatics/btt020
PMID:23325618
Abstract

SUMMARY

Counting all the k-mers (substrings of length k) in DNA/RNA sequencing reads is the preliminary step of many bioinformatics applications. However, state of the art k-mer counting methods require that a large data structure resides in memory. Such structure typically grows with the number of distinct k-mers to count. We present a new streaming algorithm for k-mer counting, called DSK (disk streaming of k-mers), which only requires a fixed user-defined amount of memory and disk space. This approach realizes a memory, time and disk trade-off. The multi-set of all k-mers present in the reads is partitioned, and partitions are saved to disk. Then, each partition is separately loaded in memory in a temporary hash table. The k-mer counts are returned by traversing each hash table. Low-abundance k-mers are optionally filtered. DSK is the first approach that is able to count all the 27-mers of a human genome dataset using only 4.0 GB of memory and moderate disk space (160 GB), in 17.9 h. DSK can replace a popular k-mer counting software (Jellyfish) on small-memory servers.

AVAILABILITY

http://minia.genouest.org/dsk

摘要

摘要

在 DNA/RNA 测序reads 中计算所有的 k-mer(长度为 k 的子字符串)是许多生物信息学应用的初步步骤。然而,最先进的 k-mer 计数方法要求大量的数据结构驻留在内存中。这种结构通常随着要计数的不同 k-mer 的数量而增长。我们提出了一种新的用于 k-mer 计数的流式算法,称为 DSK(k-mer 的磁盘流),它只需要固定的用户定义的内存和磁盘空间。这种方法实现了内存、时间和磁盘之间的权衡。在读取中出现的所有 k-mer 的多集被分区,并将分区保存到磁盘。然后,每个分区分别在内存中的临时哈希表中加载。通过遍历每个哈希表返回 k-mer 计数。可选地过滤低丰度的 k-mer。DSK 是第一个能够仅使用 4.0GB 内存和适度磁盘空间(160GB)来计算人类基因组数据集的所有 27-mer 的方法,耗时 17.9 小时。DSK 可以在小内存服务器上替代流行的 k-mer 计数软件(Jellyfish)。

网址

http://minia.genouest.org/dsk

相似文献

1
DSK: k-mer counting with very low memory usage.DSK:使用极低内存进行 k-mer 计数。
Bioinformatics. 2013 Mar 1;29(5):652-3. doi: 10.1093/bioinformatics/btt020. Epub 2013 Jan 16.
2
These are not the k-mers you are looking for: efficient online k-mer counting using a probabilistic data structure.这些不是你要找的k-mer:使用概率数据结构进行高效在线k-mer计数。
PLoS One. 2014 Jul 25;9(7):e101271. doi: 10.1371/journal.pone.0101271. eCollection 2014.
3
A general near-exact k-mer counting method with low memory consumption enables de novo assembly of 106× human sequence data in 2.7 hours.一种通用的、近精确的低内存消耗 k-mer 计数方法,可在 2.7 小时内完成 106×人类序列数据的从头组装。
Bioinformatics. 2020 Dec 30;36(Suppl_2):i625-i633. doi: 10.1093/bioinformatics/btaa890.
4
Gerbil: a fast and memory-efficient -mer counter with GPU-support.沙鼠:一种支持GPU的快速且内存高效的-mer计数器。
Algorithms Mol Biol. 2017 Mar 31;12:9. doi: 10.1186/s13015-017-0097-9. eCollection 2017.
5
A fast, lock-free approach for efficient parallel counting of occurrences of k-mers.一种快速、无锁的方法,用于高效并行计数 k-mer 的出现次数。
Bioinformatics. 2011 Mar 15;27(6):764-70. doi: 10.1093/bioinformatics/btr011. Epub 2011 Jan 7.
6
SAKE: Strobemer-assisted k-mer extraction.SAKE:频闪辅助 k-mer 提取。
PLoS One. 2023 Nov 29;18(11):e0294415. doi: 10.1371/journal.pone.0294415. eCollection 2023.
7
KMC 2: fast and resource-frugal k-mer counting.KMC 2:快速且资源节约型的k-mer计数法
Bioinformatics. 2015 May 15;31(10):1569-76. doi: 10.1093/bioinformatics/btv022. Epub 2015 Jan 20.
8
KCOSS: an ultra-fast k-mer counter for assembled genome analysis.KCOSS:用于组装基因组分析的超快速k-mer计数器。
Bioinformatics. 2022 Jan 27;38(4):933-940. doi: 10.1093/bioinformatics/btab797.
9
Squeakr: an exact and approximate k-mer counting system.Squeakr:一种精确和近似的 k-mer 计数系统。
Bioinformatics. 2018 Feb 15;34(4):568-575. doi: 10.1093/bioinformatics/btx636.
10
Computational Performance Assessment of k-mer Counting Algorithms.k-mer计数算法的计算性能评估
J Comput Biol. 2016 Apr;23(4):248-55. doi: 10.1089/cmb.2015.0199. Epub 2016 Mar 16.

引用本文的文献

1
A composite universal DNA signature for the tree of life.一种用于生命之树的复合通用DNA特征。
Nat Ecol Evol. 2025 Jun 25. doi: 10.1038/s41559-025-02752-1.
2
PISAD: reference-free intraspecies sample anomalies detection tool based on k-mer counting.PISAD:基于k-mer计数的无参考种内样本异常检测工具。
Gigascience. 2025 Jan 6;14. doi: 10.1093/gigascience/giaf061.
3
MAFcounter: an efficient tool for counting the occurrences of k-mers in MAF files.MAFcounter:一种用于统计MAF文件中k-mer出现次数的高效工具。
BMC Bioinformatics. 2025 May 30;26(1):142. doi: 10.1186/s12859-025-06172-7.
4
Estimating similarity and distance using FracMinHash.使用FracMinHash估计相似度和距离。
Algorithms Mol Biol. 2025 May 15;20(1):8. doi: 10.1186/s13015-025-00276-8.
5
MAFcounter: An efficient tool for counting the occurrences of k-mers in MAF files.MAFcounter:一种用于统计MAF文件中k-mer出现次数的高效工具。
ArXiv. 2024 Nov 29:arXiv:2411.19427v1.
6
Efficient Storage and Analysis of Genomic Data: A k-mer Frequency Mapping and Image Representation Method.基因组数据的高效存储与分析:一种k-mer频率映射与图像表示方法。
Interdiscip Sci. 2024 Oct 21. doi: 10.1007/s12539-024-00659-2.
7
Advances in Protein-Ligand Binding Affinity Prediction via Deep Learning: A Comprehensive Study of Datasets, Data Preprocessing Techniques, and Model Architectures.基于深度学习的蛋白质-配体结合亲和力预测方法进展:数据集、数据预处理技术和模型架构的综合研究。
Curr Drug Targets. 2024;25(15):1041-1065. doi: 10.2174/0113894501330963240905083020.
8
Scalable and unsupervised discovery from raw sequencing reads using SPLASH2.使用SPLASH2从原始测序读数中进行可扩展且无监督的发现。
Nat Biotechnol. 2024 Sep 23. doi: 10.1038/s41587-024-02381-2.
9
Bacteriophage-driven emergence and expansion of Staphylococcus aureus in rodent populations.噬菌体驱动的金黄色葡萄球菌在啮齿动物种群中的出现和扩张。
PLoS Pathog. 2024 Jul 24;20(7):e1012378. doi: 10.1371/journal.ppat.1012378. eCollection 2024 Jul.
10
Cosine Similarity Estimation Using FracMinHash: Theoretical Analysis, Safety Conditions, and Implementation.使用FracMinHash的余弦相似度估计:理论分析、安全条件及实现
bioRxiv. 2024 May 30:2024.05.24.595805. doi: 10.1101/2024.05.24.595805.