• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

利用最小去环集对大 值 进行有效最小化排序。

Efficient minimizer orders for large values of using minimum decycling sets.

机构信息

Blavatnik School of Computer Science, Tel-Aviv University, Tel Aviv 6997801, Israel.

Computer Science and Artificial Intelligence Laboratory, Massachusetts Institute of Technology, Cambridge, Massachusetts 02139, USA.

出版信息

Genome Res. 2023 Jul;33(7):1154-1161. doi: 10.1101/gr.277644.123. Epub 2023 Aug 9.

DOI:10.1101/gr.277644.123
PMID:37558282
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC10538483/
Abstract

Minimizers are ubiquitously used in data structures and algorithms for efficient searching, mapping, and indexing of high-throughput DNA sequencing data. Minimizer schemes select a minimum -mer in every -long subsequence of the target sequence, where minimality is with respect to a predefined -mer order. Commonly used minimizer orders select more -mers than necessary and therefore provide limited improvement in runtime and memory usage of downstream analysis tasks. The recently introduced universal -mer hitting sets produce minimizer orders with fewer selected -mers. Generating compact universal -mer hitting sets is currently infeasible for > 13, and thus, they cannot help in the many applications that require minimizer orders for larger Here, we close the gap of efficient minimizer orders for large values of by introducing --: new minimizer orders based on minimum decycling sets. We show that in practice these new minimizer orders select a number of -mers comparable to that of minimizer orders based on universal -mer hitting sets and can also scale to a larger Furthermore, we developed a method that computes the minimizers in a sequence on the fly without keeping the -mers of a decycling set in memory. This enables the use of these minimizer orders for any value of We expect the new orders to improve the runtime and memory usage of algorithms and data structures in high-throughput DNA sequencing analysis.

摘要

最小生成器在数据结构和算法中被广泛用于高效搜索、映射和索引高通量 DNA 测序数据。最小生成器方案在目标序列的每个 - 长子序列中选择一个最小 -mer,其中最小性是相对于预定义的 -mer 顺序。常用的最小生成器顺序选择的 -mers 比必要的多,因此在运行时和下游分析任务的内存使用方面提供的改进有限。最近引入的通用 -mer 命中集生成具有较少选定 -mers 的最小生成器顺序。对于 > 13,生成紧凑的通用 -mer 命中集目前是不可行的,因此它们无法帮助许多需要较大 的应用程序生成最小生成器顺序。在这里,我们通过引入 --:基于最小非循环集的新最小生成器顺序来缩小高效最小生成器顺序的差距。我们表明,在实践中,这些新的最小生成器顺序选择的 -mers 数量与基于通用 -mer 命中集的最小生成器顺序相当,并且也可以扩展到更大的 。此外,我们开发了一种在不将非循环集的 -mers 保留在内存中的情况下在序列中动态计算最小生成器的方法。这使得这些最小生成器顺序可以用于任何 的值。我们期望新的顺序能够提高高通量 DNA 测序分析中算法和数据结构的运行时和内存使用效率。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8feb/10538483/b9969d20fc5c/1154f04.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8feb/10538483/63cc2822acff/1154f01.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8feb/10538483/638dbe6ddfac/1154f02.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8feb/10538483/179e282d3041/1154f03.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8feb/10538483/b9969d20fc5c/1154f04.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8feb/10538483/63cc2822acff/1154f01.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8feb/10538483/638dbe6ddfac/1154f02.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8feb/10538483/179e282d3041/1154f03.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8feb/10538483/b9969d20fc5c/1154f04.jpg

相似文献

1
Efficient minimizer orders for large values of using minimum decycling sets.利用最小去环集对大 值 进行有效最小化排序。
Genome Res. 2023 Jul;33(7):1154-1161. doi: 10.1101/gr.277644.123. Epub 2023 Aug 9.
2
Data Set-Adaptive Minimizer Order Reduces Memory Usage in -Mer Counting.数据集自适应最小化器阶数降低了-mer计数中的内存使用量。
J Comput Biol. 2022 Aug;29(8):825-838. doi: 10.1089/cmb.2021.0599. Epub 2022 May 6.
3
A simple refined DNA minimizer operator enables 2-fold faster computation.一个简单的改进 DNA 简化操作符可以使计算速度提高 2 倍。
Bioinformatics. 2024 Feb 1;40(2). doi: 10.1093/bioinformatics/btae045.
4
Improved Analysis of High-Throughput Sequencing Data Using Small Universal k-Mer Hitting Sets.利用小型通用 k-mer 击中集改进高通量测序数据的分析。
Methods Mol Biol. 2021;2243:95-105. doi: 10.1007/978-1-0716-1103-6_5.
5
Designing small universal k-mer hitting sets for improved analysis of high-throughput sequencing.设计小型通用k-mer命中集以改进对高通量测序的分析
PLoS Comput Biol. 2017 Oct 2;13(10):e1005777. doi: 10.1371/journal.pcbi.1005777. eCollection 2017 Oct.
6
Sketching Methods with Small Window Guarantee Using Minimum Decycling Sets.使用最小去环集保证小窗口的草图方法。
J Comput Biol. 2024 Jul;31(7):597-615. doi: 10.1089/cmb.2024.0544. Epub 2024 Jul 9.
7
Creating and Using Minimizer Sketches in Computational Genomics.在计算基因组学中创建和使用最小草图。
J Comput Biol. 2023 Dec;30(12):1251-1276. doi: 10.1089/cmb.2023.0094. Epub 2023 Aug 30.
8
Lower Density Selection Schemes via Small Universal Hitting Sets with Short Remaining Path Length.通过具有短剩余路径长度的小型通用命中集进行低密度选择方案。
J Comput Biol. 2021 Apr;28(4):395-409. doi: 10.1089/cmb.2020.0432. Epub 2020 Dec 15.
9
A Randomized Parallel Algorithm for Efficiently Finding Near-Optimal Universal Hitting Sets.一种用于高效找到近似最优通用命中集的随机并行算法。
Res Comput Mol Biol. 2020 May;12074:37-53. doi: 10.1007/978-3-030-45257-5_3. Epub 2020 Apr 21.
10
Improved design and analysis of practical minimizers.实用极小化器的改进设计与分析。
Bioinformatics. 2020 Jul 1;36(Suppl_1):i119-i127. doi: 10.1093/bioinformatics/btaa472.

引用本文的文献

1
GreedyMini: generating low-density DNA minimizers.GreedyMini:生成低密度DNA最小化子
Bioinformatics. 2025 Jul 1;41(Supplement_1):i275-i284. doi: 10.1093/bioinformatics/btaf251.
2
K2R: Tinted de Bruijn graphs implementation for efficient read extraction from sequencing datasets.K2R:用于从测序数据集中高效提取 reads 的带颜色的德布鲁因图实现。
Bioinform Adv. 2025 May 14;5(1):vbaf111. doi: 10.1093/bioadv/vbaf111. eCollection 2025.
3
The open-closed mod-minimizer algorithm.开闭模极小化算法。

本文引用的文献

1
A Randomized Parallel Algorithm for Efficiently Finding Near-Optimal Universal Hitting Sets.一种用于高效找到近似最优通用命中集的随机并行算法。
Res Comput Mol Biol. 2020 May;12074:37-53. doi: 10.1007/978-3-030-45257-5_3. Epub 2020 Apr 21.
2
Strobealign: flexible seed size enables ultra-fast and accurate read alignment.Strobealign:灵活的种子大小可实现超快速和准确的读取对齐。
Genome Biol. 2022 Dec 15;23(1):260. doi: 10.1186/s13059-022-02831-7.
3
Parameterized syncmer schemes improve long-read mapping.参数化同步mers 方案提高了长读测序数据的比对效率。
Algorithms Mol Biol. 2025 Mar 17;20(1):4. doi: 10.1186/s13015-025-00270-0.
4
Fractional hitting sets for efficient multiset sketching.用于高效多重集草图绘制的分数击中集
Algorithms Mol Biol. 2025 Feb 8;20(1):1. doi: 10.1186/s13015-024-00268-0.
5
A near-tight lower bound on the density of forward sampling schemes.前向采样方案密度的一个近乎紧密的下界。
Bioinformatics. 2024 Dec 26;41(1). doi: 10.1093/bioinformatics/btae736.
6
A near-tight lower bound on the density of forward sampling schemes.前向采样方案密度的一个近乎紧密的下界。
bioRxiv. 2024 Nov 19:2024.09.06.611668. doi: 10.1101/2024.09.06.611668.
7
k-nonical space: sketching with reverse complements.k-典范空间:使用互补序列进行草图绘制。
Bioinformatics. 2024 Nov 1;40(11). doi: 10.1093/bioinformatics/btae629.
8
When less is more: sketching with minimizers in genomics.少即是多:基因组学中的最小化器草图。
Genome Biol. 2024 Oct 14;25(1):270. doi: 10.1186/s13059-024-03414-4.
9
Sketching Methods with Small Window Guarantee Using Minimum Decycling Sets.使用最小去环集保证小窗口的草图方法。
J Comput Biol. 2024 Jul;31(7):597-615. doi: 10.1089/cmb.2024.0544. Epub 2024 Jul 9.
10
Sketching methods with small window guarantee using minimum decycling sets.使用最小去环集保证小窗口的绘制方法。
ArXiv. 2023 Nov 6:arXiv:2311.03592v1.
PLoS Comput Biol. 2022 Oct 28;18(10):e1010638. doi: 10.1371/journal.pcbi.1010638. eCollection 2022 Oct.
4
Differentiable Learning of Sequence-Specific Minimizer Schemes with DeepMinimizer.使用 DeepMinimizer 进行序列特异性最小化方案的可微学习。
J Comput Biol. 2022 Dec;29(12):1288-1304. doi: 10.1089/cmb.2022.0275. Epub 2022 Sep 12.
5
Sparse and skew hashing of K-mers.K- -mer 的稀疏和偏斜哈希。
Bioinformatics. 2022 Jun 24;38(Suppl 1):i185-i194. doi: 10.1093/bioinformatics/btac245.
6
Data Set-Adaptive Minimizer Order Reduces Memory Usage in -Mer Counting.数据集自适应最小化器阶数降低了-mer计数中的内存使用量。
J Comput Biol. 2022 Aug;29(8):825-838. doi: 10.1089/cmb.2021.0599. Epub 2022 May 6.
7
The complete sequence of a human genome.人类基因组的完整序列。
Science. 2022 Apr;376(6588):44-53. doi: 10.1126/science.abj6987. Epub 2022 Mar 31.
8
Minimizer-space de Bruijn graphs: Whole-genome assembly of long reads in minutes on a personal computer.最小化空间 de Bruijn 图:在个人计算机上数分钟内完成长读段的全基因组组装。
Cell Syst. 2021 Oct 20;12(10):958-968.e6. doi: 10.1016/j.cels.2021.08.009. Epub 2021 Sep 14.
9
Sequence-specific minimizers via polar sets.通过极集实现序列特异性最小化。
Bioinformatics. 2021 Jul 12;37(Suppl_1):i187-i195. doi: 10.1093/bioinformatics/btab313.
10
BLight: efficient exact associative structure for k-mers.BLight:用于k-mer的高效精确关联结构。
Bioinformatics. 2021 Sep 29;37(18):2858-2865. doi: 10.1093/bioinformatics/btab217.