• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

匹配项:k-mer 集的最小纯文本表示。

Matchtigs: minimum plain text representation of k-mer sets.

机构信息

Department of Computer Science, University of Helsinki, Helsinki, Finland.

Department of Computer Science and Engineering, Indian Institute of Technology Roorkee, Roorkee, India.

出版信息

Genome Biol. 2023 Jun 9;24(1):136. doi: 10.1186/s13059-023-02968-z.

DOI:10.1186/s13059-023-02968-z
PMID:37296461
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC10251615/
Abstract

We propose a polynomial algorithm computing a minimum plain-text representation of k-mer sets, as well as an efficient near-minimum greedy heuristic. When compressing read sets of large model organisms or bacterial pangenomes, with only a minor runtime increase, we shrink the representation by up to 59% over unitigs and 26% over previous work. Additionally, the number of strings is decreased by up to 97% over unitigs and 90% over previous work. Finally, a small representation has advantages in downstream applications, as it speeds up SSHash-Lite queries by up to 4.26× over unitigs and 2.10× over previous work.

摘要

我们提出了一种多项式算法,用于计算 k-mer 集的最小明文表示,以及一种高效的近似最小贪婪启发式算法。在压缩大型模式生物或细菌泛基因组的读取集时,仅略微增加运行时间,我们将表示缩小了 59%(相对于单元克)和 26%(相对于以前的工作)。此外,与单元克相比,字符串的数量减少了 97%,与以前的工作相比减少了 90%。最后,小的表示在下游应用中具有优势,因为它使 SSHash-Lite 查询的速度提高了 4.26 倍(相对于单元克)和 2.10 倍(相对于以前的工作)。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3301/10251615/e1322471865d/13059_2023_2968_Fig5_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3301/10251615/5cd3be41866a/13059_2023_2968_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3301/10251615/a7ae2ceedbca/13059_2023_2968_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3301/10251615/5c91752a0a1a/13059_2023_2968_Fig3_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3301/10251615/2c3cf8bf7a57/13059_2023_2968_Fig4_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3301/10251615/e1322471865d/13059_2023_2968_Fig5_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3301/10251615/5cd3be41866a/13059_2023_2968_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3301/10251615/a7ae2ceedbca/13059_2023_2968_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3301/10251615/5c91752a0a1a/13059_2023_2968_Fig3_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3301/10251615/2c3cf8bf7a57/13059_2023_2968_Fig4_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3301/10251615/e1322471865d/13059_2023_2968_Fig5_HTML.jpg

相似文献

1
Matchtigs: minimum plain text representation of k-mer sets.匹配项:k-mer 集的最小纯文本表示。
Genome Biol. 2023 Jun 9;24(1):136. doi: 10.1186/s13059-023-02968-z.
2
Representation of -Mer Sets Using Spectrum-Preserving String Sets.使用谱保持串集表示 -Mer 集。
J Comput Biol. 2021 Apr;28(4):381-394. doi: 10.1089/cmb.2020.0431. Epub 2020 Dec 7.
3
Eulertigs: minimum plain text representation of k-mer sets without repetitions in linear time.欧拉蒂格斯:在线性时间内无重复的k-mer集的最小明文表示。
Algorithms Mol Biol. 2023 Jul 4;18(1):5. doi: 10.1186/s13015-023-00227-1.
4
Eulertigs: minimum plain text representation of k-mer sets without repetitions in linear time.欧拉蒂格斯:在线性时间内无重复的k-mer集的最小明文表示。
Res Sq. 2023 Feb 16:rs.3.rs-2581995. doi: 10.21203/rs.3.rs-2581995/v1.
5
Enhanced Compression of -Mer Sets with Counters via de Bruijn Graphs.通过 de Bruijn 图对 -Mer 集进行增强型压缩与计数器。
J Comput Biol. 2024 Jun;31(6):524-538. doi: 10.1089/cmb.2024.0530. Epub 2024 May 31.
6
A space and time-efficient index for the compacted colored de Bruijn graph.一种用于压缩彩色 de Bruijn 图的空间和时间高效索引。
Bioinformatics. 2018 Jul 1;34(13):i169-i177. doi: 10.1093/bioinformatics/bty292.
7
Efficient minimizer orders for large values of using minimum decycling sets.利用最小去环集对大 值 进行有效最小化排序。
Genome Res. 2023 Jul;33(7):1154-1161. doi: 10.1101/gr.277644.123. Epub 2023 Aug 9.
8
Squeakr: an exact and approximate k-mer counting system.Squeakr:一种精确和近似的 k-mer 计数系统。
Bioinformatics. 2018 Feb 15;34(4):568-575. doi: 10.1093/bioinformatics/btx636.
9
KCMBT: a k-mer Counter based on Multiple Burst Trees.KCMBT:一种基于多重突发树的k-mer计数器。
Bioinformatics. 2016 Sep 15;32(18):2783-90. doi: 10.1093/bioinformatics/btw345. Epub 2016 Jun 9.
10
Simplitigs as an efficient and scalable representation of de Bruijn graphs.Simplitigs 作为一种高效且可扩展的 de Bruijn 图表示方法。
Genome Biol. 2021 Apr 6;22(1):96. doi: 10.1186/s13059-021-02297-z.

引用本文的文献

1
Prokrustean Graph: A substring index for rapid k-mer size analysis.普罗克汝斯忒斯图:一种用于快速k-mer大小分析的子串索引。
bioRxiv. 2024 Dec 20:2023.11.21.568151. doi: 10.1101/2023.11.21.568151.
2
A survey of k-mer methods and applications in bioinformatics.生物信息学中k-mer方法及其应用综述。
Comput Struct Biotechnol J. 2024 May 21;23:2289-2303. doi: 10.1016/j.csbj.2024.05.025. eCollection 2024 Dec.
3
Eulertigs: minimum plain text representation of k-mer sets without repetitions in linear time.欧拉蒂格斯:在线性时间内无重复的k-mer集的最小明文表示。

本文引用的文献

1
Extremely fast construction and querying of compacted and colored de Bruijn graphs with GGCAT.使用 GGCAT 实现紧凑且着色的 de Bruijn 图的快速构建和查询。
Genome Res. 2023 Jul;33(7):1198-1207. doi: 10.1101/gr.277615.122. Epub 2023 May 30.
2
Scalable, ultra-fast, and low-memory construction of compacted de Bruijn graphs with Cuttlefish 2.使用 Cuttlefish 2 实现可扩展、超快速和低内存消耗的紧凑 de Bruijn 图构建。
Genome Biol. 2022 Sep 8;23(1):190. doi: 10.1186/s13059-022-02743-6.
3
The K-mer File Format: a standardized and compact disk representation of sets of k-mers.
Algorithms Mol Biol. 2023 Jul 4;18(1):5. doi: 10.1186/s13015-023-00227-1.
4
Extremely fast construction and querying of compacted and colored de Bruijn graphs with GGCAT.使用 GGCAT 实现紧凑且着色的 de Bruijn 图的快速构建和查询。
Genome Res. 2023 Jul;33(7):1198-1207. doi: 10.1101/gr.277615.122. Epub 2023 May 30.
5
Eulertigs: minimum plain text representation of k-mer sets without repetitions in linear time.欧拉蒂格斯:在线性时间内无重复的k-mer集的最小明文表示。
Res Sq. 2023 Feb 16:rs.3.rs-2581995. doi: 10.21203/rs.3.rs-2581995/v1.
K-mer 文件格式:一种用于表示 K-mer 集合的标准化、紧凑的磁盘表示形式。
Bioinformatics. 2022 Sep 15;38(18):4423-4425. doi: 10.1093/bioinformatics/btac528.
4
Sparse and skew hashing of K-mers.K- -mer 的稀疏和偏斜哈希。
Bioinformatics. 2022 Jun 24;38(Suppl 1):i185-i194. doi: 10.1093/bioinformatics/btac245.
5
Founder reconstruction enables scalable and seamless pangenomic analysis.创始人重建可实现可扩展的无缝泛基因组分析。
Bioinformatics. 2021 Dec 11;37(24):4611-4619. doi: 10.1093/bioinformatics/btab516.
6
Disk compression of k-mer sets.k-mer集的磁盘压缩
Algorithms Mol Biol. 2021 Jun 21;16(1):10. doi: 10.1186/s13015-021-00192-7.
7
Simplitigs as an efficient and scalable representation of de Bruijn graphs.Simplitigs 作为一种高效且可扩展的 de Bruijn 图表示方法。
Genome Biol. 2021 Apr 6;22(1):96. doi: 10.1186/s13059-021-02297-z.
8
BlastFrost: fast querying of 100,000s of bacterial genomes in Bifrost graphs.BlastFrost:在 Bifrost 图中快速查询数万个细菌基因组。
Genome Biol. 2021 Jan 11;22(1):30. doi: 10.1186/s13059-020-02237-3.
9
Representation of -Mer Sets Using Spectrum-Preserving String Sets.使用谱保持串集表示 -Mer 集。
J Comput Biol. 2021 Apr;28(4):381-394. doi: 10.1089/cmb.2020.0431. Epub 2020 Dec 7.
10
Bifrost: highly parallel construction and indexing of colored and compacted de Bruijn graphs.Bifrost:彩色紧凑布隆图的高度并行构建和索引
Genome Biol. 2020 Sep 17;21(1):249. doi: 10.1186/s13059-020-02135-8.