• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

MQF 和缓冲 MQF:用于高效存储具有计数和元数据的 k-mer 的商滤波器。

MQF and buffered MQF: quotient filters for efficient storage of k-mers with their counts and metadata.

机构信息

Department of Computer Science, University of California, Davis, CA, USA.

Department of Population Health and Reproduction, School of Veterinary Medicine, University of California, Davis, CA, USA.

出版信息

BMC Bioinformatics. 2021 Feb 16;22(1):71. doi: 10.1186/s12859-021-03996-x.

DOI:10.1186/s12859-021-03996-x
PMID:33593271
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC7885209/
Abstract

BACKGROUND

Specialized data structures are required for online algorithms to efficiently handle large sequencing datasets. The counting quotient filter (CQF), a compact hashtable, can efficiently store k-mers with a skewed distribution.

RESULT

Here, we present the mixed-counters quotient filter (MQF) as a new variant of the CQF with novel counting and labeling systems. The new counting system adapts to a wider range of data distributions for increased space efficiency and is faster than the CQF for insertions and queries in most of the tested scenarios. A buffered version of the MQF can offload storage to disk, trading speed of insertions and queries for a significant memory reduction. The labeling system provides a flexible framework for assigning labels to member items while maintaining good data locality and a concise memory representation. These labels serve as a minimal perfect hash function but are ~ tenfold faster than BBhash, with no need to re-analyze the original data for further insertions or deletions.

CONCLUSIONS

The MQF is a flexible and efficient data structure that extends our ability to work with high throughput sequencing data.

摘要

背景

在线算法需要专门的数据结构才能有效地处理大型测序数据集。计数商滤波器 (CQF) 是一种紧凑的哈希表,可以有效地存储分布不均匀的 k-mer。

结果

在这里,我们提出了混合计数器商滤波器 (MQF),作为 CQF 的一种新变体,具有新的计数和标记系统。新的计数系统适应更广泛的数据分布,以提高空间效率,并且在大多数测试场景中,插入和查询的速度比 CQF 快。MQF 的缓冲版本可以将存储卸载到磁盘上,以显著减少内存为代价换取插入和查询的速度。标记系统为成员项分配标签提供了一个灵活的框架,同时保持了良好的数据局部性和简洁的内存表示。这些标签用作最小完美哈希函数,但比 BBhash 快约十倍,无需为进一步的插入或删除重新分析原始数据。

结论

MQF 是一种灵活高效的数据结构,扩展了我们处理高通量测序数据的能力。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bc9a/7885209/fa7f3fe05029/12859_2021_3996_Fig8_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bc9a/7885209/4728051de36c/12859_2021_3996_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bc9a/7885209/8dae523d108f/12859_2021_3996_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bc9a/7885209/d47e229bafe5/12859_2021_3996_Fig3_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bc9a/7885209/6181c168858e/12859_2021_3996_Fig4_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bc9a/7885209/ff98dbc90207/12859_2021_3996_Fig5_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bc9a/7885209/5e35433b05fa/12859_2021_3996_Fig6_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bc9a/7885209/f40d3fd76604/12859_2021_3996_Fig7_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bc9a/7885209/fa7f3fe05029/12859_2021_3996_Fig8_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bc9a/7885209/4728051de36c/12859_2021_3996_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bc9a/7885209/8dae523d108f/12859_2021_3996_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bc9a/7885209/d47e229bafe5/12859_2021_3996_Fig3_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bc9a/7885209/6181c168858e/12859_2021_3996_Fig4_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bc9a/7885209/ff98dbc90207/12859_2021_3996_Fig5_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bc9a/7885209/5e35433b05fa/12859_2021_3996_Fig6_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bc9a/7885209/f40d3fd76604/12859_2021_3996_Fig7_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bc9a/7885209/fa7f3fe05029/12859_2021_3996_Fig8_HTML.jpg

相似文献

1
MQF and buffered MQF: quotient filters for efficient storage of k-mers with their counts and metadata.MQF 和缓冲 MQF:用于高效存储具有计数和元数据的 k-mer 的商滤波器。
BMC Bioinformatics. 2021 Feb 16;22(1):71. doi: 10.1186/s12859-021-03996-x.
2
A general near-exact k-mer counting method with low memory consumption enables de novo assembly of 106× human sequence data in 2.7 hours.一种通用的、近精确的低内存消耗 k-mer 计数方法,可在 2.7 小时内完成 106×人类序列数据的从头组装。
Bioinformatics. 2020 Dec 30;36(Suppl_2):i625-i633. doi: 10.1093/bioinformatics/btaa890.
3
Turtle: identifying frequent k-mers with cache-efficient algorithms.海龟:使用缓存高效算法识别频繁的 k-mer。
Bioinformatics. 2014 Jul 15;30(14):1950-7. doi: 10.1093/bioinformatics/btu132. Epub 2014 Mar 10.
4
Squeakr: an exact and approximate k-mer counting system.Squeakr:一种精确和近似的 k-mer 计数系统。
Bioinformatics. 2018 Feb 15;34(4):568-575. doi: 10.1093/bioinformatics/btx636.
5
These are not the k-mers you are looking for: efficient online k-mer counting using a probabilistic data structure.这些不是你要找的k-mer:使用概率数据结构进行高效在线k-mer计数。
PLoS One. 2014 Jul 25;9(7):e101271. doi: 10.1371/journal.pone.0101271. eCollection 2014.
6
fimpera: drastic improvement of Approximate Membership Query data-structures with counts.fimpera:使用计数极大地改进了近似成员查询数据结构。
Bioinformatics. 2023 May 4;39(5). doi: 10.1093/bioinformatics/btad305.
7
DSK: k-mer counting with very low memory usage.DSK:使用极低内存进行 k-mer 计数。
Bioinformatics. 2013 Mar 1;29(5):652-3. doi: 10.1093/bioinformatics/btt020. Epub 2013 Jan 16.
8
kmcEx: memory-frugal and retrieval-efficient encoding of counted k-mers.kmcEx:用于计数 k-mer 的节省内存和高效检索的编码。
Bioinformatics. 2019 Dec 1;35(23):4871-4878. doi: 10.1093/bioinformatics/btz299.
9
Lighter: fast and memory-efficient sequencing error correction without counting.Lighter:无需计数即可实现快速且内存高效的测序错误校正。
Genome Biol. 2014;15(11):509. doi: 10.1186/s13059-014-0509-9.
10
Sparse and skew hashing of K-mers.K- -mer 的稀疏和偏斜哈希。
Bioinformatics. 2022 Jun 24;38(Suppl 1):i185-i194. doi: 10.1093/bioinformatics/btac245.

引用本文的文献

1
Space-efficient representation of genomic k-mer count tables.基因组k-mer计数表的空间高效表示。
Algorithms Mol Biol. 2022 Mar 21;17(1):5. doi: 10.1186/s13015-022-00212-0.

本文引用的文献

1
CHTKC: a robust and efficient k-mer counting algorithm based on a lock-free chaining hash table.CHTKC:一种基于无锁链式哈希表的强大而高效的 k-mer 计数算法。
Brief Bioinform. 2021 May 20;22(3). doi: 10.1093/bib/bbaa063.
2
A benchmark study of k-mer counting methods for high-throughput sequencing.用于高通量测序的 k-mer 计数方法的基准研究。
Gigascience. 2018 Dec 1;7(12):giy125. doi: 10.1093/gigascience/giy125.
3
SeqOthello: querying RNA-seq experiments at scale.SeqOthello:大规模查询 RNA-seq 实验。
Genome Biol. 2018 Oct 19;19(1):167. doi: 10.1186/s13059-018-1535-9.
4
Mantis: A Fast, Small, and Exact Large-Scale Sequence-Search Index.螳螂:一种快速、小巧、精确的大规模序列搜索索引。
Cell Syst. 2018 Aug 22;7(2):201-207.e4. doi: 10.1016/j.cels.2018.05.021. Epub 2018 Jun 20.
5
Adventures with RNA graphs.RNA 图形的冒险之旅。
Methods. 2018 Jul 1;143:16-33. doi: 10.1016/j.ymeth.2018.03.009. Epub 2018 Apr 3.
6
ntCard: a streaming algorithm for cardinality estimation in genomics data.ntCard:一种用于基因组数据基数估计的流算法。
Bioinformatics. 2017 May 1;33(9):1324-1330. doi: 10.1093/bioinformatics/btw832.
7
Succinct colored de Bruijn graphs.简明彩色 de Bruijn 图。
Bioinformatics. 2017 Oct 15;33(20):3181-3187. doi: 10.1093/bioinformatics/btx067.
8
The present and future of de novo whole-genome assembly.从头开始的全基因组组装的现在和未来。
Brief Bioinform. 2018 Jan 1;19(1):23-40. doi: 10.1093/bib/bbw096.
9
Near-optimal probabilistic RNA-seq quantification.近乎最优的概率 RNA-seq 定量。
Nat Biotechnol. 2016 May;34(5):525-7. doi: 10.1038/nbt.3519. Epub 2016 Apr 4.
10
The khmer software package: enabling efficient nucleotide sequence analysis.高棉软件包:实现高效的核苷酸序列分析
F1000Res. 2015 Sep 25;4:900. doi: 10.12688/f1000research.6924.1. eCollection 2015.