• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

通过查询 K -mer 的固定采样和索引 K-mer 的布隆过滤实现最大精确匹配的快速检测。

Fast detection of maximal exact matches via fixed sampling of query K-mers and Bloom filtering of index K-mers.

机构信息

Advanced Analytics Institute, Faculty of Engineering and IT, University of Technology Sydney, NSW 2007, Australia.

School of Information Technology, Deakin University, VIC 3216, Australia.

出版信息

Bioinformatics. 2019 Nov 1;35(22):4560-4567. doi: 10.1093/bioinformatics/btz273.

DOI:10.1093/bioinformatics/btz273
PMID:30994891
Abstract

MOTIVATION

Detection of maximal exact matches (MEMs) between two long sequences is a fundamental problem in pairwise reference-query genome comparisons. To efficiently compare larger and larger genomes, reducing the number of indexed k-mers as well as the number of query k-mers has been adopted as a mainstream approach which saves the computational resources by avoiding a significant number of unnecessary matches.

RESULTS

Under this framework, we proposed a new method to detect all MEMs from a pair of genomes. The method first performs a fixed sampling of k-mers on the query sequence, and adds these selected k-mers to a Bloom filter. Then all the k-mers of the reference sequence are tested by the Bloom filter. If a k-mer passes the test, it is inserted into a hash table for indexing. Compared with the existing methods, much less number of query k-mers are generated and much less k-mers are inserted into the index to avoid unnecessary matches, leading to an efficient matching process and memory usage savings. Experiments on large genomes demonstrate that our method is at least 1.8 times faster than the best of the existing algorithms. This performance is mainly attributed to the key novelty of our method that the fixed k-mer sampling must be conducted on the query sequence and the index k-mers are filtered from the reference sequence via a Bloom filter.

AVAILABILITY AND IMPLEMENTATION

https://github.com/yuansliu/bfMEM.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

在两个长序列之间检测最大精确匹配(MEMs)是进行成对参考-查询基因组比较的基本问题。为了有效地比较越来越大的基因组,减少索引的 k-mer 数量和查询 k-mer 数量已被采用为主流方法,通过避免大量不必要的匹配来节省计算资源。

结果

在这个框架下,我们提出了一种从一对基因组中检测所有 MEMs 的新方法。该方法首先对查询序列进行固定的 k-mer 采样,并将这些选择的 k-mer 添加到布隆过滤器中。然后,通过布隆过滤器测试参考序列的所有 k-mer。如果 k-mer 通过测试,则将其插入哈希表以供索引。与现有方法相比,生成的查询 k-mer 数量要少得多,插入索引的 k-mer 数量要少得多,以避免不必要的匹配,从而实现高效的匹配过程和节省内存使用。在大型基因组上的实验表明,我们的方法至少比现有算法中的最佳算法快 1.8 倍。这种性能主要归因于我们的方法的关键新颖性,即固定的 k-mer 采样必须在查询序列上进行,并且索引 k-mer 通过布隆过滤器从参考序列中过滤。

可用性和实现

https://github.com/yuansliu/bfMEM。

补充信息

补充数据可在 Bioinformatics 在线获得。

相似文献

1
Fast detection of maximal exact matches via fixed sampling of query K-mers and Bloom filtering of index K-mers.通过查询 K -mer 的固定采样和索引 K-mer 的布隆过滤实现最大精确匹配的快速检测。
Bioinformatics. 2019 Nov 1;35(22):4560-4567. doi: 10.1093/bioinformatics/btz273.
2
A space and time-efficient index for the compacted colored de Bruijn graph.一种用于压缩彩色 de Bruijn 图的空间和时间高效索引。
Bioinformatics. 2018 Jul 1;34(13):i169-i177. doi: 10.1093/bioinformatics/bty292.
3
kmcEx: memory-frugal and retrieval-efficient encoding of counted k-mers.kmcEx:用于计数 k-mer 的节省内存和高效检索的编码。
Bioinformatics. 2019 Dec 1;35(23):4871-4878. doi: 10.1093/bioinformatics/btz299.
4
Turtle: identifying frequent k-mers with cache-efficient algorithms.海龟:使用缓存高效算法识别频繁的 k-mer。
Bioinformatics. 2014 Jul 15;30(14):1950-7. doi: 10.1093/bioinformatics/btu132. Epub 2014 Mar 10.
5
Comparing fixed sampling with minimizer sampling when using k-mer indexes to find maximal exact matches.在使用k-mer索引查找最大精确匹配时,比较固定采样和最小化采样。
PLoS One. 2018 Feb 1;13(2):e0189960. doi: 10.1371/journal.pone.0189960. eCollection 2018.
6
Squeakr: an exact and approximate k-mer counting system.Squeakr:一种精确和近似的 k-mer 计数系统。
Bioinformatics. 2018 Feb 15;34(4):568-575. doi: 10.1093/bioinformatics/btx636.
7
Bloom Filter Trie: an alignment-free and reference-free data structure for pan-genome storage.布隆过滤器前缀树:一种用于泛基因组存储的无比对和无参考的数据结构。
Algorithms Mol Biol. 2016 Apr 14;11:3. doi: 10.1186/s13015-016-0066-8. eCollection 2016.
8
Allowing mutations in maximal matches boosts genome compression performance.允许最大匹配中的突变可以提高基因组压缩性能。
Bioinformatics. 2020 Sep 15;36(18):4675-4681. doi: 10.1093/bioinformatics/btaa572.
9
copMEM: finding maximal exact matches via sampling both genomes.copMEM:通过对两个基因组进行采样来寻找最大精确匹配。
Bioinformatics. 2019 Feb 15;35(4):677-678. doi: 10.1093/bioinformatics/bty670.
10
KCOSS: an ultra-fast k-mer counter for assembled genome analysis.KCOSS:用于组装基因组分析的超快速k-mer计数器。
Bioinformatics. 2022 Jan 27;38(4):933-940. doi: 10.1093/bioinformatics/btab797.

引用本文的文献

1
Graphite: painting genomes using a colored de Bruijn graph.Graphite:使用彩色德布鲁因图绘制基因组
NAR Genom Bioinform. 2024 Oct 23;6(4):lqae142. doi: 10.1093/nargab/lqae142. eCollection 2024 Sep.
2
Reference-based genome compression using the longest matched substrings with parallelization consideration.基于参考的最长匹配子串基因组压缩及其并行化考虑。
BMC Bioinformatics. 2023 Sep 30;24(1):369. doi: 10.1186/s12859-023-05500-z.
3
PSBF: Integer Scalable Bloom Filter.PSBF:整数可扩展布隆过滤器。
Sensors (Basel). 2023 Sep 9;23(18):7775. doi: 10.3390/s23187775.
4
Pitfalls of genotyping microbial communities with rapidly growing genome collections.利用快速增长的基因组集合进行微生物群落基因分型的陷阱。
Cell Syst. 2023 Feb 15;14(2):160-176.e3. doi: 10.1016/j.cels.2022.12.007. Epub 2023 Jan 18.
5
SparkGC: Spark based genome compression for large collections of genomes.SparkGC:基于 Spark 的基因组压缩方法,适用于大规模基因组集合。
BMC Bioinformatics. 2022 Jul 25;23(1):297. doi: 10.1186/s12859-022-04825-5.
6
Fast and accurate metagenotyping of the human gut microbiome with GT-Pro.使用GT-Pro对人类肠道微生物群进行快速准确的宏基因分型。
Nat Biotechnol. 2022 Apr;40(4):507-516. doi: 10.1038/s41587-021-01102-3. Epub 2021 Dec 23.
7
Sequence-specific minimizers via polar sets.通过极集实现序列特异性最小化。
Bioinformatics. 2021 Jul 12;37(Suppl_1):i187-i195. doi: 10.1093/bioinformatics/btab313.
8
A performant bridge between fixed-size and variable-size seeding.一种在定长和变长播种之间的高性能桥梁。
BMC Bioinformatics. 2020 Jul 23;21(1):328. doi: 10.1186/s12859-020-03642-y.