• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

SPRISS:通过读取采样来近似频繁的 k-mers 及其应用。

SPRISS: approximating frequent k-mers by sampling reads, and applications.

机构信息

Department of Information Engineering, University of Padova, 35131 Padova, Italy.

出版信息

Bioinformatics. 2022 Jun 27;38(13):3343-3350. doi: 10.1093/bioinformatics/btac180.

DOI:10.1093/bioinformatics/btac180
PMID:35583271
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC9237683/
Abstract

MOTIVATION

The extraction of k-mers is a fundamental component in many complex analyses of large next-generation sequencing datasets, including reads classification in genomics and the characterization of RNA-seq datasets. The extraction of all k-mers and their frequencies is extremely demanding in terms of running time and memory, owing to the size of the data and to the exponential number of k-mers to be considered. However, in several applications, only frequent k-mers, which are k-mers appearing in a relatively high proportion of the data, are required by the analysis.

RESULTS

In this work, we present SPRISS, a new efficient algorithm to approximate frequent k-mers and their frequencies in next-generation sequencing data. SPRISS uses a simple yet powerful reads sampling scheme, which allows to extract a representative subset of the dataset that can be used, in combination with any k-mer counting algorithm, to perform downstream analyses in a fraction of the time required by the analysis of the whole data, while obtaining comparable answers. Our extensive experimental evaluation demonstrates the efficiency and accuracy of SPRISS in approximating frequent k-mers, and shows that it can be used in various scenarios, such as the comparison of metagenomic datasets, the identification of discriminative k-mers, and SNP (single nucleotide polymorphism) genotyping, to extract insights in a fraction of the time required by the analysis of the whole dataset.

AVAILABILITY AND IMPLEMENTATION

SPRISS [a preliminary version (Santoro et al., 2021) of this work was presented at RECOMB 2021] is available at https://github.com/VandinLab/SPRISS.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

在许多大规模下一代测序数据集的复杂分析中,包括基因组学中的读取分类和 RNA-seq 数据集的特征描述,k-mer 的提取都是一个基本组成部分。由于数据的大小和要考虑的 k-mer 的指数数量,提取所有 k-mer 及其频率在运行时间和内存方面要求极高。然而,在许多应用中,分析只需要出现频率较高的 k-mer,即出现频率相对较高的数据中的 k-mer。

结果

在这项工作中,我们提出了 SPRISS,这是一种新的高效算法,可以近似下一代测序数据中的频繁 k-mer 及其频率。SPRISS 使用一种简单而强大的读取采样方案,该方案允许提取数据集的代表性子集,然后可以与任何 k-mer 计数算法结合使用,以便在分析整个数据集所需时间的一小部分内执行下游分析,同时获得可比的答案。我们广泛的实验评估证明了 SPRISS 在近似频繁 k-mer 方面的效率和准确性,并表明它可以在各种场景中使用,例如宏基因组数据集的比较、有区别的 k-mer 的识别以及 SNP(单核苷酸多态性)基因分型,以在分析整个数据集所需时间的一小部分内提取见解。

可用性和实现

SPRISS(Santoro 等人,2021 年在 RECOMB 2021 上展示的此工作的初步版本)可在 https://github.com/VandinLab/SPRISS 上获得。

补充信息

补充数据可在《生物信息学》在线获得。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3e25/9237683/416bfa855083/btac180f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3e25/9237683/d9ce6c932c3b/btac180f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3e25/9237683/01d9f98a8b24/btac180f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3e25/9237683/416bfa855083/btac180f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3e25/9237683/d9ce6c932c3b/btac180f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3e25/9237683/01d9f98a8b24/btac180f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3e25/9237683/416bfa855083/btac180f3.jpg

相似文献

1
SPRISS: approximating frequent k-mers by sampling reads, and applications.SPRISS:通过读取采样来近似频繁的 k-mers 及其应用。
Bioinformatics. 2022 Jun 27;38(13):3343-3350. doi: 10.1093/bioinformatics/btac180.
2
Fast Approximation of Frequent -Mers and Applications to Metagenomics.频繁短序列模式的快速近似算法及其在宏基因组学中的应用
J Comput Biol. 2020 Apr;27(4):534-549. doi: 10.1089/cmb.2019.0314. Epub 2019 Dec 20.
3
Squeakr: an exact and approximate k-mer counting system.Squeakr:一种精确和近似的 k-mer 计数系统。
Bioinformatics. 2018 Feb 15;34(4):568-575. doi: 10.1093/bioinformatics/btx636.
4
ntCard: a streaming algorithm for cardinality estimation in genomics data.ntCard:一种用于基因组数据基数估计的流算法。
Bioinformatics. 2017 May 1;33(9):1324-1330. doi: 10.1093/bioinformatics/btw832.
5
Turtle: identifying frequent k-mers with cache-efficient algorithms.海龟:使用缓存高效算法识别频繁的 k-mer。
Bioinformatics. 2014 Jul 15;30(14):1950-7. doi: 10.1093/bioinformatics/btu132. Epub 2014 Mar 10.
6
SAKE: Strobemer-assisted k-mer extraction.SAKE:频闪辅助 k-mer 提取。
PLoS One. 2023 Nov 29;18(11):e0294415. doi: 10.1371/journal.pone.0294415. eCollection 2023.
7
A general near-exact k-mer counting method with low memory consumption enables de novo assembly of 106× human sequence data in 2.7 hours.一种通用的、近精确的低内存消耗 k-mer 计数方法,可在 2.7 小时内完成 106×人类序列数据的从头组装。
Bioinformatics. 2020 Dec 30;36(Suppl_2):i625-i633. doi: 10.1093/bioinformatics/btaa890.
8
K2Mem: Discovering Discriminative K-mers From Sequencing Data for Metagenomic Reads Classification.K2Mem:从测序数据中发现用于宏基因组读分类的判别 K- mers。
IEEE/ACM Trans Comput Biol Bioinform. 2022 Jan-Feb;19(1):220-229. doi: 10.1109/TCBB.2021.3117406. Epub 2022 Feb 3.
9
Sparse and skew hashing of K-mers.K- -mer 的稀疏和偏斜哈希。
Bioinformatics. 2022 Jun 24;38(Suppl 1):i185-i194. doi: 10.1093/bioinformatics/btac245.
10
KCOSS: an ultra-fast k-mer counter for assembled genome analysis.KCOSS:用于组装基因组分析的超快速k-mer计数器。
Bioinformatics. 2022 Jan 27;38(4):933-940. doi: 10.1093/bioinformatics/btab797.

本文引用的文献

1
Disk compression of k-mer sets.k-mer集的磁盘压缩
Algorithms Mol Biol. 2021 Jun 21;16(1):10. doi: 10.1186/s13015-021-00192-7.
2
Data structures based on -mers for querying large collections of sequencing data sets.基于 - 元的序列数据集查询的大型数据集的数据结构。
Genome Res. 2021 Jan;31(1):1-12. doi: 10.1101/gr.260604.119. Epub 2020 Dec 16.
3
Bifrost: highly parallel construction and indexing of colored and compacted de Bruijn graphs.Bifrost:彩色紧凑布隆图的高度并行构建和索引
Genome Biol. 2020 Sep 17;21(1):249. doi: 10.1186/s13059-020-02135-8.
4
REINDEER: efficient indexing of k-mer presence and abundance in sequencing datasets.驯鹿:测序数据集中小段序列存在和丰度的高效索引。
Bioinformatics. 2020 Jul 1;36(Suppl_1):i177-i185. doi: 10.1093/bioinformatics/btaa487.
5
To Petabytes and beyond: recent advances in probabilistic and signal processing algorithms and their application to metagenomics.从 PB 级到更多:概率和信号处理算法的最新进展及其在宏基因组学中的应用。
Nucleic Acids Res. 2020 Jun 4;48(10):5217-5234. doi: 10.1093/nar/gkaa265.
6
Fast Approximation of Frequent -Mers and Applications to Metagenomics.频繁短序列模式的快速近似算法及其在宏基因组学中的应用
J Comput Biol. 2020 Apr;27(4):534-549. doi: 10.1089/cmb.2019.0314. Epub 2019 Dec 20.
7
Improved representation of sequence bloom trees.序列 Bloom 树的表示方法改进。
Bioinformatics. 2020 Feb 1;36(3):721-727. doi: 10.1093/bioinformatics/btz662.
8
deGSM: Memory Scalable Construction Of Large Scale de Bruijn Graph.deGSM:大规模 de Bruijn 图的可扩展存储构建。
IEEE/ACM Trans Comput Biol Bioinform. 2021 Nov-Dec;18(6):2157-2166. doi: 10.1109/TCBB.2019.2913932. Epub 2021 Dec 8.
9
Ultrafast search of all deposited bacterial and viral genomic data.快速搜索所有已存入的细菌和病毒基因组数据。
Nat Biotechnol. 2019 Feb;37(2):152-159. doi: 10.1038/s41587-018-0010-1. Epub 2019 Feb 4.
10
DREAM-Yara: an exact read mapper for very large databases with short update time.DREAM-Yara:适用于具有较短更新时间的大型数据库的精确读取映射器。
Bioinformatics. 2018 Sep 1;34(17):i766-i772. doi: 10.1093/bioinformatics/bty567.