• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

相似文献

1
Space-time Trade-offs for the LCP Array of Wheeler DFAs.惠勒确定有限自动机(DFA)的LCP数组的时空权衡
Int Symp String Process Inf Retr. 2023 Sep;14240:143-156. doi: 10.1007/978-3-031-43980-3_12. Epub 2023 Sep 20.
2
Computing matching statistics on Wheeler DFAs.计算惠勒确定有限自动机上的匹配统计信息。
Proc Data Compress Conf. 2023 Mar;2023:150-159. doi: 10.1109/dcc55655.2023.00023. Epub 2023 May 19.
3
External memory BWT and LCP computation for sequence collections with applications.用于序列集合的外部内存BWT和LCP计算及其应用
Algorithms Mol Biol. 2019 Mar 8;14:6. doi: 10.1186/s13015-019-0140-0. eCollection 2019.
4
Buffering updates enables efficient dynamic de Bruijn graphs.缓冲更新可实现高效的动态德布鲁因图。
Comput Struct Biotechnol J. 2021 Jul 6;19:4067-4078. doi: 10.1016/j.csbj.2021.06.047. eCollection 2021.
5
Compact representation of k-mer de Bruijn graphs for genome read assembly.用于基因组读取组装的 k-mer de Bruijn 图的紧凑表示。
BMC Bioinformatics. 2013 Oct 23;14:313. doi: 10.1186/1471-2105-14-313.
6
On the Hardness of Sequence Alignment on De Bruijn Graphs.基于 De Bruijn 图的序列比对问题的难度研究
J Comput Biol. 2022 Dec;29(12):1377-1396. doi: 10.1089/cmb.2022.0411. Epub 2022 Nov 25.
7
A representation of a compressed de Bruijn graph for pan-genome analysis that enables search.一种用于泛基因组分析的压缩德布鲁因图表示法,可实现搜索。
Algorithms Mol Biol. 2016 Jul 18;11:20. doi: 10.1186/s13015-016-0083-7. eCollection 2016.
8
Wheeler graphs: A framework for BWT-based data structures.惠勒图:基于Burrows-Wheeler变换的数据结构框架。
Theor Comput Sci. 2017 Oct 25;698:67-78. doi: 10.1016/j.tcs.2017.06.016.
9
Multithread Multistring Burrows-Wheeler Transform and Longest Common Prefix Array.多线程多字符串Burrows-Wheeler变换与最长公共前缀数组
J Comput Biol. 2019 Sep;26(9):948-961. doi: 10.1089/cmb.2018.0230. Epub 2019 May 29.
10
Simplitigs as an efficient and scalable representation of de Bruijn graphs.Simplitigs 作为一种高效且可扩展的 de Bruijn 图表示方法。
Genome Biol. 2021 Apr 6;22(1):96. doi: 10.1186/s13059-021-02297-z.

本文引用的文献

1
Computing matching statistics on Wheeler DFAs.计算惠勒确定有限自动机上的匹配统计信息。
Proc Data Compress Conf. 2023 Mar;2023:150-159. doi: 10.1109/dcc55655.2023.00023. Epub 2023 May 19.
2
Wheeler graphs: A framework for BWT-based data structures.惠勒图:基于Burrows-Wheeler变换的数据结构框架。
Theor Comput Sci. 2017 Oct 25;698:67-78. doi: 10.1016/j.tcs.2017.06.016.
3
SPAdes: a new genome assembly algorithm and its applications to single-cell sequencing.SPAdes:一种新的基因组组装算法及其在单细胞测序中的应用
J Comput Biol. 2012 May;19(5):455-77. doi: 10.1089/cmb.2012.0021. Epub 2012 Apr 16.
4
De novo assembly of human genomes with massively parallel short read sequencing.利用大规模平行短读测序进行人类基因组从头组装。
Genome Res. 2010 Feb;20(2):265-72. doi: 10.1101/gr.097261.109. Epub 2009 Dec 17.
5
ABySS: a parallel assembler for short read sequence data.ABySS:一种用于短读长序列数据的并行汇编器。
Genome Res. 2009 Jun;19(6):1117-23. doi: 10.1101/gr.089532.108. Epub 2009 Feb 27.
6
An Eulerian path approach to DNA fragment assembly.一种用于DNA片段组装的欧拉路径方法。
Proc Natl Acad Sci U S A. 2001 Aug 14;98(17):9748-53. doi: 10.1073/pnas.171285098.
7
A new algorithm for DNA sequence assembly.一种用于DNA序列组装的新算法。
J Comput Biol. 1995 Summer;2(2):291-306. doi: 10.1089/cmb.1995.2.291.

惠勒确定有限自动机(DFA)的LCP数组的时空权衡

Space-time Trade-offs for the LCP Array of Wheeler DFAs.

作者信息

Cotumaccio Nicola, Gagie Travis, Köppl Dominik, Prezza Nicola

机构信息

GSSI, Italy.

Dalhousie University, Canada.

出版信息

Int Symp String Process Inf Retr. 2023 Sep;14240:143-156. doi: 10.1007/978-3-031-43980-3_12. Epub 2023 Sep 20.

DOI:10.1007/978-3-031-43980-3_12
PMID:39108943
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC11301794/
Abstract

Recently, Conte et al. generalized the longest-common prefix (LCP) array from strings to Wheeler DFAs, and they showed that it can be used to efficiently determine matching statistics on a Wheeler DFA [DCC 2023]. However, storing the LCP array requires bits, being the number of states, while the compact representation of Wheeler DFAs often requires much less space. In particular, the BOSS representation of a de Bruijn graph only requires a linear number of bits, if the size of alphabet is constant. In this paper, we propose a sampling technique that allows to access an entry of the LCP array in logarithmic time by only storing a linear number of bits. We use our technique to provide a space-time tradeoff to compute matching statistics on a Wheeler DFA. In addition, we show that by augmenting the BOSS representation of a -th order de Bruijn graph with a linear number of bits we can navigate the underlying variable-order de Bruijn graph in time logarithmic in , thus improving a previous bound by Boucher et al. which was linear in [DCC 2015].

摘要

最近,孔特等人将最长公共前缀(LCP)数组从字符串推广到惠勒确定有限自动机(DFA),并且他们表明它可用于高效地确定惠勒DFA上的匹配统计信息[DCC 2023]。然而,存储LCP数组需要 位, 是状态数,而惠勒DFA的紧凑表示通常需要少得多的空间。特别地,如果字母表大小是常数,德布鲁因图的BOSS表示仅需要线性数量的位。在本文中,我们提出一种采样技术,该技术通过仅存储线性数量的位就能在对数时间内访问LCP数组的一个条目。我们使用我们的技术来提供一种时空权衡,以计算惠勒DFA上的匹配统计信息。此外,我们表明通过用线性数量的位扩充第 阶德布鲁因图的BOSS表示,我们可以在 的对数时间内遍历底层的可变阶德布鲁因图,从而改进了布歇等人之前的一个界限,该界限在 上是线性的[DCC 2015]。