• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

对增强型Burrows-Wheeler变换进行r索引

r-indexing the eBWT.

作者信息

Boucher Christina, Cenzato Davide, Lipták Zsuzsanna, Rossi Massimiliano, Sciortino Marinella

机构信息

Dept of Computer and Information Science and Engineering, University of Florida.

Dept of Computer Science, University of Verona, Italy.

出版信息

Int Symp String Process Inf Retr. 2021 Oct;12944:3-12. doi: 10.1007/978-3-030-86692-1_1. Epub 2021 Sep 27.

DOI:10.1007/978-3-030-86692-1_1
PMID:38742018
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC11090108/
Abstract

The extended Burrows Wheeler Transform (eBWT) was introduced by Mantaci et al. [TCS 2007] to extend the definition of the BWT to a collection of strings. In our prior work [SPIRE 2021], we give a linear-time algorithm for the eBWT that preserves the fundamental property of the original definition (i.e., the independence from the input order). The algorithm combines a modification of the Suffix Array Induced Sorting (SAIS) algorithm [IEEE Trans Comput 2011] with Prefix Free Parsing [AMB 2019; JCB 2020]. In this paper, we show how this construction algorithm leads to -indexing the eBWT, i.e., run-length encoded eBWT and SA samples of Gagie et al. [SODA 2018] can be constructed efficiently from the components of the PFP. Moreover, we show that finding maximal exact matches (MEMs) between a query string and the -index of the eBWT can be efficiently supported.

摘要

扩展的Burrows Wheeler变换(eBWT)由曼塔奇等人于2007年在《理论计算机科学》中提出,用于将BWT的定义扩展到字符串集合。在我们之前的工作[《SPIRE 2021》]中,我们给出了一种针对eBWT的线性时间算法,该算法保留了原始定义的基本属性(即与输入顺序无关)。该算法将后缀数组诱导排序(SAIS)算法[《IEEE计算机汇刊》2011年]的一种改进与无前缀解析[《AMB 2019》;《JCB 2020》]相结合。在本文中,我们展示了这种构造算法如何导致对eBWT进行索引,即可以从PFP的组件高效地构建游程编码的eBWT和加吉等人[《SODA 2018》]的SA样本。此外,我们表明可以有效地支持在查询字符串与eBWT的索引之间查找最大精确匹配(MEMs)。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7c18/11090108/028c74e92e32/nihms-1804799-f0001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7c18/11090108/028c74e92e32/nihms-1804799-f0001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7c18/11090108/028c74e92e32/nihms-1804799-f0001.jpg

相似文献

1
r-indexing the eBWT.对增强型Burrows-Wheeler变换进行r索引
Int Symp String Process Inf Retr. 2021 Oct;12944:3-12. doi: 10.1007/978-3-030-86692-1_1. Epub 2021 Sep 27.
2
Computing the original eBWT faster, simpler, and with less memory.更快、更简单且占用更少内存地计算原始增强型Burrows-Wheeler变换。
Int Symp String Process Inf Retr. 2021 Oct;12944:129-142. doi: 10.1007/978-3-030-86692-1_11. Epub 2021 Sep 27.
3
gsufsort: constructing suffix arrays, LCP arrays and BWTs for string collections.gsufsort:为字符串集合构建后缀数组、最长公共前缀数组和Burrows-Wheeler变换
Algorithms Mol Biol. 2020 Sep 22;15:18. doi: 10.1186/s13015-020-00177-y. eCollection 2020.
4
MONI: A Pangenomic Index for Finding Maximal Exact Matches.MONI:用于寻找最大精确匹配的泛基因组索引。
J Comput Biol. 2022 Feb;29(2):169-187. doi: 10.1089/cmb.2021.0290. Epub 2022 Jan 17.
5
PFP Compressed Suffix Trees.PFP压缩后缀树
Proc Worksh Algorithm Eng Exp. 2021;2021:60-72. doi: 10.1137/1.9781611976472.5.
6
Recursive Prefix-Free Parsing for Building Big BWTs.用于构建大型Burrows-Wheeler变换的递归无前缀解析
bioRxiv. 2023 Jan 20:2023.01.18.524557. doi: 10.1101/2023.01.18.524557.
7
Recursive Prefix-Free Parsing for Building Big BWTs.用于构建大型Burrows-Wheeler变换的递归无前缀解析
Proc Data Compress Conf. 2023 Mar;2023:62-70. Epub 2023 May 19.
8
Multithread Multistring Burrows-Wheeler Transform and Longest Common Prefix Array.多线程多字符串Burrows-Wheeler变换与最长公共前缀数组
J Comput Biol. 2019 Sep;26(9):948-961. doi: 10.1089/cmb.2018.0230. Epub 2019 May 29.
9
Efficient Construction of a Complete Index for Pan-Genomics Read Alignment.高效构建全基因组读段比对的完整索引。
J Comput Biol. 2020 Apr;27(4):500-513. doi: 10.1089/cmb.2019.0309. Epub 2020 Mar 16.
10
Generalized enhanced suffix array construction in external memory.外部内存中的广义增强后缀数组构造
Algorithms Mol Biol. 2017 Dec 7;12:26. doi: 10.1186/s13015-017-0117-9. eCollection 2017.

引用本文的文献

1
Haplotype Matching with GBWT for Pangenome Graphs.用于泛基因组图的基于广义布隆游走树的单倍型匹配
bioRxiv. 2025 Feb 7:2025.02.03.634410. doi: 10.1101/2025.02.03.634410.
2
Improved pangenomic classification accuracy with chain statistics.利用连锁统计提高泛基因组分类准确性。
bioRxiv. 2024 Nov 2:2024.10.29.620953. doi: 10.1101/2024.10.29.620953.

本文引用的文献

1
Computing the original eBWT faster, simpler, and with less memory.更快、更简单且占用更少内存地计算原始增强型Burrows-Wheeler变换。
Int Symp String Process Inf Retr. 2021 Oct;12944:129-142. doi: 10.1007/978-3-030-86692-1_11. Epub 2021 Sep 27.
2
Efficient Construction of a Complete Index for Pan-Genomics Read Alignment.高效构建全基因组读段比对的完整索引。
J Comput Biol. 2020 Apr;27(4):500-513. doi: 10.1089/cmb.2019.0309. Epub 2020 Mar 16.
3
Prefix-free parsing for building big BWTs.用于构建大型Burrows-Wheeler变换(BWT)的无前缀解析
Algorithms Mol Biol. 2019 May 24;14:13. doi: 10.1186/s13015-019-0148-5. eCollection 2019.
4
The 100 000 Genomes Project: bringing whole genome sequencing to the NHS.“十万基因组计划”:将全基因组测序引入英国国家医疗服务体系。
BMJ. 2018 Apr 24;361:k1687. doi: 10.1136/bmj.k1687.
5
RPAN: rice pan-genome browser for ∼3000 rice genomes.RPAN:用于约3000个水稻基因组的水稻泛基因组浏览器。
Nucleic Acids Res. 2017 Jan 25;45(2):597-605. doi: 10.1093/nar/gkw958. Epub 2016 Dec 10.
6
Epigenomic Diversity in a Global Collection of Arabidopsis thaliana Accessions.拟南芥全球种质资源库中的表观基因组多样性
Cell. 2016 Jul 14;166(2):492-505. doi: 10.1016/j.cell.2016.06.044.
7
Storage and retrieval of highly repetitive sequence collections.高度重复序列集合的存储与检索。
J Comput Biol. 2010 Mar;17(3):281-308. doi: 10.1089/cmb.2009.0169.
8
Fast and accurate short read alignment with Burrows-Wheeler transform.使用Burrows-Wheeler变换进行快速准确的短读比对。
Bioinformatics. 2009 Jul 15;25(14):1754-60. doi: 10.1093/bioinformatics/btp324. Epub 2009 May 18.
9
Ultrafast and memory-efficient alignment of short DNA sequences to the human genome.短DNA序列与人类基因组的超快速且内存高效比对。
Genome Biol. 2009;10(3):R25. doi: 10.1186/gb-2009-10-3-r25. Epub 2009 Mar 4.