• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

利用kISS高效构建和使用k阶FM索引以实现大型基因组中的超快速读段映射

Efficient Construction and Utilization of k-Ordered FM-indexes with kISS for Ultra-Fast Read Mapping in Large Genomes.

作者信息

Yang Zheng-Dao, Kuo Hsuan-Yu, Hsieh Po-Wei, Hung Jui-Hung

机构信息

Department of Computer Science, National Yang Ming Chiao Tung University, Hsinchu, Taiwan.

出版信息

Bioinformatics. 2024 Jun 19;40(7). doi: 10.1093/bioinformatics/btae409.

DOI:10.1093/bioinformatics/btae409
PMID:38897667
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC11269432/
Abstract

MOTIVATION

The Full-text index in Minute space (FM-index) is a memory-efficient data structure widely used in bioinformatics for solving the fundamental pattern-matching task of searching for short patterns within a long reference. With the demand for short query patterns, the k-ordered concept has been proposed for FM-indexes. However, few construction algorithms in the state of the art fully exploit this idea to achieve significant speedups in the pan-genome era.

RESULTS

We introduce the k-ordered Induced Suffix Sorting (kISS) for efficient construction and utilization of k-ordered FM-indexes. We present an algorithmic workflow for building k-ordered suffix arrays, incorporating two novel strategies to improve time and memory efficiency. We also demonstrate the compatibility of integrating k-ordered FM-indexes with locate operations in FMtree. Experiments show that kISS can improve the construction time, and the generated k-ordered suffix array can also be applied to FMtree without any additional in computation or memory usage.

AVAILABILITY

https://github.com/jhhung/kISS.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

微空间全文索引(FM索引)是一种内存高效的数据结构,在生物信息学中广泛用于解决在长参考序列中搜索短模式的基本模式匹配任务。随着对短查询模式的需求,已针对FM索引提出了k阶概念。然而,目前的技术水平中很少有构建算法能充分利用这一思想在泛基因组时代实现显著加速。

结果

我们引入了k阶诱导后缀排序(kISS),以高效构建和利用k阶FM索引。我们提出了一种构建k阶后缀数组的算法工作流程,纳入了两种新颖策略以提高时间和内存效率。我们还展示了将k阶FM索引与FM树中的定位操作集成的兼容性。实验表明,kISS可以缩短构建时间,并且生成的k阶后缀数组也可以应用于FM树,而无需任何额外的计算或内存使用。

可用性

https://github.com/jhhung/kISS。

补充信息

补充数据可在《生物信息学》在线获取。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/768b/11269432/ddc45b8bc4fe/btae409f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/768b/11269432/b1eb50e5175d/btae409f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/768b/11269432/1033b284e33e/btae409f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/768b/11269432/ddc45b8bc4fe/btae409f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/768b/11269432/b1eb50e5175d/btae409f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/768b/11269432/1033b284e33e/btae409f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/768b/11269432/ddc45b8bc4fe/btae409f3.jpg

相似文献

1
Efficient Construction and Utilization of k-Ordered FM-indexes with kISS for Ultra-Fast Read Mapping in Large Genomes.利用kISS高效构建和使用k阶FM索引以实现大型基因组中的超快速读段映射
Bioinformatics. 2024 Jun 19;40(7). doi: 10.1093/bioinformatics/btae409.
2
FMtree: a fast locating algorithm of FM-indexes for genomic data.FMtree:一种用于基因组数据的 FM-indexes 的快速定位算法。
Bioinformatics. 2018 Feb 1;34(3):416-424. doi: 10.1093/bioinformatics/btx596.
3
sBWT: memory efficient implementation of the hardware-acceleration-friendly Schindler transform for the fast biological sequence mapping.sBWT:用于快速生物序列映射的对硬件加速友好的辛德勒变换的内存高效实现。
Bioinformatics. 2016 Nov 15;32(22):3498-3500. doi: 10.1093/bioinformatics/btw419. Epub 2016 Jul 13.
4
A space and time-efficient index for the compacted colored de Bruijn graph.一种用于压缩彩色 de Bruijn 图的空间和时间高效索引。
Bioinformatics. 2018 Jul 1;34(13):i169-i177. doi: 10.1093/bioinformatics/bty292.
5
PFP-FM: An Accelerated FM-index.PFP-FM:一种加速的FM索引。
Res Sq. 2023 Oct 30:rs.3.rs-3487536. doi: 10.21203/rs.3.rs-3487536/v1.
6
Pfp-fm: an accelerated FM-index.Pfp-fm:一种加速的FM索引。
Algorithms Mol Biol. 2024 Apr 10;19(1):15. doi: 10.1186/s13015-024-00260-8.
7
Breaking the -Barrier in the Construction of Compressed Suffix Arrays and Suffix Trees.突破压缩后缀数组和后缀树构建中的-障碍
Proc Annu ACM SIAM Symp Discret Algorithms. 2023;2023:5122-5202. doi: 10.1137/1.9781611977554.ch187.
8
Fast, parallel, and cache-friendly suffix array construction.快速、并行且缓存友好的后缀数组构造。
Algorithms Mol Biol. 2024 Apr 28;19(1):16. doi: 10.1186/s13015-024-00263-5.
9
An optimized FM-index library for nucleotide and amino acid search.一个用于核苷酸和氨基酸搜索的优化FM索引库。
Algorithms Mol Biol. 2021 Dec 31;16(1):25. doi: 10.1186/s13015-021-00204-6.
10
Fast detection of maximal exact matches via fixed sampling of query K-mers and Bloom filtering of index K-mers.通过查询 K -mer 的固定采样和索引 K-mer 的布隆过滤实现最大精确匹配的快速检测。
Bioinformatics. 2019 Nov 1;35(22):4560-4567. doi: 10.1093/bioinformatics/btz273.

本文引用的文献

1
A draft human pangenome reference.人类泛基因组参考草图。
Nature. 2023 May;617(7960):312-324. doi: 10.1038/s41586-023-05896-x. Epub 2023 May 10.
2
Technology dictates algorithms: recent developments in read alignment.技术决定算法:读段比对的最新进展。
Genome Biol. 2021 Aug 26;22(1):249. doi: 10.1186/s13059-021-02443-7.
3
Reference flow: reducing reference bias using multiple population genomes.参考文献流向:利用多个群体基因组减少参考文献偏差。
Genome Biol. 2021 Jan 4;22(1):8. doi: 10.1186/s13059-020-02229-3.
4
Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype.基于图的基因组比对和基因分型与 HISAT2 和 HISAT-genotype。
Nat Biotechnol. 2019 Aug;37(8):907-915. doi: 10.1038/s41587-019-0201-4. Epub 2019 Aug 2.
5
Minimap2: pairwise alignment for nucleotide sequences.Minimap2:核苷酸序列的两两比对。
Bioinformatics. 2018 Sep 15;34(18):3094-3100. doi: 10.1093/bioinformatics/bty191.
6
FMtree: a fast locating algorithm of FM-indexes for genomic data.FMtree:一种用于基因组数据的 FM-indexes 的快速定位算法。
Bioinformatics. 2018 Feb 1;34(3):416-424. doi: 10.1093/bioinformatics/btx596.
7
sBWT: memory efficient implementation of the hardware-acceleration-friendly Schindler transform for the fast biological sequence mapping.sBWT:用于快速生物序列映射的对硬件加速友好的辛德勒变换的内存高效实现。
Bioinformatics. 2016 Nov 15;32(22):3498-3500. doi: 10.1093/bioinformatics/btw419. Epub 2016 Jul 13.
8
The human genome browser at UCSC.加州大学圣克鲁兹分校的人类基因组浏览器。
Genome Res. 2002 Jun;12(6):996-1006. doi: 10.1101/gr.229102.