• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

E2FM:用于基因组序列集合的加密和压缩全文索引。

E2FM: an encrypted and compressed full-text index for collections of genomic sequences.

机构信息

Centro Reti, Sistemi e Servizi Informatici/CRESSI, Università degli Studi della Campania "Luigi Vanvitelli," Napoli 80133, Italy.

Istituto di Calcolo e Reti ad Alte Prestazioni/ICAR, Consiglio Nazionale delle Ricerche, Napoli 80131, Italy.

出版信息

Bioinformatics. 2017 Sep 15;33(18):2808-2817. doi: 10.1093/bioinformatics/btx313.

DOI:10.1093/bioinformatics/btx313
PMID:28498928
Abstract

MOTIVATION

Next Generation Sequencing (NGS) platforms and, more generally, high-throughput technologies are giving rise to an exponential growth in the size of nucleotide sequence databases. Moreover, many emerging applications of nucleotide datasets-as those related to personalized medicine-require the compliance with regulations about the storage and processing of sensitive data.

RESULTS

We have designed and carefully engineered E 2 FM -index, a new full-text index in minute space which was optimized for compressing and encrypting nucleotide sequence collections in FASTA format and for performing fast pattern-search queries. E 2 FM -index allows to build self-indexes which occupy till to 1/20 of the storage required by the input FASTA file, thus permitting to save about 95% of storage when indexing collections of highly similar sequences; moreover, it can exactly search the built indexes for patterns in times ranging from few milliseconds to a few hundreds milliseconds, depending on pattern length.

AVAILABILITY AND IMPLEMENTATION

Source code is available at https://github.com/montecuollo/E2FM .

CONTACT

ferdinando.montecuollo@unicampania.it.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

下一代测序(NGS)平台和更广泛的高通量技术正在导致核苷酸序列数据库的大小呈指数级增长。此外,核苷酸数据集的许多新兴应用,如与个性化医疗相关的应用,需要遵守关于存储和处理敏感数据的法规。

结果

我们设计并精心设计了 E 2 FM-index,这是一种新的全文索引,占用空间极小,针对 FASTA 格式的核苷酸序列集合进行压缩和加密,并进行快速模式搜索查询进行了优化。E 2 FM-index 允许构建占用输入 FASTA 文件所需存储空间的 1/20 的自索引,从而在索引高度相似序列的集合时可以节省大约 95%的存储空间;此外,它可以根据模式长度在几毫秒到几百毫秒的时间范围内精确搜索构建的索引中的模式。

可用性和实现

源代码可在 https://github.com/montecuollo/E2FM 获得。

联系人

ferdinando.montecuollo@unicampania.it。

补充信息

补充数据可在 Bioinformatics 在线获得。

相似文献

1
E2FM: an encrypted and compressed full-text index for collections of genomic sequences.E2FM:用于基因组序列集合的加密和压缩全文索引。
Bioinformatics. 2017 Sep 15;33(18):2808-2817. doi: 10.1093/bioinformatics/btx313.
2
A space and time-efficient index for the compacted colored de Bruijn graph.一种用于压缩彩色 de Bruijn 图的空间和时间高效索引。
Bioinformatics. 2018 Jul 1;34(13):i169-i177. doi: 10.1093/bioinformatics/bty292.
3
CIndex: compressed indexes for fast retrieval of FASTQ files.CIndex:用于快速检索FASTQ文件的压缩索引。
Bioinformatics. 2022 Jan 3;38(2):335-343. doi: 10.1093/bioinformatics/btab655.
4
FMtree: a fast locating algorithm of FM-indexes for genomic data.FMtree:一种用于基因组数据的 FM-indexes 的快速定位算法。
Bioinformatics. 2018 Feb 1;34(3):416-424. doi: 10.1093/bioinformatics/btx596.
5
Large-scale compression of genomic sequence databases with the Burrows-Wheeler transform.利用布劳尔-惠勒变换对基因组序列数据库进行大规模压缩。
Bioinformatics. 2012 Jun 1;28(11):1415-9. doi: 10.1093/bioinformatics/bts173. Epub 2012 May 3.
6
Efficient Construction of a Complete Index for Pan-Genomics Read Alignment.高效构建全基因组读段比对的完整索引。
J Comput Biol. 2020 Apr;27(4):500-513. doi: 10.1089/cmb.2019.0309. Epub 2020 Mar 16.
7
Ψ-RA: a parallel sparse index for genomic read alignment.Ψ-RA:一种用于基因组读取比对的并行稀疏索引。
BMC Genomics. 2011;12 Suppl 2(Suppl 2):S7. doi: 10.1186/1471-2164-12-S2-S7. Epub 2011 Jul 27.
8
ANAQUIN: a software toolkit for the analysis of spike-in controls for next generation sequencing.ANAQUIN:用于下一代测序中掺入对照分析的软件工具包。
Bioinformatics. 2017 Jun 1;33(11):1723-1724. doi: 10.1093/bioinformatics/btx038.
9
High efficiency referential genome compression algorithm.高效引用基因组压缩算法。
Bioinformatics. 2019 Jun 1;35(12):2058-2065. doi: 10.1093/bioinformatics/bty934.
10
Demonstrating the utility of flexible sequence queries against indexed short reads with FlexTyper.使用 FlexTyper 对索引短读取进行灵活序列查询的实用性展示。
PLoS Comput Biol. 2021 Mar 22;17(3):e1008815. doi: 10.1371/journal.pcbi.1008815. eCollection 2021 Mar.

引用本文的文献

1
Vertical lossless genomic data compression tools for assembled genomes: A systematic literature review.用于组装基因组的垂直无损基因组数据压缩工具:系统文献回顾。
PLoS One. 2020 May 26;15(5):e0232942. doi: 10.1371/journal.pone.0232942. eCollection 2020.