• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

GPress:一个用于查询以压缩形式存储的通用特征格式(GFF)文件和表达文件的框架。

GPress: a framework for querying general feature format (GFF) files and expression files in a compressed form.

机构信息

Department of Electrical and Computer Engineering.

TECNUN School of Engineering, University of Navarra, Donostia 20018, Gipuzkoa, Spain.

出版信息

Bioinformatics. 2020 Sep 15;36(18):4810-4812. doi: 10.1093/bioinformatics/btaa604.

DOI:10.1093/bioinformatics/btaa604
PMID:32609343
Abstract

MOTIVATION

Sequencing data are often summarized at different annotation levels for further analysis, generally using the general feature format (GFF) or its descendants, gene transfer format (GTF) and GFF3. Existing utilities for accessing these files, like gffutils and gffread, do not focus on reducing the storage space, significantly increasing it in some cases. We propose GPress, a framework for querying GFF files in a compressed form. GPress can also incorporate and compress expression files from both bulk and single-cell RNA-Seq experiments, supporting simultaneous queries on both the GFF and expression files. In brief, GPress applies transformations to the data which are then compressed with the general lossless compressor BSC. To support queries, GPress compresses the data in blocks and creates several index tables for fast retrieval.

RESULTS

We tested GPress on several GFF files of different organisms, and showed that it achieves on average a 61% reduction in size with respect to gzip (the current de facto compressor for GFF files) while being able to retrieve all annotations for a given identifier or a range of coordinates in a few seconds (when run in a common laptop). In contrast, gffutils provides faster retrieval but doubles the size of the GFF files. When additionally linking an expression file, we show that GPress can reduce its size by more than 68% when compared to gzip (for both bulk and single-cell RNA-Seq experiments), while still retrieving the information within seconds. Finally, applying BSC to the data streams generated by GPress instead of to the original file shows a size reduction of more than 44% on average.

AVAILABILITY AND IMPLEMENTATION

GPress is freely available at https://github.com/qm2/gpress.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

测序数据通常在不同的注释级别进行汇总,以进行进一步的分析,通常使用通用特征格式(GFF)或其后代基因转移格式(GTF)和 GFF3。现有的访问这些文件的实用程序,如 gffutils 和 gffread,并不专注于减少存储空间,在某些情况下会显著增加存储空间。我们提出了 GPress,这是一个用于查询压缩形式的 GFF 文件的框架。GPress 还可以合并和压缩来自批量和单细胞 RNA-Seq 实验的表达文件,支持同时对 GFF 和表达文件进行查询。简而言之,GPress 对数据进行转换,然后使用通用无损压缩器 BSC 对其进行压缩。为了支持查询,GPress 按块压缩数据,并创建几个索引表以快速检索。

结果

我们在几个不同生物体的 GFF 文件上测试了 GPress,并表明它相对于 gzip(当前 GFF 文件的事实上的压缩器)平均实现了 61%的大小减少,同时能够在几秒钟内(在普通笔记本电脑上运行时)检索到给定标识符或坐标范围的所有注释。相比之下,gffutils 提供了更快的检索速度,但会将 GFF 文件的大小增加一倍。当另外链接一个表达文件时,我们表明,与 gzip 相比,GPress 可以将其大小减少 68%以上(对于批量和单细胞 RNA-Seq 实验),同时仍然在几秒钟内检索信息。最后,将 BSC 应用于 GPress 生成的数据流而不是原始文件,平均可以减少超过 44%的大小。

可用性和实现

GPress 可在 https://github.com/qm2/gpress 上免费获得。

补充信息

补充数据可在 Bioinformatics 在线获得。

相似文献

1
GPress: a framework for querying general feature format (GFF) files and expression files in a compressed form.GPress:一个用于查询以压缩形式存储的通用特征格式(GFF)文件和表达文件的框架。
Bioinformatics. 2020 Sep 15;36(18):4810-4812. doi: 10.1093/bioinformatics/btaa604.
2
GFF Utilities: GffRead and GffCompare.
F1000Res. 2020 Apr 28;9. doi: 10.12688/f1000research.23297.2. eCollection 2020.
3
BUSZ: compressed BUS files.BUSZ:压缩的 BUS 文件。
Bioinformatics. 2023 May 4;39(5). doi: 10.1093/bioinformatics/btad295.
4
smallWig: parallel compression of RNA-seq WIG files.smallWig:RNA序列WIG文件的并行压缩
Bioinformatics. 2016 Jan 15;32(2):173-80. doi: 10.1093/bioinformatics/btv561. Epub 2015 Sep 30.
5
mspack: efficient lossless and lossy mass spectrometry data compression.mspack:高效的无损和有损质谱数据压缩。
Bioinformatics. 2021 Nov 5;37(21):3923-3925. doi: 10.1093/bioinformatics/btab636.
6
CIndex: compressed indexes for fast retrieval of FASTQ files.CIndex:用于快速检索FASTQ文件的压缩索引。
Bioinformatics. 2022 Jan 3;38(2):335-343. doi: 10.1093/bioinformatics/btab655.
7
CSAM: Compressed SAM format.CSAM:压缩 SAM 格式。
Bioinformatics. 2016 Dec 15;32(24):3709-3716. doi: 10.1093/bioinformatics/btw543. Epub 2016 Aug 18.
8
METHCOMP: a special purpose compression platform for DNA methylation data.METHCOMP:一种用于 DNA 甲基化数据的专用压缩平台。
Bioinformatics. 2018 Aug 1;34(15):2654-2656. doi: 10.1093/bioinformatics/bty143.
9
Nucleotide Archival Format (NAF) enables efficient lossless reference-free compression of DNA sequences.核苷酸档案格式 (NAF) 可实现 DNA 序列的高效无损、无参考自由压缩。
Bioinformatics. 2019 Oct 1;35(19):3826-3828. doi: 10.1093/bioinformatics/btz144.
10
ENANO: Encoder for NANOpore FASTQ files.ENANO:用于 Nanopore FASTQ 文件的编码器。
Bioinformatics. 2020 Aug 15;36(16):4506-4507. doi: 10.1093/bioinformatics/btaa551.