• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

小型基因组学实验室优化数据冷存储的经验。

The small genomics lab experience optimizing data cold storage.

作者信息

Roberson Elisha D O

机构信息

Washington University in St. Louis, Departments of Medicine & Genetics, Division of Rheumatology, St. Louis, MO 63110.

出版信息

bioRxiv. 2025 Mar 20:2025.03.18.643355. doi: 10.1101/2025.03.18.643355.

DOI:10.1101/2025.03.18.643355
PMID:40166252
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC11956953/
Abstract

Translational research is often a collaborative enterprise that involves basic science researchers, clinicians, and experts in genomics and bioinformatics. While there are central university and industry cores to support data generation, long-term storage often falls to the individual investigators. We frequently fulfill the role of long-term FASTQ file storage for our collaborators. To reduce our cold storage space, we tested the space savings for gzip and zstandard algorithms on an old set of FASTQ files. We found that zstandard had a better overall compression ratio than the best gzip algorithm, amounting to more than 20% space savings overall compared to gzip. It may be worth transitioning to zstandard compression for small, collaborative genomics labs to minimize cold storage costs.

摘要

转化研究通常是一项协作性工作,涉及基础科学研究人员、临床医生以及基因组学和生物信息学专家。虽然有核心的大学和行业机构来支持数据生成,但长期存储往往由各个研究人员负责。我们经常为合作伙伴承担长期存储FASTQ文件的任务。为了减少我们的冷存储空间,我们在一组旧的FASTQ文件上测试了gzip和zstandard算法的空间节省情况。我们发现,zstandard的总体压缩率比最佳的gzip算法更好,与gzip相比,总体节省了超过20%的空间。对于小型协作基因组学实验室来说,过渡到zstandard压缩可能值得,以尽量降低冷存储成本。

相似文献

1
The small genomics lab experience optimizing data cold storage.小型基因组学实验室优化数据冷存储的经验。
bioRxiv. 2025 Mar 20:2025.03.18.643355. doi: 10.1101/2025.03.18.643355.
2
Lossless and reference-free compression of FASTQ/A files using GeneSqueeze.使用GeneSqueeze对FASTQ/A文件进行无损且无参考的压缩。
Sci Rep. 2025 Jan 2;15(1):322. doi: 10.1038/s41598-024-79258-6.
3
SCALCE: boosting sequence compression algorithms using locally consistent encoding.SCALCE:使用局部一致编码提升序列压缩算法。
Bioinformatics. 2012 Dec 1;28(23):3051-7. doi: 10.1093/bioinformatics/bts593. Epub 2012 Oct 9.
4
DSRC 2--Industry-oriented compression of FASTQ files.DSRC 2--面向 FASTQ 文件的行业导向压缩。
Bioinformatics. 2014 Aug 1;30(15):2213-5. doi: 10.1093/bioinformatics/btu208. Epub 2014 Apr 18.
5
LFQC: a lossless compression algorithm for FASTQ files.LFQC:一种用于FASTQ文件的无损压缩算法。
Bioinformatics. 2015 Oct 15;31(20):3276-81. doi: 10.1093/bioinformatics/btv384. Epub 2015 Jun 20.
6
A new efficient referential genome compression technique for FastQ files.一种用于 FastQ 文件的新型高效参照基因组压缩技术。
Funct Integr Genomics. 2023 Nov 11;23(4):333. doi: 10.1007/s10142-023-01259-x.
7
RETRACTED: LFQC: a lossless compression algorithm for FASTQ files.已撤回:LFQC:一种用于FASTQ文件的无损压缩算法。
Bioinformatics. 2019 May 1;35(9):e1-e7. doi: 10.1093/bioinformatics/btu701.
8
KungFQ: a simple and powerful approach to compress fastq files.KungFQ:一种简单而强大的压缩 fastq 文件的方法。
IEEE/ACM Trans Comput Biol Bioinform. 2012 Nov-Dec;9(6):1837-42. doi: 10.1109/TCBB.2012.123.
9
Image-centric compression of protein structures improves space savings.以图像为中心的蛋白质结构压缩可提高节省空间的效果。
BMC Bioinformatics. 2023 Nov 21;24(1):437. doi: 10.1186/s12859-023-05570-z.
10
TERSE/PROLIX (TRPX) - a new algorithm for fast and lossless compression and decompression of diffraction and cryo-EM data.TERSE/PROLIX(TRPX)——一种用于衍射和冷冻电镜数据快速无损压缩与解压缩的新算法。
Acta Crystallogr A Found Adv. 2023 Nov 1;79(Pt 6):536-541. doi: 10.1107/S205327332300760X. Epub 2023 Sep 25.

本文引用的文献

1
Biomedical paper retractions have quadrupled in 20 years - why?生物医学论文撤稿数量在20年里翻了两番——原因何在?
Nature. 2024 Jun;630(8016):280-281. doi: 10.1038/d41586-024-01609-0.
2
Retractions are increasing, but not enough.撤稿数量在增加,但还不够。
Nature. 2022 Aug;608(7921):9. doi: 10.1038/d41586-022-02071-6.
3
Snakemake-a scalable bioinformatics workflow engine.Snakemake——一个可扩展的生物信息学工作流引擎。
Bioinformatics. 2018 Oct 15;34(20):3600. doi: 10.1093/bioinformatics/bty350.
4
The Gene Expression Omnibus Database.基因表达综合数据库
Methods Mol Biol. 2016;1418:93-110. doi: 10.1007/978-1-4939-3578-9_5.
5
The variant call format and VCFtools.变异调用格式和 VCFtools。
Bioinformatics. 2011 Aug 1;27(15):2156-8. doi: 10.1093/bioinformatics/btr330. Epub 2011 Jun 7.
6
The sequence read archive.序列读取存档库。
Nucleic Acids Res. 2011 Jan;39(Database issue):D19-21. doi: 10.1093/nar/gkq1019. Epub 2010 Nov 9.
7
The European Nucleotide Archive.欧洲核苷酸数据库。
Nucleic Acids Res. 2011 Jan;39(Database issue):D28-31. doi: 10.1093/nar/gkq967. Epub 2010 Oct 23.
8
The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants.Sanger 测序的 FASTQ 文件格式,用于包含质量分数的序列,以及 Solexa/Illumina FASTQ 变体。
Nucleic Acids Res. 2010 Apr;38(6):1767-71. doi: 10.1093/nar/gkp1137. Epub 2009 Dec 16.
9
The Sequence Alignment/Map format and SAMtools.序列比对/映射格式和 SAMtools。
Bioinformatics. 2009 Aug 15;25(16):2078-9. doi: 10.1093/bioinformatics/btp352. Epub 2009 Jun 8.
10
Retraction rates are on the rise.撤稿率正在上升。
EMBO Rep. 2008 Jan;9(1):2. doi: 10.1038/sj.embor.7401143.