• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

Genomedata 格式用于存储大规模功能基因组学数据。

The Genomedata format for storing large-scale functional genomics data.

机构信息

Department of Genome Sciences, University of Washington, PO Box 355065, Seattle, WA 98195-5065, USA.

出版信息

Bioinformatics. 2010 Jun 1;26(11):1458-9. doi: 10.1093/bioinformatics/btq164. Epub 2010 Apr 29.

DOI:10.1093/bioinformatics/btq164
PMID:20435580
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC2872006/
Abstract

SUMMARY

We present a format for efficient storage of multiple tracks of numeric data anchored to a genome. The format allows fast random access to hundreds of gigabytes of data, while retaining a small disk space footprint. We have also developed utilities to load data into this format. We show that retrieving data from this format is more than 2900 times faster than a naive approach using wiggle files.

AVAILABILITY AND IMPLEMENTATION

Reference implementation in Python and C components available at http://noble.gs.washington.edu/proj/genomedata/ under the GNU General Public License.

摘要

摘要

我们提出了一种高效存储锚定到基因组的多个数值数据轨道的格式。该格式允许对数百千兆字节的数据进行快速随机访问,同时保持较小的磁盘空间占用。我们还开发了用于将数据加载到此格式的实用程序。我们表明,从该格式中检索数据的速度比使用 wiggle 文件的简单方法快 2900 多倍。

可用性和实现

在 http://noble.gs.washington.edu/proj/genomedata/ 下,可根据 GNU 通用公共许可证获得 Python 和 C 组件的参考实现。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ac6d/2872006/7945fecdf548/btq164f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ac6d/2872006/7945fecdf548/btq164f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ac6d/2872006/7945fecdf548/btq164f1.jpg

相似文献

1
The Genomedata format for storing large-scale functional genomics data.Genomedata 格式用于存储大规模功能基因组学数据。
Bioinformatics. 2010 Jun 1;26(11):1458-9. doi: 10.1093/bioinformatics/btq164. Epub 2010 Apr 29.
2
CWig: compressed representation of Wiggle/BedGraph format.CWig:Wiggle/BedGraph 格式的压缩表示。
Bioinformatics. 2014 Sep 15;30(18):2543-50. doi: 10.1093/bioinformatics/btu330. Epub 2014 May 27.
3
The variant call format and VCFtools.变异调用格式和 VCFtools。
Bioinformatics. 2011 Aug 1;27(15):2156-8. doi: 10.1093/bioinformatics/btr330. Epub 2011 Jun 7.
4
SeqArray-a storage-efficient high-performance data format for WGS variant calls.SeqArray——一种用于全基因组测序变异检测的存储高效的高性能数据格式。
Bioinformatics. 2017 Aug 1;33(15):2251-2257. doi: 10.1093/bioinformatics/btx145.
5
CrossMap: a versatile tool for coordinate conversion between genome assemblies.CrossMap:一种用于基因组组装之间坐标转换的通用工具。
Bioinformatics. 2014 Apr 1;30(7):1006-7. doi: 10.1093/bioinformatics/btt730. Epub 2013 Dec 18.
6
NCL: a C++ class library for interpreting data files in NEXUS format.NCL:一个用于解释NEXUS格式数据文件的C++类库。
Bioinformatics. 2003 Nov 22;19(17):2330-1. doi: 10.1093/bioinformatics/btg319.
7
BEDTools: a flexible suite of utilities for comparing genomic features.BEDTools:一套灵活的基因组特征比较工具套件。
Bioinformatics. 2010 Mar 15;26(6):841-2. doi: 10.1093/bioinformatics/btq033. Epub 2010 Jan 28.
8
VCF-kit: assorted utilities for the variant call format.VCF工具包:用于变异调用格式的各种实用工具。
Bioinformatics. 2017 May 15;33(10):1581-1582. doi: 10.1093/bioinformatics/btx011.
9
bwtool: a tool for bigWig files.bwTool:一个用于 bigWig 文件的工具。
Bioinformatics. 2014 Jun 1;30(11):1618-9. doi: 10.1093/bioinformatics/btu056. Epub 2014 Jan 30.
10
PHAST and RPHAST: phylogenetic analysis with space/time models.PHAST 和 RPHAST:时空模型的系统发育分析。
Brief Bioinform. 2011 Jan;12(1):41-51. doi: 10.1093/bib/bbq072. Epub 2010 Dec 21.

引用本文的文献

1
Modeling methyl-sensitive transcription factor motifs with an expanded epigenetic alphabet.用扩展的表观遗传字母表对甲基敏感转录因子基序进行建模。
Genome Biol. 2024 Jan 8;25(1):11. doi: 10.1186/s13059-023-03070-0.
2
Continuous chromatin state feature annotation of the human epigenome.人类表观基因组的连续染色质状态特征注释。
Bioinformatics. 2022 May 26;38(11):3029-3036. doi: 10.1093/bioinformatics/btac283.
3
BD5: An open HDF5-based data format to represent quantitative biological dynamics data.BD5:一种基于 HDF5 的开放式数据格式,用于表示定量生物学动态数据。

本文引用的文献

1
Standardizing the next generation of bioinformatics software development with BioHDF (HDF5).用 BioHDF(HDF5)标准化下一代生物信息学软件开发。
Adv Exp Med Biol. 2010;680:693-700. doi: 10.1007/978-1-4419-5913-3_77.
2
The UCSC Genome Browser database: update 2010.UCSC 基因组浏览器数据库:2010 年更新
Nucleic Acids Res. 2010 Jan;38(Database issue):D613-9. doi: 10.1093/nar/gkp939. Epub 2009 Nov 11.
3
ChIP-seq: advantages and challenges of a maturing technology.染色质免疫沉淀测序(ChIP-seq):一项日趋成熟技术的优势与挑战
PLoS One. 2020 Aug 12;15(8):e0237468. doi: 10.1371/journal.pone.0237468. eCollection 2020.
4
Benchmarking database systems for Genomic Selection implementation.基因组选择实施的基准数据库系统。
Database (Oxford). 2019 Jan 1;2019. doi: 10.1093/database/baz096.
5
Set2 methyltransferase facilitates cell cycle progression by maintaining transcriptional fidelity.Set2 甲基转移酶通过维持转录保真度促进细胞周期进程。
Nucleic Acids Res. 2018 Feb 16;46(3):1331-1344. doi: 10.1093/nar/gkx1276.
6
Genome contact map explorer: a platform for the comparison, interactive visualization and analysis of genome contact maps.基因组接触图谱浏览器:一个用于比较、交互式可视化和分析基因组接触图谱的平台。
Nucleic Acids Res. 2017 Sep 29;45(17):e152. doi: 10.1093/nar/gkx644.
7
eRFSVM: a hybrid classifier to predict enhancers-integrating random forests with support vector machines.eRFSVM:一种将随机森林与支持向量机相结合来预测增强子的混合分类器。
Hereditas. 2016 Jun 30;153:6. doi: 10.1186/s41065-016-0012-2. eCollection 2016.
8
metaseq: a Python package for integrative genome-wide analysis reveals relationships between chromatin insulators and associated nuclear mRNA.MetaSeq:一个用于全基因组综合分析的Python软件包揭示了染色质绝缘子与相关核mRNA之间的关系。
Nucleic Acids Res. 2014 Aug;42(14):9158-70. doi: 10.1093/nar/gku644. Epub 2014 Jul 24.
9
Unsupervised pattern discovery in human chromatin structure through genomic segmentation.通过基因组分割实现人类染色质结构的无监督模式发现。
Nat Methods. 2012 Mar 18;9(5):473-6. doi: 10.1038/nmeth.1937.
10
Identifying elemental genomic track types and representing them uniformly.识别元素基因组轨迹类型并统一表示它们。
BMC Bioinformatics. 2011 Dec 30;12:494. doi: 10.1186/1471-2105-12-494.
Nat Rev Genet. 2009 Oct;10(10):669-80. doi: 10.1038/nrg2641. Epub 2009 Sep 8.
4
The Sequence Alignment/Map format and SAMtools.序列比对/映射格式和 SAMtools。
Bioinformatics. 2009 Aug 15;25(16):2078-9. doi: 10.1093/bioinformatics/btp352. Epub 2009 Jun 8.
5
Global mapping of protein-DNA interactions in vivo by digital genomic footprinting.通过数字基因组足迹法对体内蛋白质-DNA相互作用进行全球图谱绘制。
Nat Methods. 2009 Apr;6(4):283-9. doi: 10.1038/nmeth.1313. Epub 2009 Mar 22.
6
Distinct DNA methylation patterns characterize differentiated human embryonic stem cells and developing human fetal liver.不同的DNA甲基化模式是分化的人类胚胎干细胞和发育中的人类胎儿肝脏的特征。
Genome Res. 2009 Jun;19(6):1044-56. doi: 10.1101/gr.088773.108. Epub 2009 Mar 9.
7
Sequence census methods for functional genomics.功能基因组学的序列普查方法。
Nat Methods. 2008 Jan;5(1):19-21. doi: 10.1038/nmeth1157. Epub 2007 Dec 19.