• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

SNPFile——一个用于大规模关联图谱绘制和群体遗传学研究的软件库及文件格式。

SNPFile--a software library and file format for large scale association mapping and population genetics studies.

作者信息

Nielsen Jesper, Mailund Thomas

机构信息

Bioinformatics Research Center, University of Aarhus, Denmark.

出版信息

BMC Bioinformatics. 2008 Dec 8;9:526. doi: 10.1186/1471-2105-9-526.

DOI:10.1186/1471-2105-9-526
PMID:19063732
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC2633306/
Abstract

BACKGROUND

High-throughput genotyping technology has enabled cost effective typing of thousands of individuals in hundred of thousands of markers for use in genome wide studies. This vast improvement in data acquisition technology makes it an informatics challenge to efficiently store and manipulate the data. While spreadsheets and at text files were adequate solutions earlier, the increased data size mandates more efficient solutions.

RESULTS

We describe a new binary file format for SNP data, together with a software library for file manipulation. The file format stores genotype data together with any kind of additional data, using a flexible serialisation mechanism. The format is designed to be IO efficient for the access patterns of most multi-locus analysis methods.

CONCLUSION

The new file format has been very useful for our own studies where it has significantly reduced the informatics burden in keeping track of various secondary data, and where the memory and IO efficiency has greatly simplified analysis runs. A main limitation with the file format is that it is only supported by the very limited set of analysis tools developed in our own lab. This is somewhat alleviated by a scripting interfaces that makes it easy to write converters to and from the format.

摘要

背景

高通量基因分型技术已能够以具有成本效益的方式,对数以千计的个体进行数十万标记的分型,用于全基因组研究。数据采集技术的这一巨大进步使其成为一项信息学挑战,即如何高效地存储和处理这些数据。虽然电子表格和文本文件在早期是足够的解决方案,但数据量的增加需要更高效的解决方案。

结果

我们描述了一种用于单核苷酸多态性(SNP)数据的新二进制文件格式,以及一个用于文件处理的软件库。该文件格式使用灵活的序列化机制,将基因型数据与任何类型的附加数据一起存储。该格式旨在针对大多数多位点分析方法的访问模式实现输入输出高效。

结论

这种新文件格式对我们自己的研究非常有用,它显著减轻了跟踪各种辅助数据时的信息学负担,并且内存和输入输出效率极大地简化了分析流程。该文件格式的一个主要限制是,只有我们自己实验室开发的非常有限的一组分析工具支持它。通过一个脚本接口,使得编写该格式的转换程序变得容易,这在一定程度上缓解了这一问题。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2862/2633306/7e8f86bd5a30/1471-2105-9-526-2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2862/2633306/1392cc18a449/1471-2105-9-526-1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2862/2633306/7e8f86bd5a30/1471-2105-9-526-2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2862/2633306/1392cc18a449/1471-2105-9-526-1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2862/2633306/7e8f86bd5a30/1471-2105-9-526-2.jpg

相似文献

1
SNPFile--a software library and file format for large scale association mapping and population genetics studies.SNPFile——一个用于大规模关联图谱绘制和群体遗传学研究的软件库及文件格式。
BMC Bioinformatics. 2008 Dec 8;9:526. doi: 10.1186/1471-2105-9-526.
2
PyPop: a software framework for population genomics: analyzing large-scale multi-locus genotype data.PyPop:一个用于群体基因组学的软件框架:分析大规模多位点基因型数据。
Pac Symp Biocomput. 2003:514-25.
3
GEN2VCF: a converter for human genome imputation output format to VCF format.GEN2VCF:一种将人类基因组重测序输出格式转换为 VCF 格式的工具。
Genes Genomics. 2020 Oct;42(10):1163-1168. doi: 10.1007/s13258-020-00982-0. Epub 2020 Aug 16.
4
SDRF2GRAPH: a visualization tool of a spreadsheet-based description of experimental processes.SDRF2GRAPH:一种基于电子表格的实验过程描述的可视化工具。
BMC Bioinformatics. 2009 May 7;10:133. doi: 10.1186/1471-2105-10-133.
5
vcfr: a package to manipulate and visualize variant call format data in R.vcfr:一个用于在R中处理和可视化变异调用格式数据的软件包。
Mol Ecol Resour. 2017 Jan;17(1):44-53. doi: 10.1111/1755-0998.12549. Epub 2016 Jul 12.
6
Keemei: cloud-based validation of tabular bioinformatics file formats in Google Sheets.Keemei:谷歌表格中表格生物信息学文件格式的基于云的验证。
Gigascience. 2016 Jun 13;5:27. doi: 10.1186/s13742-016-0133-6.
7
Genotype harmonizer: automatic strand alignment and format conversion for genotype data integration.基因型协调器:用于基因型数据整合的自动链比对和格式转换
BMC Res Notes. 2014 Dec 11;7:901. doi: 10.1186/1756-0500-7-901.
8
SNPpy--database management for SNP data from genome wide association studies.SNPpy——全基因组关联研究中 SNP 数据的数据库管理。
PLoS One. 2011;6(10):e24982. doi: 10.1371/journal.pone.0024982. Epub 2011 Oct 19.
9
COMBINE archive and OMEX format: one file to share all information to reproduce a modeling project.结合存档和OMEX格式:一个文件即可共享所有信息以重现建模项目。
BMC Bioinformatics. 2014 Dec 14;15(1):369. doi: 10.1186/s12859-014-0369-z.
10
Epiviz File Server: Query, transform and interactively explore data from indexed genomic files.Epiviz 文件服务器:查询、转换和交互探索索引基因组文件中的数据。
Bioinformatics. 2020 Sep 15;36(18):4682-4690. doi: 10.1093/bioinformatics/btaa591.

引用本文的文献

1
Efficient analysis of large-scale genome-wide data with two R packages: bigstatsr and bigsnpr.使用两个 R 包:bigstatsr 和 bigsnpr,高效分析大规模全基因组数据。
Bioinformatics. 2018 Aug 15;34(16):2781-2787. doi: 10.1093/bioinformatics/bty185.
2
New Algorithm and Software (BNOmics) for Inferring and Visualizing Bayesian Networks from Heterogeneous Big Biological and Genetic Data.用于从异构生物大数据和遗传数据推断和可视化贝叶斯网络的新算法与软件(BNOmics)
J Comput Biol. 2017 Apr;24(4):340-356. doi: 10.1089/cmb.2016.0100. Epub 2016 Sep 28.
3
A comparison study of succinct data structures for use in GWAS.

本文引用的文献

1
PLINK: a tool set for whole-genome association and population-based linkage analyses.PLINK:一个用于全基因组关联分析和基于群体的连锁分析的工具集。
Am J Hum Genet. 2007 Sep;81(3):559-75. doi: 10.1086/519795. Epub 2007 Jul 25.
2
Two variants on chromosome 17 confer prostate cancer risk, and the one in TCF2 protects against type 2 diabetes.17号染色体上的两个变异体增加患前列腺癌的风险,而位于转录因子7类似物2(TCF2)基因中的那个变异体则可预防2型糖尿病。
Nat Genet. 2007 Aug;39(8):977-83. doi: 10.1038/ng2062. Epub 2007 Jul 1.
3
Genome-wide association study identifies novel breast cancer susceptibility loci.
用于 GWAS 的简洁数据结构的比较研究。
BMC Bioinformatics. 2013 Dec 21;14:369. doi: 10.1186/1471-2105-14-369.
4
Systems biology data analysis methodology in pharmacogenomics.系统生物学数据分析方法在药物基因组学中的应用。
Pharmacogenomics. 2011 Sep;12(9):1349-60. doi: 10.2217/pgs.11.76.
全基因组关联研究确定了新的乳腺癌易感基因座。
Nature. 2007 Jun 28;447(7148):1087-93. doi: 10.1038/nature05887.
4
Genome-wide association analysis identifies loci for type 2 diabetes and triglyceride levels.全基因组关联分析确定2型糖尿病和甘油三酯水平的基因座。
Science. 2007 Jun 1;316(5829):1331-6. doi: 10.1126/science.1142358. Epub 2007 Apr 26.
5
Whole genome association mapping by incompatibilities and local perfect phylogenies.基于不相容性和局部完美系统发育的全基因组关联图谱绘制。
BMC Bioinformatics. 2006 Oct 16;7:454. doi: 10.1186/1471-2105-7-454.
6
Evaluating coverage of genome-wide association studies.评估全基因组关联研究的覆盖范围。
Nat Genet. 2006 Jun;38(6):659-62. doi: 10.1038/ng1801. Epub 2006 May 21.
7
A genome-wide association study of nonsynonymous SNPs identifies a type 1 diabetes locus in the interferon-induced helicase (IFIH1) region.一项针对非同义单核苷酸多态性的全基因组关联研究在干扰素诱导解旋酶(IFIH1)区域发现了一个1型糖尿病位点。
Nat Genet. 2006 Jun;38(6):617-9. doi: 10.1038/ng1800. Epub 2006 May 14.
8
A common variant associated with prostate cancer in European and African populations.在欧洲和非洲人群中,一种与前列腺癌相关的常见变体。
Nat Genet. 2006 Jun;38(6):652-8. doi: 10.1038/ng1808. Epub 2006 May 7.
9
A common genetic variant in the NOS1 regulator NOS1AP modulates cardiac repolarization.一氧化氮合酶1调节因子(NOS1AP)中的一种常见基因变异可调节心脏复极化。
Nat Genet. 2006 Jun;38(6):644-51. doi: 10.1038/ng1790. Epub 2006 Apr 30.