• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

BGData - 一套用于大数据基因组分析的 R 包。

BGData - A Suite of R Packages for Genomic Analysis with Big Data.

机构信息

Department of Epidemiology and Biostatistics, Michigan State University, East Lansing, MI 48824

Institute for Quantitative Health Science and Engineering, Michigan State University, East Lansing, MI 48824.

出版信息

G3 (Bethesda). 2019 May 7;9(5):1377-1383. doi: 10.1534/g3.119.400018.

DOI:10.1534/g3.119.400018
PMID:30894453
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC6505159/
Abstract

We created a suite of packages to enable analysis of extremely large genomic data sets (potentially millions of individuals and millions of molecular markers) within the R environment. The package offers: a matrix-like interface for .bed files (PLINK's binary format for genotype data), a novel class of linked arrays that allows linking data stored in multiple files to form a single array accessible from the R computing environment, methods for parallel computing capabilities that can carry out computations on very large data sets without loading the entire data into memory and a basic set of methods for statistical genetic analyses. The package is accessible through CRAN and GitHub. In this note, we describe the classes and methods implemented in each of the packages that make the suite and illustrate the use of the packages using data from the UK Biobank.

摘要

我们创建了一套软件包,可在 R 环境中对非常大的基因组数据集(可能有数百万个体和数百万分子标记)进行分析。该软件包提供了:用于.bed 文件(PLINK 的基因型数据二进制格式)的矩阵式接口,一种新的链接数组类,允许将存储在多个文件中的数据链接起来,形成一个可从 R 计算环境访问的单个数组,用于并行计算能力的方法,可以在不将整个数据加载到内存中的情况下对非常大数据集进行计算,以及一组基本的统计遗传分析方法。该软件包可通过 CRAN 和 GitHub 使用。在本说明中,我们描述了构成该套件的每个软件包中实现的类和方法,并使用来自 UK Biobank 的数据说明了软件包的使用。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/aec7/6505159/356d44555935/1377f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/aec7/6505159/b24ab90967e2/1377f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/aec7/6505159/356d44555935/1377f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/aec7/6505159/b24ab90967e2/1377f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/aec7/6505159/356d44555935/1377f2.jpg

相似文献

1
BGData - A Suite of R Packages for Genomic Analysis with Big Data.BGData - 一套用于大数据基因组分析的 R 包。
G3 (Bethesda). 2019 May 7;9(5):1377-1383. doi: 10.1534/g3.119.400018.
2
parSMURF, a high-performance computing tool for the genome-wide detection of pathogenic variants.parSMURF,一种用于全基因组致病性变异检测的高性能计算工具。
Gigascience. 2020 May 1;9(5). doi: 10.1093/gigascience/giaa052.
3
SPRINT: a new parallel framework for R.SPRINT:R语言的一个新的并行框架。
BMC Bioinformatics. 2008 Dec 29;9:558. doi: 10.1186/1471-2105-9-558.
4
Linking genomics and population genetics with R.使用R语言连接基因组学与群体遗传学
Mol Ecol Resour. 2017 Jan;17(1):54-66. doi: 10.1111/1755-0998.12577. Epub 2016 Aug 29.
5
Efficient analysis of large-scale genome-wide data with two R packages: bigstatsr and bigsnpr.使用两个 R 包:bigstatsr 和 bigsnpr,高效分析大规模全基因组数据。
Bioinformatics. 2018 Aug 15;34(16):2781-2787. doi: 10.1093/bioinformatics/bty185.
6
An R package suite for microarray meta-analysis in quality control, differentially expressed gene analysis and pathway enrichment detection.一个用于微阵列荟萃分析的 R 包套件,用于质量控制、差异表达基因分析和途径富集检测。
Bioinformatics. 2012 Oct 1;28(19):2534-6. doi: 10.1093/bioinformatics/bts485. Epub 2012 Aug 3.
7
snpfiltr: An R package for interactive and reproducible SNP filtering.snpfiltr:一个用于交互式和可重复 SNP 过滤的 R 包。
Mol Ecol Resour. 2022 Aug;22(6):2443-2453. doi: 10.1111/1755-0998.13618. Epub 2022 Apr 24.
8
The Risa R/Bioconductor package: integrative data analysis from experimental metadata and back again.Risa R/Bioconductor 包:从实验元数据到实验结果的综合数据分析。
BMC Bioinformatics. 2014;15 Suppl 1(Suppl 1):S11. doi: 10.1186/1471-2105-15-S1-S11. Epub 2014 Jan 10.
9
synbreed: a framework for the analysis of genomic prediction data using R.synbreed:一个使用 R 进行基因组预测数据分析的框架。
Bioinformatics. 2012 Aug 1;28(15):2086-7. doi: 10.1093/bioinformatics/bts335. Epub 2012 Jun 10.
10
Scellpam: an R package/C++ library to perform parallel partitioning around medoids on scRNAseq data sets.Scellpam:一个用于在 scRNAseq 数据集上围绕质心进行并行分区的 R 包/C++ 库。
BMC Bioinformatics. 2023 Sep 14;24(1):342. doi: 10.1186/s12859-023-05471-1.

引用本文的文献

1
Uncovering covariance patterns across energy balance traits enables the discovery of new obesity-related genes.揭示能量平衡特征之间的协方差模式有助于发现新的肥胖相关基因。
Obesity (Silver Spring). 2025 Jun;33(6):1184-1194. doi: 10.1002/oby.24291. Epub 2025 May 26.
2
Biobanks in GENETICS and G3: tackling the statistical challenges.遗传学领域及《G3:基因与基因组学》中的生物样本库:应对统计学挑战
Genetics. 2025 Apr 17;229(4). doi: 10.1093/genetics/iyaf046.
3
Biobanks in GENETICS and G3: tackling the statistical challenges.遗传学领域及《G3:基因与基因组学》中的生物样本库:应对统计学挑战

本文引用的文献

1
Will Big Data Close the Missing Heritability Gap?大数据能否弥合遗传缺失的鸿沟?
Genetics. 2017 Nov;207(3):1135-1145. doi: 10.1534/genetics.117.300271. Epub 2017 Sep 11.
2
Second-generation PLINK: rising to the challenge of larger and richer datasets.第二代PLINK:应对更大、更丰富数据集的挑战
Gigascience. 2015 Feb 25;4:7. doi: 10.1186/s13742-015-0047-8. eCollection 2015.
3
Genome-wide regression and prediction with the BGLR statistical package.使用BGLR统计软件包进行全基因组回归与预测。
G3 (Bethesda). 2025 Apr 17;15(4). doi: 10.1093/g3journal/jkaf060.
4
Fine-tuning GBS data with comparison of reference and mock genome approaches for advancing genomic selection in less studied farmed species.通过比较参考基因组和模拟基因组方法对无乳链球菌数据进行微调,以推进对研究较少的养殖物种的基因组选择。
BMC Genomics. 2025 Feb 5;26(1):111. doi: 10.1186/s12864-025-11296-4.
5
Mapping the relative accuracy of cross-ancestry prediction.绘制跨血统预测的相对准确性图谱。
Nat Commun. 2024 Dec 2;15(1):10480. doi: 10.1038/s41467-024-54727-8.
6
A bootstrap model comparison test for identifying genes with context-specific patterns of genetic regulation.一种用于识别具有基因调控上下文特异性模式的基因的自举模型比较测试。
Ann Appl Stat. 2024 Sep;18(3):1840-1857. doi: 10.1214/23-aoas1859. Epub 2024 Aug 5.
7
A concise guide to essential R packages for analyses of DNA, RNA, and proteins.用于DNA、RNA和蛋白质分析的必备R包简明指南。
Mol Cells. 2024 Nov;47(11):100120. doi: 10.1016/j.mocell.2024.100120. Epub 2024 Oct 5.
8
Using residual regressions to quantify and map signal leakage in genomic prediction.利用残差回归量化和映射基因组预测中的信号泄漏。
Genet Sel Evol. 2023 Aug 7;55(1):57. doi: 10.1186/s12711-023-00830-1.
9
Limitations of principal components in quantitative genetic association models for human studies.主成分在人类研究定量遗传关联模型中的局限性。
Elife. 2023 May 4;12:e79238. doi: 10.7554/eLife.79238.
10
A BOOTSTRAP MODEL COMPARISON TEST FOR IDENTIFYING GENES WITH CONTEXT-SPECIFIC PATTERNS OF GENETIC REGULATION.一种用于识别具有基因调控上下文特异性模式基因的自举模型比较测试。
bioRxiv. 2023 Oct 22:2023.03.06.531446. doi: 10.1101/2023.03.06.531446.
Genetics. 2014 Oct;198(2):483-95. doi: 10.1534/genetics.114.164442. Epub 2014 Jul 9.
4
synbreed: a framework for the analysis of genomic prediction data using R.synbreed:一个使用 R 进行基因组预测数据分析的框架。
Bioinformatics. 2012 Aug 1;28(15):2086-7. doi: 10.1093/bioinformatics/bts335. Epub 2012 Jun 10.
5
Genome-wide association study of 107 phenotypes in Arabidopsis thaliana inbred lines.对拟南芥近交系 107 个表型进行全基因组关联研究。
Nature. 2010 Jun 3;465(7298):627-31. doi: 10.1038/nature08800. Epub 2010 Mar 24.
6
PLINK: a tool set for whole-genome association and population-based linkage analyses.PLINK:一个用于全基因组关联分析和基于群体的连锁分析的工具集。
Am J Hum Genet. 2007 Sep;81(3):559-75. doi: 10.1086/519795. Epub 2007 Jul 25.
7
R/qtl: QTL mapping in experimental crosses.R/qtl:实验杂交中的数量性状基因座定位。
Bioinformatics. 2003 May 1;19(7):889-90. doi: 10.1093/bioinformatics/btg112.