• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

高密度基因型存储在 Breedbase 的 Chado 模式中,用于植物育种。

High density genotype storage for plant breeding in the Chado schema of Breedbase.

机构信息

Plant Breeding and Genetics, Cornell University, Ithaca, NY, United States of America.

Boyce Thompson Institute, Ithaca, NY, United States of America.

出版信息

PLoS One. 2020 Nov 11;15(11):e0240059. doi: 10.1371/journal.pone.0240059. eCollection 2020.

DOI:10.1371/journal.pone.0240059
PMID:33175872
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC7657515/
Abstract

Modern breeding programs routinely use genome-wide information for selecting individuals to advance. The large volumes of genotypic information required present a challenge for data storage and query efficiency. Major use cases require genotyping data to be linked with trait phenotyping data. In contrast to phenotyping data that are often stored in relational database schemas, next-generation genotyping data are traditionally stored in non-relational storage systems due to their extremely large scope. This study presents a novel data model implemented in Breedbase (https://breedbase.org/) for uniting relational phenotyping data and non-relational genotyping data within the open-source PostgreSQL database engine. Breedbase is an open-source, web-database designed to manage all of a breeder's informatics needs: management of field experiments, phenotypic and genotypic data collection and storage, and statistical analyses. The genotyping data is stored in a PostgreSQL data-type known as binary JavaScript Object Notation (JSONb), where the JSON structures closely follow the Variant Call Format (VCF) data model. The Breedbase genotyping data model can handle different ploidy levels, structural variants, and any genotype encoded in VCF. JSONb is both compressed and indexed, resulting in a space and time efficient system. Furthermore, file caching maximizes data retrieval performance. Integration of all breeding data within the Chado database schema retains referential integrity that may be lost when genotyping and phenotyping data are stored in separate systems. Benchmarking demonstrates that the system is fast enough for computation of a genomic relationship matrix (GRM) and genome wide association study (GWAS) for datasets involving 1,325 diploid Zea mays, 314 triploid Musa acuminata, and 924 diploid Manihot esculenta samples genotyped with 955,690, 142,119, and 287,952 genotype-by-sequencing (GBS) markers, respectively.

摘要

现代育种计划通常使用全基因组信息来选择个体进行推广。大量的基因型信息需要存储和查询效率的挑战。主要用例需要将基因型数据与表型数据进行链接。与通常存储在关系数据库模式中的表型数据不同,由于下一代基因型数据的范围非常大,因此传统上存储在非关系存储系统中。本研究提出了一种新颖的数据模型,该模型在 Breedbase(https://breedbase.org/)中实现,用于在开源 PostgreSQL 数据库引擎中统一关系型表型数据和非关系型基因型数据。Breedbase 是一个开源的、基于 Web 的数据库,旨在管理所有育种者的信息学需求:田间试验管理、表型和基因型数据收集和存储以及统计分析。基因型数据存储在 PostgreSQL 数据类型中,称为二进制 JavaScript 对象表示法(JSONb),其中 JSON 结构紧密遵循变体调用格式(VCF)数据模型。Breedbase 基因型数据模型可以处理不同的倍性水平、结构变体和任何以 VCF 编码的基因型。JSONb 既压缩又索引,因此系统具有空间和时间效率。此外,文件缓存最大化了数据检索性能。在 Chado 数据库模式中集成所有育种数据保留了参照完整性,当基因型和表型数据存储在单独的系统中时,这种完整性可能会丢失。基准测试表明,该系统足够快,可以计算基因组关系矩阵(GRM)和全基因组关联研究(GWAS),涉及 1325 个二倍体玉米、314 个三倍体香蕉和 924 个二倍体木薯,分别用 955690、142119 和 287952 个基因型测序(GBS)标记进行基因型。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f1bf/7657515/dfd59ba27cd3/pone.0240059.g002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f1bf/7657515/eab652e6315d/pone.0240059.g001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f1bf/7657515/dfd59ba27cd3/pone.0240059.g002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f1bf/7657515/eab652e6315d/pone.0240059.g001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f1bf/7657515/dfd59ba27cd3/pone.0240059.g002.jpg

相似文献

1
High density genotype storage for plant breeding in the Chado schema of Breedbase.高密度基因型存储在 Breedbase 的 Chado 模式中,用于植物育种。
PLoS One. 2020 Nov 11;15(11):e0240059. doi: 10.1371/journal.pone.0240059. eCollection 2020.
2
Breedbase: a digital ecosystem for modern plant breeding.Breedbase:一个现代化植物育种的数字生态系统。
G3 (Bethesda). 2022 Jul 6;12(7). doi: 10.1093/g3journal/jkac078.
3
Addition of a breeding database in the Genome Database for Rosaceae.在蔷薇科基因组数据库中添加一个繁殖数据库。
Database (Oxford). 2013 Nov 18;2013:bat078. doi: 10.1093/database/bat078. Print 2013.
4
A PostgreSQL Tripal solution for large-scale genotypic and phenotypic data.一个用于大规模基因型和表型数据的 PostgreSQL Tripal 解决方案。
Database (Oxford). 2021 Aug 14;2021. doi: 10.1093/database/baab051.
5
The Chado Natural Diversity module: a new generic database schema for large-scale phenotyping and genotyping data.Chado 自然多样性模块:一个用于大规模表型和基因型数据的新型通用数据库模式。
Database (Oxford). 2011 Nov 26;2011:bar051. doi: 10.1093/database/bar051. Print 2011.
6
Benchmarking database systems for Genomic Selection implementation.基因组选择实施的基准数据库系统。
Database (Oxford). 2019 Jan 1;2019. doi: 10.1093/database/baz096.
7
Chado use case: storing genomic, genetic and breeding data of Rosaceae and Gossypium crops in Chado.Chado用例:在Chado中存储蔷薇科和棉属作物的基因组、遗传和育种数据。
Database (Oxford). 2016 Mar 17;2016. doi: 10.1093/database/baw010. Print 2016.
8
Evaluating Imputation Algorithms for Low-Depth Genotyping-By-Sequencing (GBS) Data.评估低深度简化基因组测序(GBS)数据的插补算法
PLoS One. 2016 Aug 18;11(8):e0160733. doi: 10.1371/journal.pone.0160733. eCollection 2016.
9
A Chado case study: an ontology-based modular schema for representing genome-associated biological information.一个Chado案例研究:用于表示基因组相关生物信息的基于本体的模块化模式。
Bioinformatics. 2007 Jul 1;23(13):i337-46. doi: 10.1093/bioinformatics/btm189.
10
solGS: a web-based tool for genomic selection.solGS:一种基于网络的基因组选择工具。
BMC Bioinformatics. 2014 Dec 14;15(1):398. doi: 10.1186/s12859-014-0398-7.

引用本文的文献

1
Spatio-temporal modeling of high-throughput multispectral aerial images improves agronomic trait genomic prediction in hybrid maize.高通量多光谱航空图像的时空建模提高了杂交玉米农艺性状的基因组预测。
Genetics. 2024 May 7;227(1). doi: 10.1093/genetics/iyae037.
2
Breedbase: a digital ecosystem for modern plant breeding.Breedbase:一个现代化植物育种的数字生态系统。
G3 (Bethesda). 2022 Jul 6;12(7). doi: 10.1093/g3journal/jkac078.
3
Integrating Genomic and Phenomic Approaches to Support Plant Genetic Resources Conservation and Use.整合基因组学和表型组学方法以支持植物遗传资源的保护与利用。

本文引用的文献

1
Genomic characterization of Ugandan smallholder farmer-preferred cassava varieties.乌干达小农户偏爱的木薯品种的基因组特征分析
Crop Sci. 2020 May-Jun;60(3):1450-1461. doi: 10.1002/csc2.20152. Epub 2020 May 4.
2
Maize genomes to fields (G2F): 2014-2017 field seasons: genotype, phenotype, climatic, soil, and inbred ear image datasets.玉米基因组到田间(G2F):2014 - 2017年田间季:基因型、表型、气候、土壤和自交系果穗图像数据集。
BMC Res Notes. 2020 Feb 12;13(1):71. doi: 10.1186/s13104-020-4922-8.
3
Benchmarking database systems for Genomic Selection implementation.
Plants (Basel). 2021 Oct 22;10(11):2260. doi: 10.3390/plants10112260.
4
A PostgreSQL Tripal solution for large-scale genotypic and phenotypic data.一个用于大规模基因型和表型数据的 PostgreSQL Tripal 解决方案。
Database (Oxford). 2021 Aug 14;2021. doi: 10.1093/database/baab051.
基因组选择实施的基准数据库系统。
Database (Oxford). 2019 Jan 1;2019. doi: 10.1093/database/baz096.
4
BrAPI-an application programming interface for plant breeding applications.BrAPI-用于植物育种应用的应用程序编程接口。
Bioinformatics. 2019 Oct 15;35(20):4147-4155. doi: 10.1093/bioinformatics/btz190.
5
Genomic Prediction in a Multiploid Crop: Genotype by Environment Interaction and Allele Dosage Effects on Predictive Ability in Banana.多倍体作物中的基因组预测:香蕉中基因型与环境互作及等位基因剂量效应对预测能力的影响。
Plant Genome. 2018 Jul;11(2). doi: 10.3835/plantgenome2017.10.0090.
6
Crop Breeding Chips and Genotyping Platforms: Progress, Challenges, and Perspectives.作物育种芯片与基因分型平台:进展、挑战与展望。
Mol Plant. 2017 Aug 7;10(8):1047-1064. doi: 10.1016/j.molp.2017.06.008. Epub 2017 Jun 29.
7
The Development of Quality Control Genotyping Approaches: A Case Study Using Elite Maize Lines.质量控制基因分型方法的发展:以优良玉米自交系为例的研究
PLoS One. 2016 Jun 9;11(6):e0157236. doi: 10.1371/journal.pone.0157236. eCollection 2016.
8
Gigwa-Genotype investigator for genome-wide analyses.用于全基因组分析的Gigwa基因型研究工具
Gigascience. 2016 Jun 6;5:25. doi: 10.1186/s13742-016-0131-8.
9
solGS: a web-based tool for genomic selection.solGS:一种基于网络的基因组选择工具。
BMC Bioinformatics. 2014 Dec 14;15(1):398. doi: 10.1186/s12859-014-0398-7.
10
The Sol Genomics Network (SGN)--from genotype to phenotype to breeding.索尔基因组学网络(SGN)——从基因型到表型再到育种。
Nucleic Acids Res. 2015 Jan;43(Database issue):D1036-41. doi: 10.1093/nar/gku1195. Epub 2014 Nov 26.