• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

生物数据库:用于数据驱动生物学的统一预处理和自动注释数据集集合。

BioDataome: a collection of uniformly preprocessed and automatically annotated datasets for data-driven biology.

机构信息

Computer Science Department, University of Crete, Voutes Campus, 70013 Heraklion, Crete, Greece.

Gnosis Data Analysis PC, Palaiokapa 64, 71305 Heraklion, Crete, Greece.

出版信息

Database (Oxford). 2018 Jan 1;2018. doi: 10.1093/database/bay011.

DOI:10.1093/database/bay011
PMID:29688366
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC5836265/
Abstract

Biotechnology revolution generates a plethora of omics data with an exponential growth pace. Therefore, biological data mining demands automatic, 'high quality' curation efforts to organize biomedical knowledge into online databases. BioDataome is a database of uniformly preprocessed and disease-annotated omics data with the aim to promote and accelerate the reuse of public data. We followed the same preprocessing pipeline for each biological mart (microarray gene expression, RNA-Seq gene expression and DNA methylation) to produce ready for downstream analysis datasets and automatically annotated them with disease-ontology terms. We also designate datasets that share common samples and automatically discover control samples in case-control studies. Currently, BioDataome includes ∼5600 datasets, ∼260 000 samples spanning ∼500 diseases and can be easily used in large-scale massive experiments and meta-analysis. All datasets are publicly available for querying and downloading via BioDataome web application. We demonstrate BioDataome's utility by presenting exploratory data analysis examples. We have also developed BioDataome R package found in: https://github.com/mensxmachina/BioDataome/.Database URL: http://dataome.mensxmachina.org/.

摘要

生物技术革命产生了大量的组学数据,其增长速度呈指数级增长。因此,生物数据挖掘需要自动的、“高质量”的策展工作,将生物医学知识组织到在线数据库中。BioDataome 是一个统一预处理和疾病注释的组学数据库,旨在促进和加速公共数据的再利用。我们对每个生物集市(微阵列基因表达、RNA-Seq 基因表达和 DNA 甲基化)都采用相同的预处理管道,生成可用于下游分析的数据集,并使用疾病本体论术语对其进行自动注释。我们还指定了共享共同样本的数据集,并在病例对照研究中自动发现对照样本。目前,BioDataome 包含约 5600 个数据集,约 260000 个样本,涵盖约 500 种疾病,可轻松用于大规模的大规模实验和荟萃分析。所有数据集均可通过 BioDataome 网络应用程序进行查询和下载。我们通过展示探索性数据分析示例来演示 BioDataome 的实用性。我们还开发了可在:https://github.com/mensxmachina/BioDataome/ 找到的 BioDataome R 包。数据库 URL:http://dataome.mensxmachina.org/。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0b79/5836265/15f9ce591f82/bay011f9.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0b79/5836265/ce14fd1c3970/bay011f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0b79/5836265/81021cf589ca/bay011f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0b79/5836265/cbd1d9e45753/bay011f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0b79/5836265/d525a5cc63f2/bay011f4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0b79/5836265/da0129cec2ba/bay011f5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0b79/5836265/b5c4b4d7bea7/bay011f6.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0b79/5836265/2f7f04607f67/bay011f7.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0b79/5836265/e9dde7c2d4a7/bay011f8.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0b79/5836265/15f9ce591f82/bay011f9.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0b79/5836265/ce14fd1c3970/bay011f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0b79/5836265/81021cf589ca/bay011f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0b79/5836265/cbd1d9e45753/bay011f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0b79/5836265/d525a5cc63f2/bay011f4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0b79/5836265/da0129cec2ba/bay011f5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0b79/5836265/b5c4b4d7bea7/bay011f6.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0b79/5836265/2f7f04607f67/bay011f7.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0b79/5836265/e9dde7c2d4a7/bay011f8.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0b79/5836265/15f9ce591f82/bay011f9.jpg

相似文献

1
BioDataome: a collection of uniformly preprocessed and automatically annotated datasets for data-driven biology.生物数据库:用于数据驱动生物学的统一预处理和自动注释数据集集合。
Database (Oxford). 2018 Jan 1;2018. doi: 10.1093/database/bay011.
2
GEOMetaCuration: a web-based application for accurate manual curation of Gene Expression Omnibus metadata.GEOMetaCuration:一个基于网络的应用程序,用于准确地手动整理基因表达综合数据集元数据。
Database (Oxford). 2018 Jan 1;2018. doi: 10.1093/database/bay019.
3
OMD Curation Toolkit: a workflow for in-house curation of public omics datasets.OMD 策管工具包:公共组学数据集内部策管工作流程。
BMC Bioinformatics. 2024 May 9;25(1):184. doi: 10.1186/s12859-024-05803-9.
4
Microarray meta-analysis database (M(2)DB): a uniformly pre-processed, quality controlled, and manually curated human clinical microarray database.微阵列荟萃分析数据库 (M(2)DB):一个统一预处理、质量控制和人工管理的人类临床微阵列数据库。
BMC Bioinformatics. 2010 Aug 10;11:421. doi: 10.1186/1471-2105-11-421.
5
GXD's RNA-Seq and Microarray Experiment Search: using curated metadata to reliably find mouse expression studies of interest.基因表达数据库(GXD)的RNA测序和微阵列实验搜索:利用经过整理的元数据可靠地找到感兴趣的小鼠表达研究。
Database (Oxford). 2020 Jan 1;2020. doi: 10.1093/database/baaa002.
6
The harmonizome: a collection of processed datasets gathered to serve and mine knowledge about genes and proteins.Harmonizome数据库:一组经过处理的数据集,用于提供和挖掘有关基因和蛋白质的知识。
Database (Oxford). 2016 Jul 3;2016. doi: 10.1093/database/baw100. Print 2016.
7
ArrayWiki: an enabling technology for sharing public microarray data repositories and meta-analyses.ArrayWiki:一种用于共享公共微阵列数据存储库和荟萃分析的支持技术。
BMC Bioinformatics. 2008 May 28;9 Suppl 6(Suppl 6):S18. doi: 10.1186/1471-2105-9-S6-S18.
8
CancerLivER: a database of liver cancer gene expression resources and biomarkers.CancerLivER:肝癌基因表达资源和生物标志物数据库。
Database (Oxford). 2020 Jan 1;2020. doi: 10.1093/database/baaa012.
9
GarlicESTdb: an online database and mining tool for garlic EST sequences.大蒜EST数据库:一个用于大蒜EST序列的在线数据库和挖掘工具。
BMC Plant Biol. 2009 May 18;9:61. doi: 10.1186/1471-2229-9-61.
10
An entropy-reducing data representation approach for bioinformatic data.一种用于生物信息学数据的信息减少数据表示方法。
Database (Oxford). 2018 Jan 1;2018. doi: 10.1093/database/bay029.

引用本文的文献

1
BioVDB: biological vector database for high-throughput gene expression meta-analysis.BioVDB:用于高通量基因表达荟萃分析的生物载体数据库。
Front Artif Intell. 2024 Mar 8;7:1366273. doi: 10.3389/frai.2024.1366273. eCollection 2024.
2
A characteristic cerebellar biosignature for bipolar disorder, identified with fully automatic machine learning.通过全自动机器学习识别出的双相情感障碍的一种特征性小脑生物特征。
IBRO Neurosci Rep. 2023 Jul 1;15:77-89. doi: 10.1016/j.ibneur.2023.06.008. eCollection 2023 Dec.
3
Learning biologically-interpretable latent representations for gene expression data: Pathway Activity Score Learning Algorithm.

本文引用的文献

1
Integrating personalized gene expression profiles into predictive disease-associated gene pools.将个性化基因表达谱整合到预测性疾病相关基因库中。
NPJ Syst Biol Appl. 2017 Mar 13;3:10. doi: 10.1038/s41540-017-0009-0. eCollection 2017.
2
Reproducible RNA-seq analysis using recount2.使用recount2进行可重复的RNA测序分析。
Nat Biotechnol. 2017 Apr 11;35(4):319-321. doi: 10.1038/nbt.3838.
3
Extraction and analysis of signatures from the Gene Expression Omnibus by the crowd.大众对基因表达综合数据库中的特征进行提取和分析。
学习基因表达数据的生物可解释潜在表示:通路活性评分学习算法。
Mach Learn. 2023;112(11):4257-4287. doi: 10.1007/s10994-022-06158-z. Epub 2022 Apr 29.
4
Ten simple rules for using public biological data for your research.使用公共生物数据进行研究的十个简单规则。
PLoS Comput Biol. 2023 Jan 5;19(1):e1010749. doi: 10.1371/journal.pcbi.1010749. eCollection 2023 Jan.
5
A comprehensive survey on computational learning methods for analysis of gene expression data.关于用于基因表达数据分析的计算学习方法的全面综述。
Front Mol Biosci. 2022 Nov 7;9:907150. doi: 10.3389/fmolb.2022.907150. eCollection 2022.
6
Accurate Blood-Based Diagnostic Biosignatures for Alzheimer's Disease via Automated Machine Learning.通过自动化机器学习获得用于阿尔茨海默病的基于血液的准确诊断生物标志物。
J Clin Med. 2020 Sep 18;9(9):3016. doi: 10.3390/jcm9093016.
7
PCNA-associated factor KIAA0101 transcriptionally induced by ELK1 controls cell proliferation and apoptosis in nasopharyngeal carcinoma: an integrated bioinformatics and experimental study.ELK1 转录诱导的 PCNA 相关因子 KIAA0101 调控鼻咽癌细胞增殖和凋亡:一项整合生物信息学和实验研究。
Aging (Albany NY). 2020 Apr 9;12(7):5992-6017. doi: 10.18632/aging.102991.
8
A data driven approach reveals disease similarity on a molecular level.一种数据驱动的方法揭示了分子水平上的疾病相似性。
NPJ Syst Biol Appl. 2019 Oct 25;5:39. doi: 10.1038/s41540-019-0117-0. eCollection 2019.
Nat Commun. 2016 Sep 26;7:12846. doi: 10.1038/ncomms12846.
4
The Doppelgänger Effect: Hidden Duplicates in Databases of Transcriptome Profiles.分身效应:转录组图谱数据库中的隐藏副本
J Natl Cancer Inst. 2016 Jul 5;108(11). doi: 10.1093/jnci/djw146. Print 2016 Nov.
5
The harmonizome: a collection of processed datasets gathered to serve and mine knowledge about genes and proteins.Harmonizome数据库:一组经过处理的数据集,用于提供和挖掘有关基因和蛋白质的知识。
Database (Oxford). 2016 Jul 3;2016. doi: 10.1093/database/baw100. Print 2016.
6
BioSharing: curated and crowd-sourced metadata standards, databases and data policies in the life sciences.生物数据共享:生命科学领域经整理和众包的元数据标准、数据库及数据政策。
Database (Oxford). 2016 May 17;2016. doi: 10.1093/database/baw075. Print 2016.
7
The Gene Expression Omnibus Database.基因表达综合数据库
Methods Mol Biol. 2016;1418:93-110. doi: 10.1007/978-1-4939-3578-9_5.
8
Value, but high costs in post-deposition data curation.有价值,但沉积后数据管理成本高昂。
Database (Oxford). 2016 Feb 9;2016. doi: 10.1093/database/bav126. Print 2016.
9
A survey of best practices for RNA-seq data analysis.RNA测序数据分析的最佳实践调查。
Genome Biol. 2016 Jan 26;17:13. doi: 10.1186/s13059-016-0881-8.
10
Prediction of disease-gene-drug relationships following a differential network analysis.基于差异网络分析的疾病-基因-药物关系预测。
Cell Death Dis. 2016 Jan 14;7(1):e2040. doi: 10.1038/cddis.2015.393.