• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

OMD 策管工具包:公共组学数据集内部策管工作流程。

OMD Curation Toolkit: a workflow for in-house curation of public omics datasets.

机构信息

Institute for Integrative Systems Biology (I2SysBio), University of Valencia and Spanish National Research Council, Valencia, Spain.

Area of Genomics and Health, Foundation for the Promotion of Sanitary and Biomedical Research of Valencia Region (FISABIO-Public Health), Valencia, Spain.

出版信息

BMC Bioinformatics. 2024 May 9;25(1):184. doi: 10.1186/s12859-024-05803-9.

DOI:10.1186/s12859-024-05803-9
PMID:38724907
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC11084137/
Abstract

BACKGROUND

Major advances in sequencing technologies and the sharing of data and metadata in science have resulted in a wealth of publicly available datasets. However, working with and especially curating public omics datasets remains challenging despite these efforts. While a growing number of initiatives aim to re-use previous results, these present limitations that often lead to the need for further in-house curation and processing.

RESULTS

Here, we present the Omics Dataset Curation Toolkit (OMD Curation Toolkit), a python3 package designed to accompany and guide the researcher during the curation process of metadata and fastq files of public omics datasets. This workflow provides a standardized framework with multiple capabilities (collection, control check, treatment and integration) to facilitate the arduous task of curating public sequencing data projects. While centered on the European Nucleotide Archive (ENA), the majority of the provided tools are generic and can be used to curate datasets from different sources.

CONCLUSIONS

Thus, it offers valuable tools for the in-house curation previously needed to re-use public omics data. Due to its workflow structure and capabilities, it can be easily used and benefit investigators in developing novel omics meta-analyses based on sequencing data.

摘要

背景

测序技术的重大进展以及科学数据和元数据的共享使得大量公开可用的数据集得以出现。然而,尽管做出了这些努力,处理和特别是管理公共组学数据集仍然具有挑战性。虽然越来越多的举措旨在重复使用以前的结果,但这些举措存在局限性,往往导致需要进一步的内部管理和处理。

结果

在这里,我们介绍了组学数据集管理工具包(OMD 管理工具包),这是一个 python3 包,旨在在元数据和公共组学数据集的 fastq 文件的管理过程中为研究人员提供帮助和指导。该工作流程提供了一个具有多种功能(收集、控制检查、处理和集成)的标准化框架,以简化管理公共测序数据项目的艰巨任务。虽然该工具包以欧洲核苷酸档案库(ENA)为中心,但提供的大多数工具都是通用的,可以用于管理来自不同来源的数据集。

结论

因此,它为重复使用公共组学数据以前所需的内部管理提供了有价值的工具。由于其工作流程结构和功能,它可以方便地被用于开发基于测序数据的新型组学元分析的研究人员使用并从中受益。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/4ddb/11084137/1bd459e5a153/12859_2024_5803_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/4ddb/11084137/1bd459e5a153/12859_2024_5803_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/4ddb/11084137/1bd459e5a153/12859_2024_5803_Fig1_HTML.jpg

相似文献

1
OMD Curation Toolkit: a workflow for in-house curation of public omics datasets.OMD 策管工具包:公共组学数据集内部策管工作流程。
BMC Bioinformatics. 2024 May 9;25(1):184. doi: 10.1186/s12859-024-05803-9.
2
Involving community in genes and pathway curation.让社区参与基因和途径的整理。
Database (Oxford). 2019 Jan 1;2019:bay146. doi: 10.1093/database/bay146.
3
A streamlined workflow for conversion, peer review, and publication of genomics metadata as omics data papers.一种用于将基因组学元数据转换、同行评审和发表为组学数据论文的简化工作流程。
Gigascience. 2021 May 13;10(5). doi: 10.1093/gigascience/giab034.
4
GEOMetaCuration: a web-based application for accurate manual curation of Gene Expression Omnibus metadata.GEOMetaCuration:一个基于网络的应用程序,用于准确地手动整理基因表达综合数据集元数据。
Database (Oxford). 2018 Jan 1;2018. doi: 10.1093/database/bay019.
5
Curation of BIDS (CuBIDS): A workflow and software package for streamlining reproducible curation of large BIDS datasets.BIDS 策展(CuBIDS):一种用于简化大型 BIDS 数据集可重复策展的工作流程和软件包。
Neuroimage. 2022 Nov;263:119609. doi: 10.1016/j.neuroimage.2022.119609. Epub 2022 Sep 3.
6
Annot: a Django-based sample, reagent, and experiment metadata tracking system.Annot:一个基于 Django 的样本、试剂和实验元数据跟踪系统。
BMC Bioinformatics. 2019 Nov 1;20(1):542. doi: 10.1186/s12859-019-3147-0.
7
Dintor: functional annotation of genomic and proteomic data.Dintor:基因组和蛋白质组数据的功能注释。
BMC Genomics. 2015 Dec 21;16:1081. doi: 10.1186/s12864-015-2279-5.
8
"METAGENOTE: a simplified web platform for metadata annotation of genomic samples and streamlined submission to NCBI's sequence read archive".METAGENOTE:一个简化的基因组样本元数据注释的网络平台,简化了向 NCBI 的序列读取档案提交的流程。
BMC Bioinformatics. 2020 Sep 3;21(1):378. doi: 10.1186/s12859-020-03694-0.
9
Curation of over 10 000 transcriptomic studies to enable data reuse.对超过 10000 项转录组学研究进行整理,以实现数据的重复使用。
Database (Oxford). 2021 Feb 18;2021. doi: 10.1093/database/baab006.
10
Vertical and horizontal integration of multi-omics data with miodin.多维组学数据与 miodin 的垂直和水平整合。
BMC Bioinformatics. 2019 Dec 10;20(1):649. doi: 10.1186/s12859-019-3224-4.

本文引用的文献

1
GEOfetch: a command-line tool for downloading data and standardized metadata from GEO and SRA.GEOfetch:一个命令行工具,用于从 GEO 和 SRA 下载数据和标准化元数据。
Bioinformatics. 2023 Mar 1;39(3). doi: 10.1093/bioinformatics/btad069.
2
MGnify: the microbiome sequence data analysis resource in 2023.MGnify:2023 年的微生物组序列数据分析资源。
Nucleic Acids Res. 2023 Jan 6;51(D1):D753-D759. doi: 10.1093/nar/gkac1080.
3
The European Nucleotide Archive in 2022.2022 年的欧洲核苷酸档案库。
Nucleic Acids Res. 2023 Jan 6;51(D1):D121-D125. doi: 10.1093/nar/gkac1051.
4
FreshOmics: A manually curated and standardized -omics database for investigating freshwater microbiomes.FreshOmics:一个用于调查淡水微生物组的人工 curated 和标准化的组学数据库。
Mol Ecol Resour. 2023 Jan;23(1):222-232. doi: 10.1111/1755-0998.13692. Epub 2022 Aug 8.
5
The Core Human Microbiome: Does It Exist and How Can We Find It? A Critical Review of the Concept.核心人类微生物组:它是否存在以及我们如何找到它?对概念的批判性回顾。
Nutrients. 2022 Jul 13;14(14):2872. doi: 10.3390/nu14142872.
6
Metatranscriptomics for the Human Microbiome and Microbial Community Functional Profiling.宏转录组学在人类微生物组和微生物群落功能分析中的应用。
Annu Rev Biomed Data Sci. 2021 Jul 20;4:279-311. doi: 10.1146/annurev-biodatasci-031121-103035. Epub 2021 May 13.
7
Curation of over 10 000 transcriptomic studies to enable data reuse.对超过 10000 项转录组学研究进行整理,以实现数据的重复使用。
Database (Oxford). 2021 Feb 18;2021. doi: 10.1093/database/baab006.
8
Microbiome Search Engine 2: a Platform for Taxonomic and Functional Search of Global Microbiomes on the Whole-Microbiome Level.微生物组搜索引擎2:一个在全微生物组水平上对全球微生物组进行分类和功能搜索的平台。
mSystems. 2021 Jan 19;6(1):e00943-20. doi: 10.1128/mSystems.00943-20.
9
Systematic comparison and assessment of RNA-seq procedures for gene expression quantitative analysis.系统比较和评估 RNA-seq 程序进行基因表达定量分析。
Sci Rep. 2020 Nov 12;10(1):19737. doi: 10.1038/s41598-020-76881-x.
10
Metagenomic approaches in microbial ecology: an update on whole-genome and marker gene sequencing analyses.微生物生态学中的宏基因组学方法:全基因组和标记基因测序分析的最新进展。
Microb Genom. 2020 Aug;6(8). doi: 10.1099/mgen.0.000409. Epub 2020 Jul 24.