• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

大异质基因组数据集的处理,用于下一代测序数据的三级分析。

Processing of big heterogeneous genomic datasets for tertiary analysis of Next Generation Sequencing data.

机构信息

Dipartimento di Elettronica, Informazione e Bioingegneria, Politecnico di Milano, Milan, Italy.

The German Research Center for Artificial Intelligence (DFKI), Berlin, Germany.

出版信息

Bioinformatics. 2019 Mar 1;35(5):729-736. doi: 10.1093/bioinformatics/bty688.

DOI:10.1093/bioinformatics/bty688
PMID:30101316
Abstract

MOTIVATION

We previously proposed a paradigm shift in genomic data management, based on the Genomic Data Model (GDM) for mediating existing data formats and on the GenoMetric Query Language (GMQL) for supporting, at a high level of abstraction, data extraction and the most common data-driven computations required by tertiary data analysis of Next Generation Sequencing datasets. Here, we present a new GMQL-based system with enhanced accessibility, portability, scalability and performance.

RESULTS

The new system has a well-designed modular architecture featuring: (i) an intermediate representation supporting many different implementations (including Spark, Flink and SciDB); (ii) a high-level technology-independent repository abstraction, supporting different repository technologies (e.g., local file system, Hadoop File System, database or others); (iii) several system interfaces, including a user-friendly Web-based interface, a Web Service interface, and a programmatic interface for Python language. Biological use case examples, using public ENCODE, Roadmap Epigenomics and TCGA datasets, demonstrate the relevance of our work.

AVAILABILITY AND IMPLEMENTATION

The GMQL system is freely available for non-commercial use as open source project at: http://www.bioinformatics.deib.polimi.it/GMQLsystem/.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

我们之前提出了一种基于基因组数据模型(GDM)来协调现有数据格式的基因组数据管理范式转变,并提出了 GenoMetric 查询语言(GMQL)来支持下一代测序数据集的三级数据分析所需的高级数据提取和最常见的数据驱动计算。在这里,我们提出了一个具有增强的可访问性、可移植性、可扩展性和性能的新基于 GMQL 的系统。

结果

新系统具有精心设计的模块化架构,其特点包括:(i)支持多种不同实现的中间表示(包括 Spark、Flink 和 SciDB);(ii)高级与技术无关的存储库抽象,支持不同的存储库技术(例如本地文件系统、Hadoop 文件系统、数据库或其他);(iii)几个系统接口,包括用户友好的基于 Web 的接口、Web 服务接口和用于 Python 语言的编程接口。使用公共 ENCODE、Roadmap Epigenomics 和 TCGA 数据集的生物学用例示例,证明了我们工作的相关性。

可用性和实现

GMQL 系统作为开源项目免费提供给非商业用途,可在以下网址获得:http://www.bioinformatics.deib.polimi.it/GMQLsystem/。

补充信息

补充数据可在生物信息学在线获得。

相似文献

1
Processing of big heterogeneous genomic datasets for tertiary analysis of Next Generation Sequencing data.大异质基因组数据集的处理,用于下一代测序数据的三级分析。
Bioinformatics. 2019 Mar 1;35(5):729-736. doi: 10.1093/bioinformatics/bty688.
2
GenoMetric Query Language: a novel approach to large-scale genomic data management.基因组查询语言:一种大规模基因组数据管理的新方法。
Bioinformatics. 2015 Jun 15;31(12):1881-8. doi: 10.1093/bioinformatics/btv048. Epub 2015 Feb 3.
3
Data Management for Heterogeneous Genomic Datasets.异构基因组数据集的数据管理。
IEEE/ACM Trans Comput Biol Bioinform. 2017 Nov-Dec;14(6):1251-1264. doi: 10.1109/TCBB.2016.2576447. Epub 2016 Jun 7.
4
Modeling and interoperability of heterogeneous genomic big data for integrative processing and querying.用于综合处理和查询的异构基因组大数据建模与互操作性
Methods. 2016 Dec 1;111:3-11. doi: 10.1016/j.ymeth.2016.09.002. Epub 2016 Sep 13.
5
Federated sharing and processing of genomic datasets for tertiary data analysis.基因组数据集的联合共享和处理,用于三级数据分析。
Brief Bioinform. 2021 May 20;22(3). doi: 10.1093/bib/bbaa091.
6
RGMQL: scalable and interoperable computing of heterogeneous omics big data and metadata in R/Bioconductor.RGMQL:在 R/Bioconductor 中可扩展和互操作的异构组学大数据和元数据的计算。
BMC Bioinformatics. 2022 Apr 7;23(1):123. doi: 10.1186/s12859-022-04648-4.
7
PyGMQL: scalable data extraction and analysis for heterogeneous genomic datasets.PyGMQL:用于异构基因组数据集的数据提取和分析的可扩展方法。
BMC Bioinformatics. 2019 Nov 8;20(1):560. doi: 10.1186/s12859-019-3159-9.
8
NGS++: a library for rapid prototyping of epigenomics software tools.NGS++:一个用于快速原型设计表观基因组学软件工具的库。
Bioinformatics. 2013 Aug 1;29(15):1893-4. doi: 10.1093/bioinformatics/btt312. Epub 2013 Jun 4.
9
SeqWare Query Engine: storing and searching sequence data in the cloud.SeqWare 查询引擎:在云端存储和搜索序列数据。
BMC Bioinformatics. 2010 Dec 21;11 Suppl 12(Suppl 12):S2. doi: 10.1186/1471-2105-11-S12-S2.
10
Explorative visual analytics on interval-based genomic data and their metadata.基于区间的基因组数据及其元数据的探索性可视化分析。
BMC Bioinformatics. 2017 Dec 4;18(1):536. doi: 10.1186/s12859-017-1945-9.

引用本文的文献

1
Identification of transcription factor high accumulation DNA zones.转录因子高积累 DNA 区的鉴定。
BMC Bioinformatics. 2023 Oct 20;24(1):395. doi: 10.1186/s12859-023-05528-1.
2
Conceptual modelling for life sciences based on systemist foundations.基于系统论基础的生命科学概念建模。
BMC Bioinformatics. 2023 Jun 13;23(Suppl 11):574. doi: 10.1186/s12859-023-05287-z.
3
Multi-label transcriptional classification of colorectal cancer reflects tumor cell population heterogeneity.结直肠癌的多标签转录分类反映了肿瘤细胞群体异质性。
Genome Med. 2023 May 15;15(1):37. doi: 10.1186/s13073-023-01176-5.
4
Processing genome-wide association studies within a repository of heterogeneous genomic datasets.在异构基因组数据集存储库中处理全基因组关联研究。
BMC Genom Data. 2023 Mar 3;24(1):13. doi: 10.1186/s12863-023-01111-y.
5
Genomic data integration and user-defined sample-set extraction for population variant analysis.用于群体变异分析的基因组数据集成和用户定义的样本集提取。
BMC Bioinformatics. 2022 Sep 29;23(1):401. doi: 10.1186/s12859-022-04927-0.
6
Proposal of Smith-Waterman algorithm on FPGA to accelerate the forward and backtracking steps.基于 FPGA 的 Smith-Waterman 算法加速前向和回溯步骤的提案。
PLoS One. 2022 Jun 30;17(6):e0254736. doi: 10.1371/journal.pone.0254736. eCollection 2022.
7
GeMI: interactive interface for transformer-based Genomic Metadata Integration.GeMI:基于转换器的基因组元数据集成的交互式接口。
Database (Oxford). 2022 Jun 3;2022. doi: 10.1093/database/baac036.
8
Accurate and highly interpretable prediction of gene expression from histone modifications.从组蛋白修饰中准确且高度可解释地预测基因表达。
BMC Bioinformatics. 2022 Apr 26;23(1):151. doi: 10.1186/s12859-022-04687-x.
9
RGMQL: scalable and interoperable computing of heterogeneous omics big data and metadata in R/Bioconductor.RGMQL:在 R/Bioconductor 中可扩展和互操作的异构组学大数据和元数据的计算。
BMC Bioinformatics. 2022 Apr 7;23(1):123. doi: 10.1186/s12859-022-04648-4.
10
BigFiRSt: A Software Program Using Big Data Technique for Mining Simple Sequence Repeats From Large-Scale Sequencing Data.BigFiRSt:一种使用大数据技术从大规模测序数据中挖掘简单序列重复序列的软件程序。
Front Big Data. 2022 Jan 18;4:727216. doi: 10.3389/fdata.2021.727216. eCollection 2021.