• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

基因组数据集的联合共享和处理,用于三级数据分析。

Federated sharing and processing of genomic datasets for tertiary data analysis.

机构信息

Politecnico di Milano.

Computational Biology at Politecnico di Milano.

出版信息

Brief Bioinform. 2021 May 20;22(3). doi: 10.1093/bib/bbaa091.

DOI:10.1093/bib/bbaa091
PMID:34020536
Abstract

MOTIVATION

With the spreading of biological and clinical uses of next-generation sequencing (NGS) data, many laboratories and health organizations are facing the need of sharing NGS data resources and easily accessing and processing comprehensively shared genomic data; in most cases, primary and secondary data management of NGS data is done at sequencing stations, and sharing applies to processed data. Based on the previous single-instance GMQL system architecture, here we review the model, language and architectural extensions that make the GMQL centralized system innovatively open to federated computing.

RESULTS

A well-designed extension of a centralized system architecture to support federated data sharing and query processing. Data is federated thanks to simple data sharing instructions. Queries are assigned to execution nodes; they are translated into an intermediate representation, whose computation drives data and processing distributions. The approach allows writing federated applications according to classical styles: centralized, distributed or externalized.

AVAILABILITY

The federated genomic data management system is freely available for non-commercial use as an open source project at http://www.bioinformatics.deib.polimi.it/FederatedGMQLsystem/.

CONTACT

{arif.canakoglu, pietro.pinoli}@polimi.it.

摘要

动机

随着下一代测序(NGS)数据的生物和临床应用的普及,许多实验室和医疗机构都面临着共享 NGS 数据资源以及轻松访问和处理全面共享基因组数据的需求;在大多数情况下,NGS 数据的主要和次要数据管理都是在测序站完成的,而共享则适用于处理后的数据。基于之前的单实例 GMQL 系统架构,我们在这里回顾了使 GMQL 集中式系统创新地开放联邦计算的模型、语言和体系结构扩展。

结果

精心设计的集中式系统架构扩展,以支持联邦数据共享和查询处理。通过简单的数据共享指令实现数据联邦。查询被分配到执行节点;它们被翻译成中间表示,其计算驱动数据和处理分布。该方法允许根据集中式、分布式或外部化的经典样式编写联邦应用程序。

可用性

联邦基因组数据管理系统可作为开源项目在 http://www.bioinformatics.deib.polimi.it/FederatedGMQLsystem/ 上免费供非商业用途使用。

联系方式

{arif.canakoglu,pietro.pinoli}@polimi.it。

相似文献

1
Federated sharing and processing of genomic datasets for tertiary data analysis.基因组数据集的联合共享和处理,用于三级数据分析。
Brief Bioinform. 2021 May 20;22(3). doi: 10.1093/bib/bbaa091.
2
Processing of big heterogeneous genomic datasets for tertiary analysis of Next Generation Sequencing data.大异质基因组数据集的处理,用于下一代测序数据的三级分析。
Bioinformatics. 2019 Mar 1;35(5):729-736. doi: 10.1093/bioinformatics/bty688.
3
Data Management for Heterogeneous Genomic Datasets.异构基因组数据集的数据管理。
IEEE/ACM Trans Comput Biol Bioinform. 2017 Nov-Dec;14(6):1251-1264. doi: 10.1109/TCBB.2016.2576447. Epub 2016 Jun 7.
4
GenoMetric Query Language: a novel approach to large-scale genomic data management.基因组查询语言:一种大规模基因组数据管理的新方法。
Bioinformatics. 2015 Jun 15;31(12):1881-8. doi: 10.1093/bioinformatics/btv048. Epub 2015 Feb 3.
5
Explorative visual analytics on interval-based genomic data and their metadata.基于区间的基因组数据及其元数据的探索性可视化分析。
BMC Bioinformatics. 2017 Dec 4;18(1):536. doi: 10.1186/s12859-017-1945-9.
6
A system to build distributed multivariate models and manage disparate data sharing policies: implementation in the scalable national network for effectiveness research.一个用于构建分布式多变量模型和管理不同数据共享策略的系统:在可扩展的国家有效性研究网络中的实现。
J Am Med Inform Assoc. 2015 Nov;22(6):1187-95. doi: 10.1093/jamia/ocv017. Epub 2015 Jul 3.
7
Modeling and interoperability of heterogeneous genomic big data for integrative processing and querying.用于综合处理和查询的异构基因组大数据建模与互操作性
Methods. 2016 Dec 1;111:3-11. doi: 10.1016/j.ymeth.2016.09.002. Epub 2016 Sep 13.
8
Secure count query on encrypted genomic data.加密基因组数据上的安全计数查询。
J Biomed Inform. 2018 May;81:41-52. doi: 10.1016/j.jbi.2018.03.003. Epub 2018 Mar 15.
9
Sharing sensitive data in life sciences: an overview of centralized and federated approaches.生命科学领域中敏感数据的共享:集中式和联邦式方法概述。
Brief Bioinform. 2024 May 23;25(4). doi: 10.1093/bib/bbae262.
10
Optimizing performance of GATK workflows using Apache Arrow In-Memory data framework.使用 Apache Arrow 内存数据框架优化 GATK 工作流程的性能。
BMC Genomics. 2020 Nov 18;21(Suppl 10):683. doi: 10.1186/s12864-020-07013-y.

引用本文的文献

1
Diagnostic classification based on DNA methylation profiles using sequential machine learning approaches.基于 DNA 甲基化谱的诊断分类,使用序贯机器学习方法。
PLoS One. 2024 Sep 6;19(9):e0307912. doi: 10.1371/journal.pone.0307912. eCollection 2024.
2
Conceptual modelling for life sciences based on systemist foundations.基于系统论基础的生命科学概念建模。
BMC Bioinformatics. 2023 Jun 13;23(Suppl 11):574. doi: 10.1186/s12859-023-05287-z.