• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

SeQuiLa:一种面向 SQL 的弹性、快速和可扩展的解决方案,用于处理和查询基因组区间。

SeQuiLa: an elastic, fast and scalable SQL-oriented solution for processing and querying genomic intervals.

机构信息

Institute of Computer Science, Warsaw University of Technology, Warsaw, Poland.

Department of Computer Science, Poznan University of Technology, Poznań, Poland.

出版信息

Bioinformatics. 2019 Jun 1;35(12):2156-2158. doi: 10.1093/bioinformatics/bty940.

DOI:10.1093/bioinformatics/bty940
PMID:30428005
Abstract

SUMMARY

Efficient processing of large-scale genomic datasets has recently become possible due to the application of 'big data' technologies in bioinformatics pipelines. We present SeQuiLa-a distributed, ANSI SQL-compliant solution for speedy querying and processing of genomic intervals that is available as an Apache Spark package. Proposed range join strategy is significantly (∼22×) faster than the default Apache Spark implementation and outperforms other state-of-the-art tools for genomic intervals processing.

AVAILABILITY AND IMPLEMENTATION

The project is available at http://biodatageeks.org/sequila/.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

摘要

由于“大数据”技术在生物信息学管道中的应用,最近大规模基因组数据集的处理变得成为可能。我们提出了 SeQuiLa,这是一种分布式的、符合 ANSI SQL 的解决方案,用于快速查询和处理基因组区间,它作为 Apache Spark 包提供。所提出的范围连接策略比默认的 Apache Spark 实现快得多(∼22×),并且优于其他用于基因组区间处理的最先进工具。

可用性和实现

该项目可在 http://biodatageeks.org/sequila/ 获得。

补充信息

补充数据可在生物信息学在线获得。

相似文献

1
SeQuiLa: an elastic, fast and scalable SQL-oriented solution for processing and querying genomic intervals.SeQuiLa:一种面向 SQL 的弹性、快速和可扩展的解决方案,用于处理和查询基因组区间。
Bioinformatics. 2019 Jun 1;35(12):2156-2158. doi: 10.1093/bioinformatics/bty940.
2
Cloud-native distributed genomic pileup operations.云原生分布式基因组堆积操作。
Bioinformatics. 2023 Jan 1;39(1). doi: 10.1093/bioinformatics/btac804.
3
SeQuiLa-cov: A fast and scalable library for depth of coverage calculations.SeQuiLa-cov:一个快速且可扩展的覆盖深度计算库。
Gigascience. 2019 Aug 1;8(8). doi: 10.1093/gigascience/giz094.
4
Bioinformatics applications on Apache Spark.基于 Apache Spark 的生物信息学应用。
Gigascience. 2018 Aug 1;7(8):giy098. doi: 10.1093/gigascience/giy098.
5
Big Data in metagenomics: Apache Spark vs MPI.宏基因组学中的大数据:Apache Spark 与 MPI。
PLoS One. 2020 Oct 6;15(10):e0239741. doi: 10.1371/journal.pone.0239741. eCollection 2020.
6
SparkSeq: fast, scalable and cloud-ready tool for the interactive genomic data analysis with nucleotide precision.SparkSeq:一种快速、可扩展且适用于云环境的工具,可实现具有核苷酸精度的交互式基因组数据分析。
Bioinformatics. 2014 Sep 15;30(18):2652-3. doi: 10.1093/bioinformatics/btu343. Epub 2014 May 19.
7
A Bin-Based Indexing for Scalable Range Join on Genomic Data.基于 Bin 的索引在基因组数据上可扩展的范围连接。
IEEE/ACM Trans Comput Biol Bioinform. 2023 May-Jun;20(3):2210-2222. doi: 10.1109/TCBB.2023.3240196. Epub 2023 Jun 5.
8
PyGMQL: scalable data extraction and analysis for heterogeneous genomic datasets.PyGMQL:用于异构基因组数据集的数据提取和分析的可扩展方法。
BMC Bioinformatics. 2019 Nov 8;20(1):560. doi: 10.1186/s12859-019-3159-9.
9
Big Data Approaches for the Analysis of Large-Scale fMRI Data Using Apache Spark and GPU Processing: A Demonstration on Resting-State fMRI Data from the Human Connectome Project.使用Apache Spark和GPU处理分析大规模功能磁共振成像数据的大数据方法:来自人类连接体项目静息态功能磁共振成像数据的演示
Front Neurosci. 2016 Jan 6;9:492. doi: 10.3389/fnins.2015.00492. eCollection 2015.
10
SparkINFERNO: a scalable high-throughput pipeline for inferring molecular mechanisms of non-coding genetic variants.SparkINFERNO:一种可扩展的高通量管道,用于推断非编码遗传变异的分子机制。
Bioinformatics. 2020 Jun 1;36(12):3879-3881. doi: 10.1093/bioinformatics/btaa246.

引用本文的文献

1
Ten quick tips for bioinformatics analyses using an Apache Spark distributed computing environment.使用 Apache Spark 分布式计算环境进行生物信息学分析的十个快速技巧。
PLoS Comput Biol. 2023 Jul 20;19(7):e1011272. doi: 10.1371/journal.pcbi.1011272. eCollection 2023 Jul.
2
Framing Apache Spark in life sciences.从生命科学角度构建Apache Spark
Heliyon. 2023 Feb 9;9(2):e13368. doi: 10.1016/j.heliyon.2023.e13368. eCollection 2023 Feb.
3
Cloud-native distributed genomic pileup operations.云原生分布式基因组堆积操作。
Bioinformatics. 2023 Jan 1;39(1). doi: 10.1093/bioinformatics/btac804.
4
CNVind: an open source cloud-based pipeline for rare CNVs detection in whole exome sequencing data based on the depth of coverage.CNVind:一个基于覆盖深度的全外显子测序数据中罕见 CNVs 检测的开源云端分析流程。
BMC Bioinformatics. 2022 Mar 5;23(1):85. doi: 10.1186/s12859-022-04617-x.
5
SeQuiLa-cov: A fast and scalable library for depth of coverage calculations.SeQuiLa-cov:一个快速且可扩展的覆盖深度计算库。
Gigascience. 2019 Aug 1;8(8). doi: 10.1093/gigascience/giz094.