Suppr超能文献

PASTASpark:多重序列比对与大数据相遇。

PASTASpark: multiple sequence alignment meets Big Data.

机构信息

CiTIUS, Universidade de Santiago de Compostela, 15782 Santiago de Compostela, Spain.

出版信息

Bioinformatics. 2017 Sep 15;33(18):2948-2950. doi: 10.1093/bioinformatics/btx354.

Abstract

MOTIVATION

One basic step in many bioinformatics analyses is the multiple sequence alignment. One of the state-of-the-art tools to perform multiple sequence alignment is PASTA (Practical Alignments using SATé and TrAnsitivity). PASTA supports multithreading but it is limited to process datasets on shared memory systems. In this work we introduce PASTASpark, a tool that uses the Big Data engine Apache Spark to boost the performance of the alignment phase of PASTA, which is the most expensive task in terms of time consumption.

RESULTS

Speedups up to 10×  with respect to single-threaded PASTA were observed, which allows to process an ultra-large dataset of 200 000 sequences within the 24-h limit.

AVAILABILITY AND IMPLEMENTATION

PASTASpark is an Open Source tool available at https://github.com/citiususc/pastaspark.

CONTACT

josemanuel.abuin@usc.es.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

在许多生物信息学分析中,一个基本步骤是进行多重序列比对。执行多重序列比对的最先进工具之一是 PASTA(使用 SATé 和传递性进行实用比对)。PASTA 支持多线程,但仅限于在共享内存系统上处理数据集。在这项工作中,我们引入了 PASTASpark,这是一个使用大数据引擎 Apache Spark 来提高 PASTA 对齐阶段性能的工具,该阶段在时间消耗方面是最昂贵的任务。

结果

相对于单线程 PASTA 观察到高达 10 倍的加速,这使得能够在 24 小时的限制内处理超大数据集的 200000 个序列。

可用性和实现

PASTASpark 是一个可用的开源工具,网址为 https://github.com/citiususc/pastaspark。

联系信息

josemanuel.abuin@usc.es

补充信息

补充数据可在 Bioinformatics 在线获得。

文献AI研究员

20分钟写一篇综述,助力文献阅读效率提升50倍。

立即体验

用中文搜PubMed

大模型驱动的PubMed中文搜索引擎

马上搜索

文档翻译

学术文献翻译模型,支持多种主流文档格式。

立即体验