• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

BioPig:一个基于 Hadoop 的大规模序列数据分析工具包。

BioPig: a Hadoop-based analytic toolkit for large-scale sequence data.

机构信息

Department of Energy, Joint Genome Institute, Walnut Creek, CA 94598, USA and Genomics Division, Lawrence Berkeley National Laboratory, Berkeley, CA 94720, USA.

出版信息

Bioinformatics. 2013 Dec 1;29(23):3014-9. doi: 10.1093/bioinformatics/btt528. Epub 2013 Sep 10.

DOI:10.1093/bioinformatics/btt528
PMID:24021384
Abstract

MOTIVATION

The recent revolution in sequencing technologies has led to an exponential growth of sequence data. As a result, most of the current bioinformatics tools become obsolete as they fail to scale with data. To tackle this 'data deluge', here we introduce the BioPig sequence analysis toolkit as one of the solutions that scale to data and computation.

RESULTS

We built BioPig on the Apache's Hadoop MapReduce system and the Pig data flow language. Compared with traditional serial and MPI-based algorithms, BioPig has three major advantages: first, BioPig's programmability greatly reduces development time for parallel bioinformatics applications; second, testing BioPig with up to 500 Gb sequences demonstrates that it scales automatically with size of data; and finally, BioPig can be ported without modification on many Hadoop infrastructures, as tested with Magellan system at National Energy Research Scientific Computing Center and the Amazon Elastic Compute Cloud. In summary, BioPig represents a novel program framework with the potential to greatly accelerate data-intensive bioinformatics analysis.

摘要

动机

最近测序技术的革命导致了序列数据的指数级增长。结果,由于大多数当前的生物信息学工具无法与数据扩展,它们已经过时了。为了解决这个“数据泛滥”问题,我们在这里引入了 BioPig 序列分析工具包,作为一种可扩展到数据和计算的解决方案。

结果

我们在 Apache 的 Hadoop MapReduce 系统和 Pig 数据流语言上构建了 BioPig。与传统的串行和 MPI 算法相比,BioPig 具有三个主要优势:首先,BioPig 的可编程性大大减少了并行生物信息学应用程序的开发时间;其次,使用多达 500GB 的序列对 BioPig 进行测试表明,它可以自动扩展数据规模;最后,BioPig 可以在许多 Hadoop 基础设施上进行无修改的移植,如在国家能源研究科学计算中心的 Magellan 系统和亚马逊弹性计算云中进行的测试。总之,BioPig 代表了一种具有潜在能力的新型程序框架,可以大大加速数据密集型生物信息学分析。

相似文献

1
BioPig: a Hadoop-based analytic toolkit for large-scale sequence data.BioPig:一个基于 Hadoop 的大规模序列数据分析工具包。
Bioinformatics. 2013 Dec 1;29(23):3014-9. doi: 10.1093/bioinformatics/btt528. Epub 2013 Sep 10.
2
CloudDOE: a user-friendly tool for deploying Hadoop clouds and analyzing high-throughput sequencing data with MapReduce.CloudDOE:一款用于部署Hadoop云并使用MapReduce分析高通量测序数据的用户友好型工具。
PLoS One. 2014 Jun 4;9(6):e98146. doi: 10.1371/journal.pone.0098146. eCollection 2014.
3
An overview of the Hadoop/MapReduce/HBase framework and its current applications in bioinformatics.Hadoop/MapReduce/HBase 框架概述及其在生物信息学中的当前应用。
BMC Bioinformatics. 2010 Dec 21;11 Suppl 12(Suppl 12):S1. doi: 10.1186/1471-2105-11-S12-S1.
4
cl-dash: rapid configuration and deployment of Hadoop clusters for bioinformatics research in the cloud.CL-Dash:用于云环境中生物信息学研究的Hadoop集群的快速配置与部署
Bioinformatics. 2016 Jan 15;32(2):301-3. doi: 10.1093/bioinformatics/btv553. Epub 2015 Oct 1.
5
Eoulsan: a cloud computing-based framework facilitating high throughput sequencing analyses.Eoulsan:一个基于云计算的框架,可实现高通量测序分析。
Bioinformatics. 2012 Jun 1;28(11):1542-3. doi: 10.1093/bioinformatics/bts165. Epub 2012 Apr 5.
6
A quantitative assessment of the Hadoop framework for analyzing massively parallel DNA sequencing data.用于分析大规模并行DNA测序数据的Hadoop框架的定量评估。
Gigascience. 2015 Jun 4;4:26. doi: 10.1186/s13742-015-0058-5. eCollection 2015.
7
Large-scale parallel genome assembler over cloud computing environment.基于云计算环境的大规模并行基因组组装器。
J Bioinform Comput Biol. 2017 Jun;15(3):1740003. doi: 10.1142/S0219720017400030. Epub 2017 May 23.
8
Survey of MapReduce frame operation in bioinformatics.生物信息学中MapReduce框架操作的调查。
Brief Bioinform. 2014 Jul;15(4):637-47. doi: 10.1093/bib/bbs088. Epub 2013 Feb 7.
9
Rapid protein alignment in the cloud: HAMOND combines fast DIAMOND alignments with Hadoop parallelism.快速的云端蛋白质序列比对:HAMOND 将快速的 DIAMOND 比对与 Hadoop 并行处理相结合。
J Biotechnol. 2017 Sep 10;257:58-60. doi: 10.1016/j.jbiotec.2017.02.020. Epub 2017 Feb 21.
10
Applications of the MapReduce programming framework to clinical big data analysis: current landscape and future trends.MapReduce 编程框架在临床大数据分析中的应用:现状与未来趋势。
BioData Min. 2014 Oct 29;7:22. doi: 10.1186/1756-0381-7-22. eCollection 2014.

引用本文的文献

1
Review of open-source software for developing heterogeneous data management systems for bioinformatics applications.用于生物信息学应用开发异构数据管理系统的开源软件综述。
Bioinform Adv. 2025 Jul 18;5(1):vbaf168. doi: 10.1093/bioadv/vbaf168. eCollection 2025.
2
RGMQL: scalable and interoperable computing of heterogeneous omics big data and metadata in R/Bioconductor.RGMQL:在 R/Bioconductor 中可扩展和互操作的异构组学大数据和元数据的计算。
BMC Bioinformatics. 2022 Apr 7;23(1):123. doi: 10.1186/s12859-022-04648-4.
3
BigFiRSt: A Software Program Using Big Data Technique for Mining Simple Sequence Repeats From Large-Scale Sequencing Data.
BigFiRSt:一种使用大数据技术从大规模测序数据中挖掘简单序列重复序列的软件程序。
Front Big Data. 2022 Jan 18;4:727216. doi: 10.3389/fdata.2021.727216. eCollection 2021.
4
Cloud Computing Enabled Big Multi-Omics Data Analytics.基于云计算的大型多组学数据分析
Bioinform Biol Insights. 2021 Jul 28;15:11779322211035921. doi: 10.1177/11779322211035921. eCollection 2021.
5
Computational Strategies for Scalable Genomics Analysis.可扩展基因组分析的计算策略。
Genes (Basel). 2019 Dec 6;10(12):1017. doi: 10.3390/genes10121017.
6
PipeMEM: A Framework to Speed Up BWA-MEM in Spark with Low Overhead.PipeMEM:一种在 Spark 中使用低开销加速 BWA-MEM 的框架。
Genes (Basel). 2019 Nov 4;10(11):886. doi: 10.3390/genes10110886.
7
Deciphering the Patterns of Genetic Admixture and Diversity in the Ecuadorian Creole Chicken.解读厄瓜多尔克里奥尔鸡的基因混合与多样性模式。
Animals (Basel). 2019 Sep 11;9(9):670. doi: 10.3390/ani9090670.
8
Analyzing big datasets of genomic sequences: fast and scalable collection of k-mer statistics.分析基因组序列的大数据集:快速可扩展的 k-mer 统计信息收集。
BMC Bioinformatics. 2019 Apr 18;20(Suppl 4):138. doi: 10.1186/s12859-019-2694-8.
9
Libra: scalable k-mer-based tool for massive all-vs-all metagenome comparisons.Libra:一种基于可扩展 k-mer 的大规模所有与所有宏基因组比较工具。
Gigascience. 2019 Feb 1;8(2):giy165. doi: 10.1093/gigascience/giy165.
10
Parallel Algorithms for Inferring Gene Regulatory Networks: A Review.用于推断基因调控网络的并行算法:综述
Curr Genomics. 2018 Nov;19(7):603-614. doi: 10.2174/1389202919666180601081718.