• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

Hadoop-BAM:在云中直接操作下一代测序数据。

Hadoop-BAM: directly manipulating next generation sequencing data in the cloud.

机构信息

Aalto University, Department of Information and Computer Science, Aalto, Finland.

出版信息

Bioinformatics. 2012 Mar 15;28(6):876-7. doi: 10.1093/bioinformatics/bts054. Epub 2012 Feb 2.

DOI:10.1093/bioinformatics/bts054
PMID:22302568
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC3307120/
Abstract

Hadoop-BAM is a novel library for the scalable manipulation of aligned next-generation sequencing data in the Hadoop distributed computing framework. It acts as an integration layer between analysis applications and BAM files that are processed using Hadoop. Hadoop-BAM solves the issues related to BAM data access by presenting a convenient API for implementing map and reduce functions that can directly operate on BAM records. It builds on top of the Picard SAM JDK, so tools that rely on the Picard API are expected to be easily convertible to support large-scale distributed processing. In this article we demonstrate the use of Hadoop-BAM by building a coverage summarizing tool for the Chipster genome browser. Our results show that Hadoop offers good scalability, and one should avoid moving data in and out of Hadoop between analysis steps.

摘要

Hadoop-BAM 是一个用于在 Hadoop 分布式计算框架中对对齐的下一代测序数据进行可扩展操作的新型库。它充当分析应用程序和使用 Hadoop 处理的 BAM 文件之间的集成层。Hadoop-BAM 通过提供一个方便的 API 来解决与 BAM 数据访问相关的问题,该 API 可用于实现直接操作 BAM 记录的映射和减少功能。它建立在 Picard SAM JDK 之上,因此依赖于 Picard API 的工具预计将很容易转换为支持大规模分布式处理。在本文中,我们通过为 Chipster 基因组浏览器构建覆盖范围汇总工具来演示 Hadoop-BAM 的使用。我们的结果表明,Hadoop 提供了良好的可扩展性,并且应该避免在分析步骤之间在 Hadoop 内外移动数据。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a029/3307120/c07b4fa9573f/bts054f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a029/3307120/4b6ffd6f3f64/bts054f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a029/3307120/c07b4fa9573f/bts054f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a029/3307120/4b6ffd6f3f64/bts054f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a029/3307120/c07b4fa9573f/bts054f2.jpg

相似文献

1
Hadoop-BAM: directly manipulating next generation sequencing data in the cloud.Hadoop-BAM:在云中直接操作下一代测序数据。
Bioinformatics. 2012 Mar 15;28(6):876-7. doi: 10.1093/bioinformatics/bts054. Epub 2012 Feb 2.
2
CloudDOE: a user-friendly tool for deploying Hadoop clouds and analyzing high-throughput sequencing data with MapReduce.CloudDOE:一款用于部署Hadoop云并使用MapReduce分析高通量测序数据的用户友好型工具。
PLoS One. 2014 Jun 4;9(6):e98146. doi: 10.1371/journal.pone.0098146. eCollection 2014.
3
ADS-HCSpark: A scalable HaplotypeCaller leveraging adaptive data segmentation to accelerate variant calling on Spark.ADS-HCSpark:一种可扩展的基于 Spark 的单倍型调用程序,利用自适应数据分段来加速变异调用。
BMC Bioinformatics. 2019 Feb 14;20(1):76. doi: 10.1186/s12859-019-2665-0.
4
A quantitative assessment of the Hadoop framework for analyzing massively parallel DNA sequencing data.用于分析大规模并行DNA测序数据的Hadoop框架的定量评估。
Gigascience. 2015 Jun 4;4:26. doi: 10.1186/s13742-015-0058-5. eCollection 2015.
5
BAMSI: a multi-cloud service for scalable distributed filtering of massive genome data.BAMSI:一个用于大规模基因组数据可扩展分布式过滤的多云服务。
BMC Bioinformatics. 2018 Jun 26;19(1):240. doi: 10.1186/s12859-018-2241-z.
6
Rapid protein alignment in the cloud: HAMOND combines fast DIAMOND alignments with Hadoop parallelism.快速的云端蛋白质序列比对:HAMOND 将快速的 DIAMOND 比对与 Hadoop 并行处理相结合。
J Biotechnol. 2017 Sep 10;257:58-60. doi: 10.1016/j.jbiotec.2017.02.020. Epub 2017 Feb 21.
7
DistMap: a toolkit for distributed short read mapping on a Hadoop cluster.DistMap:一个在 Hadoop 集群上进行分布式短读映射的工具包。
PLoS One. 2013 Aug 23;8(8):e72614. doi: 10.1371/journal.pone.0072614. eCollection 2013.
8
A Fast and Scalable Workflow for SNPs Detection in Genome Sequences Using Hadoop Map-Reduce.基于 Hadoop Map-Reduce 的基因组序列中 SNPs 检测的快速可扩展工作流。
Genes (Basel). 2020 Feb 5;11(2):166. doi: 10.3390/genes11020166.
9
An overview of the Hadoop/MapReduce/HBase framework and its current applications in bioinformatics.Hadoop/MapReduce/HBase 框架概述及其在生物信息学中的当前应用。
BMC Bioinformatics. 2010 Dec 21;11 Suppl 12(Suppl 12):S1. doi: 10.1186/1471-2105-11-S12-S1.
10
mod_bio: Apache modules for Next-Generation sequencing data.mod_bio:用于下一代测序数据的Apache模块。
Bioinformatics. 2015 Jan 1;31(1):112-3. doi: 10.1093/bioinformatics/btu547. Epub 2014 Sep 4.

引用本文的文献

1
Ten quick tips for bioinformatics analyses using an Apache Spark distributed computing environment.使用 Apache Spark 分布式计算环境进行生物信息学分析的十个快速技巧。
PLoS Comput Biol. 2023 Jul 20;19(7):e1011272. doi: 10.1371/journal.pcbi.1011272. eCollection 2023 Jul.
2
Cloud-native distributed genomic pileup operations.云原生分布式基因组堆积操作。
Bioinformatics. 2023 Jan 1;39(1). doi: 10.1093/bioinformatics/btac804.
3
SaAlign: Multiple DNA/RNA sequence alignment and phylogenetic tree construction tool for ultra-large datasets and ultra-long sequences based on suffix array.

本文引用的文献

1
Chipster: user-friendly analysis software for microarray and other high-throughput data.Chipster:一款用户友好的微阵列和其他高通量数据分析软件。
BMC Genomics. 2011 Oct 14;12:507. doi: 10.1186/1471-2164-12-507.
2
SEAL: a distributed short read mapping and duplicate removal tool.SEAL:一种分布式短读映射和去重工具。
Bioinformatics. 2011 Aug 1;27(15):2159-60. doi: 10.1093/bioinformatics/btr325. Epub 2011 Jun 22.
3
SeqWare Query Engine: storing and searching sequence data in the cloud.SeqWare 查询引擎:在云端存储和搜索序列数据。
SaAlign:基于后缀数组的用于超大型数据集和超长序列的多DNA/RNA序列比对及系统发育树构建工具。
Comput Struct Biotechnol J. 2022 Mar 21;20:1487-1493. doi: 10.1016/j.csbj.2022.03.018. eCollection 2022.
4
BigFiRSt: A Software Program Using Big Data Technique for Mining Simple Sequence Repeats From Large-Scale Sequencing Data.BigFiRSt:一种使用大数据技术从大规模测序数据中挖掘简单序列重复序列的软件程序。
Front Big Data. 2022 Jan 18;4:727216. doi: 10.3389/fdata.2021.727216. eCollection 2021.
5
Halvade somatic: Somatic variant calling with Apache Spark.半体变异体调用:基于 Apache Spark 的半体变异体调用。
Gigascience. 2022 Jan 12;11(1). doi: 10.1093/gigascience/giab094.
6
Cloud Computing Enabled Big Multi-Omics Data Analytics.基于云计算的大型多组学数据分析
Bioinform Biol Insights. 2021 Jul 28;15:11779322211035921. doi: 10.1177/11779322211035921. eCollection 2021.
7
Distributed hybrid-indexing of compressed pan-genomes for scalable and fast sequence alignment.压缩泛基因组的分布式混合索引,实现可扩展和快速的序列比对。
PLoS One. 2021 Aug 3;16(8):e0255260. doi: 10.1371/journal.pone.0255260. eCollection 2021.
8
A Fast and Scalable Workflow for SNPs Detection in Genome Sequences Using Hadoop Map-Reduce.基于 Hadoop Map-Reduce 的基因组序列中 SNPs 检测的快速可扩展工作流。
Genes (Basel). 2020 Feb 5;11(2):166. doi: 10.3390/genes11020166.
9
A Genocentric Approach to Discovery of Mendelian Disorders.从种族中心主义角度探究孟德尔遗传病
Am J Hum Genet. 2019 Nov 7;105(5):974-986. doi: 10.1016/j.ajhg.2019.09.027. Epub 2019 Oct 24.
10
DECA: scalable XHMM exome copy-number variant calling with ADAM and Apache Spark.DECA:使用 ADAM 和 Apache Spark 进行可扩展的 XHMM 外显子拷贝数变异调用。
BMC Bioinformatics. 2019 Oct 11;20(1):493. doi: 10.1186/s12859-019-3108-7.
BMC Bioinformatics. 2010 Dec 21;11 Suppl 12(Suppl 12):S2. doi: 10.1186/1471-2105-11-S12-S2.
4
An overview of the Hadoop/MapReduce/HBase framework and its current applications in bioinformatics.Hadoop/MapReduce/HBase 框架概述及其在生物信息学中的当前应用。
BMC Bioinformatics. 2010 Dec 21;11 Suppl 12(Suppl 12):S1. doi: 10.1186/1471-2105-11-S12-S1.
5
The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data.基因组分析工具包:一种用于分析下一代 DNA 测序数据的 MapReduce 框架。
Genome Res. 2010 Sep;20(9):1297-303. doi: 10.1101/gr.107524.110. Epub 2010 Jul 19.
6
The Sequence Alignment/Map format and SAMtools.序列比对/映射格式和 SAMtools。
Bioinformatics. 2009 Aug 15;25(16):2078-9. doi: 10.1093/bioinformatics/btp352. Epub 2009 Jun 8.