• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

RF 夫人:一种用于分析大量进化树集合的高效 MapReduce 算法。

MrsRF: an efficient MapReduce algorithm for analyzing large collections of evolutionary trees.

机构信息

Department of Computer Science and Engineering, Texas A&M University, College Station, TX, USA.

出版信息

BMC Bioinformatics. 2010 Jan 18;11 Suppl 1(Suppl 1):S15. doi: 10.1186/1471-2105-11-S1-S15.

DOI:10.1186/1471-2105-11-S1-S15
PMID:20122186
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC3009486/
Abstract

BACKGROUND

MapReduce is a parallel framework that has been used effectively to design large-scale parallel applications for large computing clusters. In this paper, we evaluate the viability of the MapReduce framework for designing phylogenetic applications. The problem of interest is generating the all-to-all Robinson-Foulds distance matrix, which has many applications for visualizing and clustering large collections of evolutionary trees. We introduce MrsRF (MapReduce Speeds up RF), a multi-core algorithm to generate a t x t Robinson-Foulds distance matrix between t trees using the MapReduce paradigm.

RESULTS

We studied the performance of our MrsRF algorithm on two large biological trees sets consisting of 20,000 trees of 150 taxa each and 33,306 trees of 567 taxa each. Our experiments show that MrsRF is a scalable approach reaching a speedup of over 18 on 32 total cores. Our results also show that achieving top speedup on a multi-core cluster requires different cluster configurations. Finally, we show how to use an RF matrix to summarize collections of phylogenetic trees visually.

CONCLUSION

Our results show that MapReduce is a promising paradigm for developing multi-core phylogenetic applications. The results also demonstrate that different multi-core configurations must be tested in order to obtain optimum performance. We conclude that RF matrices play a critical role in developing techniques to summarize large collections of trees.

摘要

背景

MapReduce 是一种并行框架,已被有效地用于为大型计算集群设计大规模并行应用程序。在本文中,我们评估了 MapReduce 框架用于设计系统发育应用程序的可行性。我们感兴趣的问题是生成全对全的 Robinson-Foulds 距离矩阵,该矩阵在可视化和聚类大型进化树集合方面有许多应用。我们引入了 MrsRF(MapReduce 加速 RF),这是一种使用 MapReduce 范例生成 t 个树之间的 t x t Robinson-Foulds 距离矩阵的多核算法。

结果

我们在两个大型生物树集上研究了我们的 MrsRF 算法的性能,这两个树集分别包含 150 个分类群的 20000 棵树和 567 个分类群的 33306 棵树。我们的实验表明,MrsRF 是一种可扩展的方法,在 32 个总核上的加速比超过 18。我们的结果还表明,在多核集群上获得最佳加速比需要不同的集群配置。最后,我们展示了如何使用 RF 矩阵直观地总结系统发育树的集合。

结论

我们的结果表明,MapReduce 是开发多核系统发育应用程序的有前途的范例。结果还表明,必须测试不同的多核配置,以获得最佳性能。我们得出结论,RF 矩阵在开发技术以总结大型树集合方面起着关键作用。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/211f/3009486/46f2677a63af/1471-2105-11-S1-S15-9.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/211f/3009486/bad261dc42db/1471-2105-11-S1-S15-1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/211f/3009486/46671598c40d/1471-2105-11-S1-S15-2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/211f/3009486/bf5d9e628e8d/1471-2105-11-S1-S15-3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/211f/3009486/793e065aafac/1471-2105-11-S1-S15-4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/211f/3009486/a16c8c1160d2/1471-2105-11-S1-S15-5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/211f/3009486/baffb3f0c1ce/1471-2105-11-S1-S15-6.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/211f/3009486/396aca98ae12/1471-2105-11-S1-S15-7.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/211f/3009486/c247fe48abcf/1471-2105-11-S1-S15-8.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/211f/3009486/46f2677a63af/1471-2105-11-S1-S15-9.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/211f/3009486/bad261dc42db/1471-2105-11-S1-S15-1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/211f/3009486/46671598c40d/1471-2105-11-S1-S15-2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/211f/3009486/bf5d9e628e8d/1471-2105-11-S1-S15-3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/211f/3009486/793e065aafac/1471-2105-11-S1-S15-4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/211f/3009486/a16c8c1160d2/1471-2105-11-S1-S15-5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/211f/3009486/baffb3f0c1ce/1471-2105-11-S1-S15-6.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/211f/3009486/396aca98ae12/1471-2105-11-S1-S15-7.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/211f/3009486/c247fe48abcf/1471-2105-11-S1-S15-8.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/211f/3009486/46f2677a63af/1471-2105-11-S1-S15-9.jpg

相似文献

1
MrsRF: an efficient MapReduce algorithm for analyzing large collections of evolutionary trees.RF 夫人:一种用于分析大量进化树集合的高效 MapReduce 算法。
BMC Bioinformatics. 2010 Jan 18;11 Suppl 1(Suppl 1):S15. doi: 10.1186/1471-2105-11-S1-S15.
2
Invariant transformers of Robinson and Foulds distance matrices for Convolutional Neural Network.不变的 Robinson 和 Foulds 距离矩阵变换用于卷积神经网络。
J Bioinform Comput Biol. 2022 Aug;20(4):2250012. doi: 10.1142/S0219720022500123. Epub 2022 Jul 6.
3
Efficiently computing the Robinson-Foulds metric.高效计算罗宾逊-福尔兹度量。
J Comput Biol. 2007 Jul-Aug;14(6):724-35. doi: 10.1089/cmb.2007.R012.
4
The Generalized Robinson-Foulds Distance for Phylogenetic Trees.系统发育树的广义 Robinson-Foulds 距离。
J Comput Biol. 2021 Dec;28(12):1181-1195. doi: 10.1089/cmb.2021.0342. Epub 2021 Oct 29.
5
A generalized Robinson-Foulds distance for labeled trees.带标签树的广义罗宾逊-福尔兹距离。
BMC Genomics. 2020 Nov 18;21(Suppl 10):779. doi: 10.1186/s12864-020-07011-0.
6
Robinson-Foulds supertrees.罗宾逊-福尔兹超树
Algorithms Mol Biol. 2010 Feb 24;5:18. doi: 10.1186/1748-7188-5-18.
7
MulRF: a software package for phylogenetic analysis using multi-copy gene trees.MulRF:一个使用多拷贝基因树进行系统发育分析的软件包。
Bioinformatics. 2015 Feb 1;31(3):432-3. doi: 10.1093/bioinformatics/btu648. Epub 2014 Oct 1.
8
A program to compute the soft Robinson-Foulds distance between phylogenetic networks.一个用于计算系统发育网络之间软罗宾逊-福尔兹距离的程序。
BMC Genomics. 2017 Mar 14;18(Suppl 2):111. doi: 10.1186/s12864-017-3500-5.
9
Inferring species trees from incongruent multi-copy gene trees using the Robinson-Foulds distance.使用罗宾逊-福尔兹距离从不一致的多拷贝基因树推断物种树。
Algorithms Mol Biol. 2013 Nov 1;8(1):28. doi: 10.1186/1748-7188-8-28.
10
A Linear Time Solution to the Labeled Robinson-Foulds Distance Problem.线性时间解决带标签的罗宾逊-福尔德斯距离问题。
Syst Biol. 2022 Oct 12;71(6):1391-1403. doi: 10.1093/sysbio/syac028.

引用本文的文献

1
Cloud Computing Enabled Big Multi-Omics Data Analytics.基于云计算的大型多组学数据分析
Bioinform Biol Insights. 2021 Jul 28;15:11779322211035921. doi: 10.1177/11779322211035921. eCollection 2021.
2
Single-cell Transcriptome Study as Big Data.作为大数据的单细胞转录组研究
Genomics Proteomics Bioinformatics. 2016 Feb;14(1):21-30. doi: 10.1016/j.gpb.2016.01.005. Epub 2016 Feb 11.
3
Nephele: genotyping via complete composition vectors and MapReduce.Nephele:通过完全组合向量和MapReduce进行基因分型。

本文引用的文献

1
Using tree diversity to compare phylogenetic heuristics.利用树木多样性比较系统发育启发法。
BMC Bioinformatics. 2009 Apr 29;10 Suppl 4(Suppl 4):S3. doi: 10.1186/1471-2105-10-S4-S3.
2
CloudBurst: highly sensitive read mapping with MapReduce.CloudBurst:使用MapReduce进行高灵敏度读段比对
Bioinformatics. 2009 Jun 1;25(11):1363-9. doi: 10.1093/bioinformatics/btp236. Epub 2009 Apr 8.
3
Unearthing the molecular phylodiversity of desert soil green algae (Chlorophyta).挖掘沙漠土壤绿藻(绿藻门)的分子系统多样性。
Source Code Biol Med. 2011 Aug 18;6:13. doi: 10.1186/1751-0473-6-13.
4
Cloud computing and the DNA data race.云计算与DNA数据竞赛。
Nat Biotechnol. 2010 Jul;28(7):691-3. doi: 10.1038/nbt0710-691.
Syst Biol. 2005 Dec;54(6):936-47. doi: 10.1080/10635150500354852.
4
Analysis and visualization of tree space.树形空间的分析与可视化
Syst Biol. 2005 Jun;54(3):471-82. doi: 10.1080/10635150590946961.
5
Statistically based postprocessing of phylogenetic analysis by clustering.基于聚类的系统发育分析的统计后处理
Bioinformatics. 2002;18 Suppl 1:S285-93. doi: 10.1093/bioinformatics/18.suppl_1.s285.