• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

一种用于基因复制问题的 ILP 解决方案。

An ILP solution for the gene duplication problem.

机构信息

Department of Computer Science, Iowa State University, Ames 50011, USA.

出版信息

BMC Bioinformatics. 2011 Feb 15;12 Suppl 1(Suppl 1):S14. doi: 10.1186/1471-2105-12-S1-S14.

DOI:10.1186/1471-2105-12-S1-S14
PMID:21342543
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC3044268/
Abstract

BACKGROUND

The gene duplication (GD) problem seeks a species tree that implies the fewest gene duplication events across a given collection of gene trees. Solving this problem makes it possible to use large gene families with complex histories of duplication and loss to infer phylogenetic trees. However, the GD problem is NP-hard, and therefore, most analyses use heuristics that lack any performance guarantee.

RESULTS

We describe the first integer linear programming (ILP) formulation to solve instances of the gene duplication problem exactly. With simulations, we demonstrate that the ILP solution can solve problem instances with up to 14 taxa. Furthermore, we apply the new ILP solution to solve the gene duplication problem for the seed plant phylogeny using a 12-taxon, 6,084-gene data set. The unique, optimal solution, which places Gnetales sister to the conifers, represents a new, large-scale genomic perspective on one of the most puzzling questions in plant systematics.

CONCLUSIONS

Although the GD problem is NP-hard, our novel ILP solution for it can solve instances with data sets consisting of as many as 14 taxa and 1,000 genes in a few hours. These are the largest instances that have been solved to optimally to date. Thus, this work can provide large-scale genomic perspectives on phylogenetic questions that previously could only be addressed by heuristic estimates.

摘要

背景

基因复制(GD)问题旨在寻找一个物种树,该树在给定的基因树集合中暗示了最少的基因复制事件。解决这个问题使得使用具有复杂复制和丢失历史的大型基因家族来推断系统发育树成为可能。然而,GD 问题是 NP 难的,因此,大多数分析都使用缺乏任何性能保证的启发式算法。

结果

我们描述了第一个整数线性规划(ILP)公式来精确求解基因复制问题的实例。通过模拟,我们证明 ILP 解决方案可以解决多达 14 个分类单元的问题实例。此外,我们应用新的 ILP 解决方案来解决使用 12 个分类单元、6084 个基因数据集的种子植物系统发育的基因复制问题。唯一的、最优的解决方案将买麻藤目置于松柏目植物的姐妹群中,为植物系统学中最令人困惑的问题之一提供了一个新的、大规模的基因组视角。

结论

尽管 GD 问题是 NP 难的,但我们的新 ILP 解决方案可以在几个小时内解决多达 14 个分类单元和 1000 个基因的数据集的实例。这些是迄今为止已优化解决的最大实例。因此,这项工作可以为以前只能通过启发式估计来解决的系统发育问题提供大规模的基因组视角。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f451/3044268/3f45c450f7b8/1471-2105-12-S1-S14-1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f451/3044268/3f45c450f7b8/1471-2105-12-S1-S14-1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f451/3044268/3f45c450f7b8/1471-2105-12-S1-S14-1.jpg

相似文献

1
An ILP solution for the gene duplication problem.一种用于基因复制问题的 ILP 解决方案。
BMC Bioinformatics. 2011 Feb 15;12 Suppl 1(Suppl 1):S14. doi: 10.1186/1471-2105-12-S1-S14.
2
Locating large-scale gene duplication events through reconciled trees: implications for identifying ancient polyploidy events in plants.通过比对树定位大规模基因复制事件:对识别植物古老多倍体事件的意义
J Comput Biol. 2009 Aug;16(8):1071-83. doi: 10.1089/cmb.2009.0139.
3
Exact solutions for species tree inference from discordant gene trees.从不一致的基因树推断物种树的精确解。
J Bioinform Comput Biol. 2013 Oct;11(5):1342005. doi: 10.1142/S0219720013420055. Epub 2013 Oct 2.
4
Mixed integer linear programming for maximum-parsimony phylogeny inference.用于最大简约系统发育推断的混合整数线性规划。
IEEE/ACM Trans Comput Biol Bioinform. 2008 Jul-Sep;5(3):323-31. doi: 10.1109/TCBB.2008.26.
5
An Omega(n2/ log n) speed-up of TBR heuristics for the gene-duplication problem.用于基因复制问题的TBR启发式算法的Ω(n²/log n)加速比。
IEEE/ACM Trans Comput Biol Bioinform. 2008 Oct-Dec;5(4):514-24. doi: 10.1109/TCBB.2008.69.
6
The gene-duplication problem: near-linear time algorithms for NNI-based local searches.基因复制问题:基于NNI的局部搜索的近线性时间算法
IEEE/ACM Trans Comput Biol Bioinform. 2009 Apr-Jun;6(2):221-31. doi: 10.1109/TCBB.2009.7.
7
Efficient genome-scale phylogenetic analysis under the duplication-loss and deep coalescence cost models.在复制-缺失和深度合并成本模型下进行高效的基因组规模系统发育分析。
BMC Bioinformatics. 2010 Jan 18;11 Suppl 1(Suppl 1):S42. doi: 10.1186/1471-2105-11-S1-S42.
8
A Note on the Fixed Parameter Tractability of the Gene-Duplication Problem.关于基因复制问题的固定参数可计算性的注释。
IEEE/ACM Trans Comput Biol Bioinform. 2011 May-Jun;8(3):848-50. doi: 10.1109/TCBB.2010.74.
9
Consensus properties for the deep coalescence problem and their application for scalable tree search.深度合并问题的一致性属性及其在可扩展树搜索中的应用。
BMC Bioinformatics. 2012 Jun 25;13 Suppl 10(Suppl 10):S12. doi: 10.1186/1471-2105-13-S10-S12.
10
Taming the Duplication-Loss-Coalescence Model with Integer Linear Programming.用整数线性规划驯服复制-丢失-合并模型
J Comput Biol. 2021 Aug;28(8):758-773. doi: 10.1089/cmb.2021.0011. Epub 2021 Apr 16.

引用本文的文献

1
Phylogenetic reconciliation.系统发育和解
PLoS Comput Biol. 2022 Nov 3;18(11):e1010621. doi: 10.1371/journal.pcbi.1010621. eCollection 2022 Nov.
2
DeCoDe: degenerate codon design for complete protein-coding DNA libraries.DeCoDe:用于完整编码蛋白质 DNA 文库的简并密码子设计。
Bioinformatics. 2020 Jun 1;36(11):3357-3364. doi: 10.1093/bioinformatics/btaa162.
3
Phylogenomics with paralogs.使用旁系同源基因的系统发育基因组学。

本文引用的文献

1
Relationships among seed plants inferred from highly conserved genes: sorting conflicting phylogenetic signals among ancient lineages.基于高度保守基因推断的种子植物间的关系:梳理古老谱系间相互冲突的系统发育信号
Am J Bot. 2002 Dec;89(12):1991-2006. doi: 10.3732/ajb.89.12.1991.
2
Phylogeny of seed plants based on evidence from eight genes.基于来自八个基因的证据的种子植物系统发育。
Am J Bot. 2002 Oct;89(10):1670-81. doi: 10.3732/ajb.89.10.1670.
3
Phylogenetic signal in nucleotide data from seed plants: implications for resolving the seed plant tree of life.
Proc Natl Acad Sci U S A. 2015 Feb 17;112(7):2058-63. doi: 10.1073/pnas.1412770112. Epub 2015 Feb 2.
4
The inference of gene trees with species trees.基于物种树推断基因树。
Syst Biol. 2015 Jan;64(1):e42-62. doi: 10.1093/sysbio/syu048. Epub 2014 Jul 28.
5
Efficient error correction algorithms for gene tree reconciliation based on duplication, duplication and loss, and deep coalescence.基于复制、复制和丢失以及深度合并的基因树 reconcile 的高效纠错算法。
BMC Bioinformatics. 2012 Jun 25;13 Suppl 10(Suppl 10):S11. doi: 10.1186/1471-2105-13-S10-S11.
6
iGTP: a software package for large-scale gene tree parsimony analysis.iGTP:用于大规模基因树简约分析的软件包。
BMC Bioinformatics. 2010 Nov 23;11:574. doi: 10.1186/1471-2105-11-574.
种子植物核苷酸数据中的系统发育信号:对解析种子植物生命之树的启示。
Am J Bot. 2004 Oct;91(10):1599-613. doi: 10.3732/ajb.91.10.1599.
4
Phylogenetic relationships among seed plants: Persistent questions and the limits of molecular data.种子植物的系统发育关系:分子数据的持久性问题和局限性。
Am J Bot. 2009 Jan;96(1):228-36. doi: 10.3732/ajb.0800178. Epub 2008 Dec 24.
5
Branch-and-bound approach for parsimonious inference of a species tree from a set of gene family trees.基于分支定界算法的基因家族树数据集简约推断种系发生树的方法。
Adv Exp Med Biol. 2011;696:287-95. doi: 10.1007/978-1-4419-7046-6_29.
6
A Note on the Fixed Parameter Tractability of the Gene-Duplication Problem.关于基因复制问题的固定参数可计算性的注释。
IEEE/ACM Trans Comput Biol Bioinform. 2011 May-Jun;8(3):848-50. doi: 10.1109/TCBB.2010.74.
7
The Multi-State Perfect Phylogeny Problem with missing and removable data: solutions via integer-programming and chordal graph theory.存在缺失和可移除数据的多状态完美系统发育问题:通过整数规划和弦图理论求解
J Comput Biol. 2010 Mar;17(3):383-99. doi: 10.1089/cmb.2009.0200.
8
Constructing majority-rule supertrees.构建多数规则超树。
Algorithms Mol Biol. 2010 Jan 4;5:2. doi: 10.1186/1748-7188-5-2.
9
Species tree inference by minimizing deep coalescences.通过最小化深度合并来推断物种树。
PLoS Comput Biol. 2009 Sep;5(9):e1000501. doi: 10.1371/journal.pcbi.1000501. Epub 2009 Sep 11.
10
The impact of outgroup choice and missing data on major seed plant phylogenetics using genome-wide EST data.利用全基因组EST数据研究外类群选择和缺失数据对主要种子植物系统发育学的影响。
PLoS One. 2009 Jun 2;4(6):e5764. doi: 10.1371/journal.pone.0005764.