Suppr超能文献

利用共现检测新的蛋白质结构域:在疟原虫中的应用。

Detection of new protein domains using co-occurrence: application to Plasmodium falciparum.

机构信息

Méthodes et algorithmes pour la Bioinformatique, LIRMM, Université Montpellier 2, CNRS, 161 rue Ada, 34392 Montpellier Cedex 5, France.

出版信息

Bioinformatics. 2009 Dec 1;25(23):3077-83. doi: 10.1093/bioinformatics/btp560. Epub 2009 Sep 28.

Abstract

MOTIVATION

Hidden Markov models (HMMs) have proved to be a powerful tool for protein domain identification in newly sequenced organisms. However, numerous domains may be missed in highly divergent proteins. This is the case for Plasmodium falciparum proteins, the main causal agent of human malaria.

RESULTS

We propose a method to improve the sensitivity of HMM domain detection by exploiting the tendency of the domains to appear preferentially with a few other favorite domains in a protein. When sequence information alone is not sufficient to warrant the presence of a particular domain, our method enables its detection on the basis of the presence of other Pfam or InterPro domains. Moreover, a shuffling procedure allows us to estimate the false discovery rate associated with the results. Applied to P. falciparum, our method identifies 585 new Pfam domains (versus the 3683 already known domains in the Pfam database) with an estimated error rate <20%. These new domains provide 387 new Gene Ontology (GO) annotations to the P. falciparum proteome. Analogous and congruent results are obtained when applying the method to related Plasmodium species (P. vivax and P. yoelii).

AVAILABILITY

Supplementary Material and a database of the new domains and GO predictions achieved on Plasmodium proteins are available at http://www.lirmm.fr/~terrapon/codd/.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

隐马尔可夫模型(HMM)已被证明是一种在新测序的生物体中识别蛋白质结构域的强大工具。然而,在高度变异的蛋白质中,可能会错过许多结构域。这就是恶性疟原虫蛋白的情况,恶性疟原虫是人类疟疾的主要病原体。

结果

我们提出了一种方法,通过利用结构域倾向于与蛋白质中的少数其他首选结构域一起出现的趋势,来提高 HMM 结构域检测的灵敏度。当仅序列信息不足以保证特定结构域的存在时,我们的方法可以基于 Pfam 或 InterPro 结构域的存在来检测该结构域。此外,一种随机化过程允许我们估计与结果相关的假阳性率。将该方法应用于恶性疟原虫,我们鉴定出 585 个新的 Pfam 结构域(与 Pfam 数据库中已经存在的 3683 个结构域相比),估计错误率<20%。这些新结构域为恶性疟原虫蛋白质组提供了 387 个新的基因本体(GO)注释。当将该方法应用于相关的疟原虫物种(间日疟原虫和约氏疟原虫)时,也得到了类似和一致的结果。

可用性

新结构域和 GO 预测的补充材料和数据库可在 http://www.lirmm.fr/~terrapon/codd/ 上获得。

补充信息

补充数据可在生物信息学在线获得。

文献AI研究员

20分钟写一篇综述,助力文献阅读效率提升50倍。

立即体验

用中文搜PubMed

大模型驱动的PubMed中文搜索引擎

马上搜索

文档翻译

学术文献翻译模型,支持多种主流文档格式。

立即体验