• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

elusive 短基因——原核基因组识别的集成方法。

The elusive short gene--an ensemble method for recognition for prokaryotic genome.

机构信息

Department of Computational Biology and Bioinformatics, University of Kerala, Trivandrum 695581, India.

出版信息

Biochem Biophys Res Commun. 2012 May 25;422(1):36-41. doi: 10.1016/j.bbrc.2012.04.090. Epub 2012 Apr 25.

DOI:10.1016/j.bbrc.2012.04.090
PMID:22554517
Abstract

Accurate prediction of short protein coding DNA from genome sequence information remains an unsolved problem in DNA sequence analysis. Popular gene finding tools show drastic reduction in accuracy while attempting to predict genes of length less than 400 nt, a length we define as short. This study performs a quantitative evaluation of a set of selected coding measures in terms of their discriminative power in recognizing short genes in prokaryotic genomes. By performing Fast Correlation Based Feature Selection (FCBF) technique, we identified a subset of coding measures with high discriminative power. Using the measures identified thus, we present a novel approach for short genes recognition. A short-gene predictor employing AdaBoost.M1 in conjunction with random forests as the base classifier gives 92.74% accuracy, 94.77% sensitivity and 90.06% specificity on short genes.

摘要

准确预测基因组序列信息中的短蛋白质编码 DNA 仍然是 DNA 序列分析中的一个未解决的问题。流行的基因发现工具在尝试预测长度小于 400 个核苷酸的基因(我们定义为短基因)时,准确性会急剧下降。本研究对一组选定的编码度量标准进行了定量评估,以评估它们在识别原核基因组中短基因方面的区分能力。通过执行快速相关的特征选择(FCBF)技术,我们确定了一组具有高区分能力的编码度量标准。使用这样确定的度量标准,我们提出了一种用于识别短基因的新方法。在短基因上,使用 AdaBoost.M1 与随机森林作为基础分类器的短基因预测器的准确率为 92.74%,灵敏度为 94.77%,特异性为 90.06%。

相似文献

1
The elusive short gene--an ensemble method for recognition for prokaryotic genome. elusive 短基因——原核基因组识别的集成方法。
Biochem Biophys Res Commun. 2012 May 25;422(1):36-41. doi: 10.1016/j.bbrc.2012.04.090. Epub 2012 Apr 25.
2
IdentiCS--identification of coding sequence and in silico reconstruction of the metabolic network directly from unannotated low-coverage bacterial genome sequence.IdentiCS——直接从未注释的低覆盖度细菌基因组序列中鉴定编码序列并进行代谢网络的计算机重建。
BMC Bioinformatics. 2004 Aug 16;5:112. doi: 10.1186/1471-2105-5-112.
3
A novel method for prokaryotic promoter prediction based on DNA stability.一种基于DNA稳定性的原核生物启动子预测新方法。
BMC Bioinformatics. 2005 Jan 5;6:1. doi: 10.1186/1471-2105-6-1.
4
Color-coding reveals tandem repeats in the Escherichia coli genome.颜色编码揭示了大肠杆菌基因组中的串联重复序列。
J Mol Biol. 2000 May 5;298(3):343-9. doi: 10.1006/jmbi.2000.3667.
5
Detection of operons.操纵子的检测
Proteins. 2006 Aug 15;64(3):615-28. doi: 10.1002/prot.21021.
6
Comparative approach to analysis of regulation in complete genomes: multidrug resistance systems in gamma-proteobacteria.完整基因组调控分析的比较方法:γ-变形菌中的多药耐药系统
J Mol Microbiol Biotechnol. 2001 Apr;3(2):319-24.
7
A DNA structural atlas for Escherichia coli.大肠杆菌的DNA结构图谱。
J Mol Biol. 2000 Jun 16;299(4):907-30. doi: 10.1006/jmbi.2000.3787.
8
Microbial genome analysis and comparisons: Web-based protocols and resources.微生物基因组分析与比较:基于网络的方案与资源。
Methods Mol Biol. 2011;765:297-307. doi: 10.1007/978-1-61779-197-0_17.
9
Predicting essential genes based on network and sequence analysis.基于网络和序列分析预测必需基因。
Mol Biosyst. 2009 Dec;5(12):1672-8. doi: 10.1039/B900611G.
10
[Analysis, identification and correction of some errors of model refseqs appeared in NCBI Human Gene Database by in silico cloning and experimental verification of novel human genes].[通过新型人类基因的电子克隆和实验验证对NCBI人类基因数据库中出现的模型参考序列的一些错误进行分析、鉴定和校正]
Yi Chuan Xue Bao. 2004 May;31(5):431-43.

引用本文的文献

1
OCCAM: prediction of small ORFs in bacterial genomes by means of a target-decoy database approach and machine learning techniques.OCCAM:通过靶标-诱饵数据库方法和机器学习技术预测细菌基因组中的小开放阅读框。
Database (Oxford). 2020 Jan 1;2020. doi: 10.1093/database/baaa067.
2
Small Proteome.小蛋白质组
EcoSal Plus. 2020 May;9(1). doi: 10.1128/ecosalplus.ESP-0031-2019.
3
Alternative ORFs and small ORFs: shedding light on the dark proteome.替代开放阅读框和小开放阅读框:揭示暗蛋白质组的奥秘。
Nucleic Acids Res. 2020 Feb 20;48(3):1029-1042. doi: 10.1093/nar/gkz734.
4
Identifying New Small Proteins in Escherichia coli.鉴定大肠杆菌中的新小蛋白。
Proteomics. 2018 May;18(10):e1700064. doi: 10.1002/pmic.201700064. Epub 2018 May 2.
5
Recognizing short coding sequences of prokaryotic genome using a novel iteratively adaptive sparse partial least squares algorithm.利用一种新颖的迭代自适应稀疏偏最小二乘算法识别原核基因组的短编码序列。
Biol Direct. 2013 Sep 25;8:23. doi: 10.1186/1745-6150-8-23.