• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

使用两级策略从多物种比对中寻找脊椎动物基因。

Vertebrate gene finding from multiple-species alignments using a two-level strategy.

作者信息

Carter David, Durbin Richard

机构信息

Wellcome Trust Sanger Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SA, UK.

出版信息

Genome Biol. 2006;7 Suppl 1(Suppl 1):S6.1-12. doi: 10.1186/gb-2006-7-s1-s6. Epub 2006 Aug 7.

DOI:10.1186/gb-2006-7-s1-s6
PMID:16925840
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC1810555/
Abstract

BACKGROUND

One way in which the accuracy of gene structure prediction in vertebrate DNA sequences can be improved is by analyzing alignments with multiple related species, since functional regions of genes tend to be more conserved.

RESULTS

We describe DOGFISH, a vertebrate gene finder consisting of a cleanly separated site classifier and structure predictor. The classifier scores potential splice sites and other features, using sequence alignments between multiple vertebrate species, while the structure predictor hypothesizes coding transcripts by combining these scores using a simple model of gene structure. This also identifies and assigns confidence scores to possible additional exons. Performance is assessed on the ENCODE regions. We predict transcripts and exons across the whole human genome, and identify over 10,000 high confidence new coding exons not in the Ensembl gene set.

CONCLUSION

We present a practical multiple species gene prediction method. Accuracy improves as additional species, up to at least eight, are introduced. The novel predictions of the whole-genome scan should support efficient experimental verification.

摘要

背景

提高脊椎动物DNA序列中基因结构预测准确性的一种方法是分析与多个相关物种的比对,因为基因的功能区域往往更保守。

结果

我们描述了DOGFISH,一种脊椎动物基因发现工具,它由一个完全分离的位点分类器和结构预测器组成。分类器利用多个脊椎动物物种之间的序列比对,对潜在的剪接位点和其他特征进行评分,而结构预测器则通过使用一个简单的基因结构模型组合这些评分来推测编码转录本。这也能识别可能的额外外显子并为其赋予置信度分数。在ENCODE区域评估了性能。我们预测了整个人类基因组的转录本和外显子,并识别出超过10000个不在Ensembl基因集中的高置信度新编码外显子。

结论

我们提出了一种实用的多物种基因预测方法。随着引入至少八个额外物种,准确性会提高。全基因组扫描的新预测应该支持高效的实验验证。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bba4/1810555/dd92d5565da0/gb-2006-7-s1-s6-3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bba4/1810555/6014ee82bf57/gb-2006-7-s1-s6-1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bba4/1810555/217664f4c9b9/gb-2006-7-s1-s6-2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bba4/1810555/dd92d5565da0/gb-2006-7-s1-s6-3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bba4/1810555/6014ee82bf57/gb-2006-7-s1-s6-1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bba4/1810555/217664f4c9b9/gb-2006-7-s1-s6-2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bba4/1810555/dd92d5565da0/gb-2006-7-s1-s6-3.jpg

相似文献

1
Vertebrate gene finding from multiple-species alignments using a two-level strategy.使用两级策略从多物种比对中寻找脊椎动物基因。
Genome Biol. 2006;7 Suppl 1(Suppl 1):S6.1-12. doi: 10.1186/gb-2006-7-s1-s6. Epub 2006 Aug 7.
2
Computational discovery of human coding and non-coding transcripts with conserved splice sites.具有保守剪接位点的人类编码和非编码转录本的计算发现。
Bioinformatics. 2011 Jul 15;27(14):1894-900. doi: 10.1093/bioinformatics/btr314. Epub 2011 May 26.
3
Increased alignment sensitivity improves the usage of genome alignments for comparative gene annotation.提高比对灵敏度可改善基因组比对在比较基因注释中的应用。
Nucleic Acids Res. 2017 Aug 21;45(14):8369-8377. doi: 10.1093/nar/gkx554.
4
The Gene-Finder computer tools for analysis of human and model organisms genome sequences.用于分析人类和模式生物基因组序列的基因查找计算机工具。
Proc Int Conf Intell Syst Mol Biol. 1997;5:294-302.
5
AceView: a comprehensive cDNA-supported gene and transcripts annotation.AceView:一个由cDNA支持的全面的基因和转录本注释。
Genome Biol. 2006;7 Suppl 1(Suppl 1):S12.1-14. doi: 10.1186/gb-2006-7-s1-s12. Epub 2006 Aug 7.
6
Exogean: a framework for annotating protein-coding genes in eukaryotic genomic DNA.Exogean:一种用于注释真核生物基因组DNA中蛋白质编码基因的框架。
Genome Biol. 2006;7 Suppl 1(Suppl 1):S7.1-10. doi: 10.1186/gb-2006-7-s1-s7. Epub 2006 Aug 7.
7
AUGUSTUS at EGASP: using EST, protein and genomic alignments for improved gene prediction in the human genome.EGASP中的AUGUSTUS:利用EST、蛋白质和基因组比对改进人类基因组中的基因预测
Genome Biol. 2006;7 Suppl 1(Suppl 1):S11.1-8. doi: 10.1186/gb-2006-7-s1-s11. Epub 2006 Aug 7.
8
Coding exon-structure aware realigner (CESAR) utilizes genome alignments for accurate comparative gene annotation.编码外显子结构感知重排器(CESAR)利用基因组比对进行准确的比较基因注释。
Nucleic Acids Res. 2016 Jun 20;44(11):e103. doi: 10.1093/nar/gkw210. Epub 2016 Mar 25.
9
[Analysis, identification and correction of some errors of model refseqs appeared in NCBI Human Gene Database by in silico cloning and experimental verification of novel human genes].[通过新型人类基因的电子克隆和实验验证对NCBI人类基因数据库中出现的模型参考序列的一些错误进行分析、鉴定和校正]
Yi Chuan Xue Bao. 2004 May;31(5):431-43.
10
Pairagon+N-SCAN_EST: a model-based gene annotation pipeline.Pairagon+N-SCAN_EST:一种基于模型的基因注释流程。
Genome Biol. 2006;7 Suppl 1(Suppl 1):S5.1-10. doi: 10.1186/gb-2006-7-s1-s5. Epub 2006 Aug 7.

引用本文的文献

1
Whole-Genome Alignment and Comparative Annotation.全基因组比对和注释。
Annu Rev Anim Biosci. 2019 Feb 15;7:41-64. doi: 10.1146/annurev-animal-020518-115005. Epub 2018 Oct 31.
2
Highly constrained intergenic Drosophila ultraconserved elements are candidate ncRNAs.高度受限的果蝇基因间超保守元件是候选非编码RNA。
Genome Biol Evol. 2015 Jan 23;7(3):689-98. doi: 10.1093/gbe/evv011.
3
Coding sequence density estimation via topological pressure.通过拓扑压力进行编码序列密度估计。

本文引用的文献

1
The applicability of recurrent neural networks for biological sequence analysis.循环神经网络在生物序列分析中的适用性。
IEEE/ACM Trans Comput Biol Bioinform. 2005 Jul-Sep;2(3):243-53. doi: 10.1109/TCBB.2005.44.
2
Examples of the complex architecture of the human transcriptome revealed by RACE and high-density tiling arrays.通过RACE和高密度平铺阵列揭示的人类转录组复杂结构的示例。
Genome Res. 2005 Jul;15(7):987-97. doi: 10.1101/gr.3455305.
3
ExonHunter: a comprehensive approach to gene finding.外显子猎手:一种全面的基因发现方法。
J Math Biol. 2015 Jan;70(1-2):45-69. doi: 10.1007/s00285-014-0754-2. Epub 2014 Jan 22.
4
A method for identifying alternative or cryptic donor splice sites within gene and mRNA sequences. Comparisons among sequences from vertebrates, echinoderms and other groups.一种在基因和mRNA序列中识别替代或隐蔽供体剪接位点的方法。脊椎动物、棘皮动物和其他类群序列之间的比较。
BMC Genomics. 2009 Jul 16;10:318. doi: 10.1186/1471-2164-10-318.
5
Reranking candidate gene models with cross-species comparison for improved gene prediction.通过跨物种比较重新排序候选基因模型以改进基因预测。
BMC Bioinformatics. 2008 Oct 14;9:433. doi: 10.1186/1471-2105-9-433.
6
CONTRAST: a discriminative, phylogeny-free approach to multiple informant de novo gene prediction.对比法:一种用于多信息源从头基因预测的无系统发育的判别方法。
Genome Biol. 2007;8(12):R269. doi: 10.1186/gb-2007-8-12-r269.
7
Resolving the structural features of genomic islands: a machine learning approach.解析基因组岛的结构特征:一种机器学习方法。
Genome Res. 2008 Feb;18(2):331-42. doi: 10.1101/gr.7004508. Epub 2007 Dec 10.
8
EGASP: the human ENCODE Genome Annotation Assessment Project.EGASP:人类ENCODE基因组注释评估项目。
Genome Biol. 2006;7 Suppl 1(Suppl 1):S2.1-31. doi: 10.1186/gb-2006-7-s1-s2. Epub 2006 Aug 7.
Bioinformatics. 2005 Jun;21 Suppl 1:i57-65. doi: 10.1093/bioinformatics/bti1040.
4
Begin at the beginning: predicting genes with 5' UTRs.从开头开始:预测带有5'非翻译区的基因。
Genome Res. 2005 May;15(5):742-7. doi: 10.1101/gr.3696205.
5
Applications of hidden Markov models for characterization of homologous DNA sequences with a common gene.隐马尔可夫模型在具有共同基因的同源DNA序列特征描述中的应用。
J Comput Biol. 2005 Mar;12(2):186-203. doi: 10.1089/cmb.2005.12.186.
6
Splice site detection with a higher-order markov model implemented on a neural network.基于神经网络实现的高阶马尔可夫模型进行剪接位点检测。
Genome Inform. 2003;14:64-72.
7
An intermediate grade of finished genomic sequence suitable for comparative analyses.适合进行比较分析的中等质量的完整基因组序列。
Genome Res. 2004 Nov;14(11):2235-44. doi: 10.1101/gr.2648404. Epub 2004 Oct 12.
8
EGPred: prediction of eukaryotic genes using ab initio methods after combining with sequence similarity approaches.EGPred:结合序列相似性方法后使用从头算方法预测真核基因。
Genome Res. 2004 Sep;14(9):1756-66. doi: 10.1101/gr.2524704.
9
Maximum entropy modeling of short sequence motifs with applications to RNA splicing signals.短序列基序的最大熵建模及其在RNA剪接信号中的应用
J Comput Biol. 2004;11(2-3):377-94. doi: 10.1089/1066527041410418.
10
Methods in comparative genomics: genome correspondence, gene identification and regulatory motif discovery.比较基因组学方法:基因组对应、基因识别与调控基序发现。
J Comput Biol. 2004;11(2-3):319-55. doi: 10.1089/1066527041410319.