• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

使用 PaGeSearch 在未注释的基因组中鉴定途径中的基因。

Identifying genes within pathways in unannotated genomes with PaGeSearch.

机构信息

Interdisciplinary Program in Bioinformatics, Seoul National University, Seoul, Republic of Korea, 08826.

eGnome, Incorporated, Seoul, Republic of Korea, 05836.

出版信息

Genome Res. 2024 Jun 25;34(5):784-795. doi: 10.1101/gr.278566.123.

DOI:10.1101/gr.278566.123
PMID:38858086
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC11216310/
Abstract

In biological research, the identification and comparison of genes within specific pathways across the genomes of various species are invaluable. However, annotating the entire genome is resource intensive, and sequence similarity searches often yield results that are not actually genes. To address these limitations, we introduce Pathway Gene Search (PaGeSearch), a tool designed to identify genes from predefined lists, especially those in specific pathways, within genomes. The tool uses an initial sequence similarity search to identify relevant genomic regions, followed by targeted gene prediction and neural network-based result filtering. PaGeSearch suggests the regions that are most likely the orthologs of the genes in the query and is designed to be applicable for species within five classes: mammals, fish, birds, eudicotyledons, and Liliopsida. Compared with GeMoMa and miniprot, PaGeSearch generally outperforms in terms of sensitivity and positive predictive value, as well as negative predictive value. Also, the exon coverage of gene models from PaGeSearch is higher compared with those in GeMoMa and miniprot. Although its performance shows increased variability when applied to actual biological pathways, it nonetheless maintains an acceptable level of accuracy. Evaluating PaGeSearch across different assembly levels, chromosome, scaffold, and contig shows minimal variation in outcomes, indicating that PaGeSearch is resilient to variations in assembly quality.

摘要

在生物研究中,鉴定和比较特定途径中的基因在不同物种的基因组中是非常有价值的。然而,注释整个基因组是资源密集型的,并且序列相似性搜索通常会产生实际上不是基因的结果。为了解决这些限制,我们引入了途径基因搜索(PaGeSearch),这是一种专门用于从预定义列表中识别基因的工具,特别是那些特定途径中的基因,在基因组内。该工具使用初始序列相似性搜索来识别相关的基因组区域,然后进行有针对性的基因预测和基于神经网络的结果过滤。PaGeSearch 建议最有可能是查询基因的直系同源物的区域,旨在适用于五个类别的物种:哺乳动物、鱼类、鸟类、真双子叶植物和百合纲。与 GeMoMa 和 miniprot 相比,PaGeSearch 在灵敏度、阳性预测值和阴性预测值方面通常表现更好。此外,PaGeSearch 中的基因模型的外显子覆盖率高于 GeMoMa 和 miniprot。虽然其性能在应用于实际生物途径时表现出更高的可变性,但它仍然保持着可接受的准确性水平。在不同的组装水平、染色体、支架和连续体上评估 PaGeSearch 显示出结果的最小变化,表明 PaGeSearch 对组装质量的变化具有弹性。

相似文献

1
Identifying genes within pathways in unannotated genomes with PaGeSearch.使用 PaGeSearch 在未注释的基因组中鉴定途径中的基因。
Genome Res. 2024 Jun 25;34(5):784-795. doi: 10.1101/gr.278566.123.
2
Combining RNA-seq data and homology-based gene prediction for plants, animals and fungi.将 RNA-seq 数据与基于同源性的基因预测相结合,用于植物、动物和真菌。
BMC Bioinformatics. 2018 May 30;19(1):189. doi: 10.1186/s12859-018-2203-5.
3
A universal genomic coordinate translator for comparative genomics.用于比较基因组学的通用基因组坐标转换器。
BMC Bioinformatics. 2014 Jun 30;15:227. doi: 10.1186/1471-2105-15-227.
4
Systematic discovery of unannotated genes in 11 yeast species using a database of orthologous genomic segments.利用直系同源基因组片段数据库系统地发现 11 种酵母物种中的非注释基因。
BMC Genomics. 2011 Jul 26;12:377. doi: 10.1186/1471-2164-12-377.
5
Primary orthologs from local sequence context.来自本地序列上下文的直系同源物。
BMC Bioinformatics. 2020 Feb 6;21(1):48. doi: 10.1186/s12859-020-3384-2.
6
[Analysis, identification and correction of some errors of model refseqs appeared in NCBI Human Gene Database by in silico cloning and experimental verification of novel human genes].[通过新型人类基因的电子克隆和实验验证对NCBI人类基因数据库中出现的模型参考序列的一些错误进行分析、鉴定和校正]
Yi Chuan Xue Bao. 2004 May;31(5):431-43.
7
Folic acid supplementation and malaria susceptibility and severity among people taking antifolate antimalarial drugs in endemic areas.在流行地区,服用抗叶酸抗疟药物的人群中,叶酸补充剂与疟疾易感性和严重程度的关系。
Cochrane Database Syst Rev. 2022 Feb 1;2(2022):CD014217. doi: 10.1002/14651858.CD014217.
8
Comparison of RefSeq protein-coding regions in human and vertebrate genomes.比较人类和脊椎动物基因组中的 RefSeq 编码蛋白区域。
BMC Genomics. 2013 Sep 25;14:654. doi: 10.1186/1471-2164-14-654.
9
Galba: genome annotation with miniprot and AUGUSTUS.Galba:使用 miniprot 和 AUGUSTUS 进行基因组注释。
BMC Bioinformatics. 2023 Aug 31;24(1):327. doi: 10.1186/s12859-023-05449-z.
10
OMIGA: Optimized Maker-Based Insect Genome Annotation.OMIGA:基于优化的基因打靶的昆虫基因组注释。
Mol Genet Genomics. 2014 Aug;289(4):567-73. doi: 10.1007/s00438-014-0831-7. Epub 2014 Mar 9.

本文引用的文献

1
Protein-to-genome alignment with miniprot.用 Miniprot 进行蛋白质到基因组的比对。
Bioinformatics. 2023 Jan 1;39(1). doi: 10.1093/bioinformatics/btad014.
2
The Medaka Inbred Kiyosu-Karlsruhe (MIKK) panel.美鯉近交系京都卡尔斯鲁厄(MIKK)品系panel。
Genome Biol. 2022 Feb 21;23(1):59. doi: 10.1186/s13059-022-02623-z.
3
Ensembl 2022.Ensembl 2022.
Nucleic Acids Res. 2022 Jan 7;50(D1):D988-D995. doi: 10.1093/nar/gkab1049.
4
The reactome pathway knowledgebase 2022.反应体通路知识库2022版。
Nucleic Acids Res. 2022 Jan 7;50(D1):D687-D692. doi: 10.1093/nar/gkab1028.
5
BRAKER2: automatic eukaryotic genome annotation with GeneMark-EP+ and AUGUSTUS supported by a protein database.BRAKER2:借助蛋白质数据库,由GeneMark-EP+和AUGUSTUS支持的真核生物基因组自动注释工具。
NAR Genom Bioinform. 2021 Jan 6;3(1):lqaa108. doi: 10.1093/nargab/lqaa108. eCollection 2021 Mar.
6
GeneMark-EP+: eukaryotic gene prediction with self-training in the space of genes and proteins.GeneMark-EP+:在基因和蛋白质空间中进行自我训练的真核基因预测
NAR Genom Bioinform. 2020 Jun;2(2):lqaa026. doi: 10.1093/nargab/lqaa026. Epub 2020 May 13.
7
GeMoMa: Homology-Based Gene Prediction Utilizing Intron Position Conservation and RNA-seq Data.GeMoMa:利用内含子位置保守性和RNA测序数据进行基于同源性的基因预测
Methods Mol Biol. 2019;1962:161-177. doi: 10.1007/978-1-4939-9173-0_9.
8
Whole-Genome Annotation with BRAKER.使用BRAKER进行全基因组注释。
Methods Mol Biol. 2019;1962:65-95. doi: 10.1007/978-1-4939-9173-0_5.
9
MMseqs2 enables sensitive protein sequence searching for the analysis of massive data sets.MMseqs2支持进行灵敏的蛋白质序列搜索,以分析海量数据集。
Nat Biotechnol. 2017 Nov;35(11):1026-1028. doi: 10.1038/nbt.3988. Epub 2017 Oct 16.
10
SeqKit: A Cross-Platform and Ultrafast Toolkit for FASTA/Q File Manipulation.SeqKit:一个用于FASTA/Q文件操作的跨平台超快速工具包。
PLoS One. 2016 Oct 5;11(10):e0163962. doi: 10.1371/journal.pone.0163962. eCollection 2016.