• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

爆米花:原核生物中短编码和非编码基因组序列的预测

Popcorn: prediction of short coding and noncoding genomic sequences in prokaryotes.

作者信息

Kyrouz Alison, Liu Lian, Qin Lixin, Tjaden Brian

机构信息

Department of Computer Science, Wellesley College, Wellesley, MA 02481, United States.

出版信息

Bioinformatics. 2025 May 6;41(5). doi: 10.1093/bioinformatics/btaf250.

DOI:10.1093/bioinformatics/btaf250
PMID:40279271
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC12054974/
Abstract

SUMMARY

The most challenging prokaryotic genes to identify often correspond to short ORFs (sORFs) encoding small proteins or to noncoding RNAs. RNA-seq experiments commonly evince small transcripts that do not correspond to annotated genes and are candidates for novel coding sORFs or small regulatory RNAs, but it can be difficult to accurately assess whether the numerous small transcripts are coding or not. We present Popcorn (PrOkaryotic Prediction of Coding OR Noncoding), a novel machine learning method for determining whether prokaryotic sequences are coding or noncoding. We find that Popcorn is effective in distinguishing coding from noncoding sequences, including coding sORFs and noncoding RNAs.

AVAILABILITY AND IMPLEMENTATION

Freely available for use on the web at https://cs.wellesley.edu/∼btjaden/Popcorn. Source code available at https://github.com/btjaden/Popcorn and https://doi.org/10.5281/zenodo.15120075.

摘要

摘要

最难鉴定的原核生物基因通常对应于编码小蛋白的短开放阅读框(sORF)或非编码RNA。RNA测序实验通常会显示出与注释基因不对应的小转录本,这些小转录本是新型编码sORF或小调控RNA的候选者,但很难准确评估众多小转录本是否具有编码功能。我们提出了Popcorn(原核生物编码或非编码预测),这是一种用于确定原核生物序列是编码还是非编码的新型机器学习方法。我们发现Popcorn在区分编码序列和非编码序列方面很有效,包括编码sORF和非编码RNA。

可用性和实现方式

可在https://cs.wellesley.edu/∼btjaden/Popcorn上免费在线使用。源代码可在https://github.com/btjaden/Popcorn和https://doi.org/10.5281/zenodo.15120075上获取。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/e66a/12054974/5f10ab44fd10/btaf250f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/e66a/12054974/5f10ab44fd10/btaf250f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/e66a/12054974/5f10ab44fd10/btaf250f1.jpg

相似文献

1
Popcorn: prediction of short coding and noncoding genomic sequences in prokaryotes.爆米花:原核生物中短编码和非编码基因组序列的预测
Bioinformatics. 2025 May 6;41(5). doi: 10.1093/bioinformatics/btaf250.
2
Common and phylogenetically widespread coding for peptides by bacterial small RNAs.细菌小RNA对肽进行编码的现象普遍存在且在系统发育上广泛存在。
BMC Genomics. 2017 Jul 21;18(1):553. doi: 10.1186/s12864-017-3932-y.
3
TargetRNA3: predicting prokaryotic RNA regulatory targets with machine learning.TargetRNA3:使用机器学习预测原核 RNA 调控靶标。
Genome Biol. 2023 Dec 1;24(1):276. doi: 10.1186/s13059-023-03117-2.
4
Global analysis of ribosome-associated noncoding RNAs unveils new modes of translational regulation.全球核糖体相关非编码 RNA 分析揭示了新的翻译调控模式。
Proc Natl Acad Sci U S A. 2017 Nov 14;114(46):E10018-E10027. doi: 10.1073/pnas.1708433114. Epub 2017 Oct 30.
5
Comprehensive evaluation of protein-coding sORFs prediction based on a random sequence strategy.基于随机序列策略的蛋白质编码 sORFs 预测综合评估。
Front Biosci (Landmark Ed). 2021 Aug 30;26(8):272-278. doi: 10.52586/4943.
6
Combining in silico prediction and ribosome profiling in a genome-wide search for novel putatively coding sORFs.在全基因组范围内搜索新的推定编码 sORFs 时,结合计算机预测和核糖体图谱分析。
BMC Genomics. 2013 Sep 23;14:648. doi: 10.1186/1471-2164-14-648.
7
Predicting Coding Potential of RNA Sequences by Solving Local Data Imbalance.通过解决局部数据不平衡来预测 RNA 序列的编码潜力。
IEEE/ACM Trans Comput Biol Bioinform. 2022 Mar-Apr;19(2):1075-1083. doi: 10.1109/TCBB.2020.3021800. Epub 2022 Apr 1.
8
csORF-finder: an effective ensemble learning framework for accurate identification of multi-species coding short open reading frames.csORF-finder:一种用于准确识别多物种编码短开放阅读框的有效集成学习框架。
Brief Bioinform. 2022 Nov 19;23(6). doi: 10.1093/bib/bbac392.
9
Discovering misannotated lncRNAs using deep learning training dynamics.利用深度学习训练动态发现错误注释的 lncRNAs。
Bioinformatics. 2023 Jan 1;39(1). doi: 10.1093/bioinformatics/btac821.
10
Next-generation annotation of prokaryotic genomes with EuGene-P: application to Sinorhizobium meliloti 2011.利用 EuGene-P 对原核生物基因组进行下一代注释:在苜蓿中华根瘤菌 2011 中的应用。
DNA Res. 2013 Aug;20(4):339-54. doi: 10.1093/dnares/dst014. Epub 2013 Apr 18.

本文引用的文献

1
A catalog of small proteins from the global microbiome.全球微生物组中的小分子蛋白质目录。
Nat Commun. 2024 Aug 31;15(1):7563. doi: 10.1038/s41467-024-51894-6.
2
Recent insights into the world of dual-function bacterial sRNAs.对双功能细菌小RNA世界的最新见解。
Wiley Interdiscip Rev RNA. 2023 Dec 1:e1824. doi: 10.1002/wrna.1824.
3
MLpronto: A tool for democratizing machine learning.MLpronto:一个实现机器学习民主化的工具。
PLoS One. 2023 Nov 30;18(11):e0294924. doi: 10.1371/journal.pone.0294924. eCollection 2023.
4
Small proteins in bacteria - Big challenges in prediction and identification.细菌中的小蛋白——预测和鉴定的巨大挑战。
Proteomics. 2023 Dec;23(23-24):e2200421. doi: 10.1002/pmic.202200421. Epub 2023 Aug 23.
5
Toxin-antitoxin systems in bacterial pathogenesis.细菌致病过程中的毒素-抗毒素系统。
Heliyon. 2023 Mar 3;9(4):e14220. doi: 10.1016/j.heliyon.2023.e14220. eCollection 2023 Apr.
6
Thousands of small, novel genes predicted in global phage genomes.全球噬菌体基因组中预测出数千个小型新颖基因。
Cell Rep. 2022 Jun 21;39(12):110984. doi: 10.1016/j.celrep.2022.110984.
7
A Practical Guide to Small Protein Discovery and Characterization Using Mass Spectrometry.使用质谱技术进行小蛋白发现和鉴定的实用指南。
J Bacteriol. 2022 Jan 18;204(1):e0035321. doi: 10.1128/JB.00353-21. Epub 2021 Nov 8.
8
Identifying Small Open Reading Frames in Prokaryotes with Ribosome Profiling.通过核糖体谱鉴定原核生物中的小开放阅读框。
J Bacteriol. 2022 Jan 18;204(1):e0029421. doi: 10.1128/JB.00294-21. Epub 2021 Aug 2.
9
Small Proteins; Big Questions.小分子蛋白质;大问题。
J Bacteriol. 2022 Jan 18;204(1):e0034121. doi: 10.1128/JB.00341-21. Epub 2021 Jul 26.
10
Revisiting sORFs: overcoming challenges to identify and characterize functional microproteins.重新审视短开放阅读框(sORFs):克服鉴定和表征功能微蛋白的挑战。
FEBS J. 2022 Jan;289(1):53-74. doi: 10.1111/febs.15769. Epub 2021 Feb 24.