• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

NucleoSeeker对RNA数据库进行精确筛选以整理高质量数据集。

NucleoSeeker-precision filtering of RNA databases to curate high-quality datasets.

作者信息

Upadhyay Utkarsh, Pucci Fabrizio, Herold Julian, Schug Alexander

机构信息

John von Neumann Institute for Computing, Jülich Supercomputing Centre, 52428 Jülich, Germany.

Computational Biology and Bioinformatics, Université Libre de Bruxelles, 1050 Brussels, Belgium.

出版信息

NAR Genom Bioinform. 2025 Mar 18;7(1):lqaf021. doi: 10.1093/nargab/lqaf021. eCollection 2025 Mar.

DOI:10.1093/nargab/lqaf021
PMID:40104673
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC11915511/
Abstract

The structural prediction of biomolecules via computational methods complements the often involved wet-lab experiments. Unlike protein structure prediction, RNA structure prediction remains a significant challenge in bioinformatics, primarily due to the scarcity of annotated RNA structure data and its varying quality. Many methods have used this limited data to train deep learning models but redundancy, data leakage and bad data quality hampers their performance. In this work, we present NucleoSeeker, a tool designed to curate high-quality, tailored datasets from the Protein Data Bank (PDB) database. It is a unified framework that combines multiple tools and streamlines an otherwise complicated process of data curation. It offers multiple filters at structure, sequence, and annotation levels, giving researchers full control over data curation. Further, we present several use cases. In particular, we demonstrate how NucleoSeeker allows the creation of a nonredundant RNA structure dataset to assess AlphaFold3's performance for RNA structure prediction. This demonstrates NucleoSeeker's effectiveness in curating valuable nonredundant tailored datasets to both train novel and judge existing methods. NucleoSeeker is very easy to use, highly flexible, and can significantly increase the quality of RNA structure datasets.

摘要

通过计算方法对生物分子进行结构预测,是对通常较为繁琐的湿实验室实验的一种补充。与蛋白质结构预测不同,RNA结构预测在生物信息学中仍然是一项重大挑战,主要原因是注释的RNA结构数据稀缺且质量参差不齐。许多方法利用这些有限的数据来训练深度学习模型,但数据冗余、数据泄露和数据质量不佳会影响其性能。在这项工作中,我们展示了NucleoSeeker,这是一种旨在从蛋白质数据库(PDB)中整理高质量、定制数据集的工具。它是一个统一的框架,结合了多个工具,简化了原本复杂的数据整理过程。它在结构、序列和注释层面提供了多个过滤器,让研究人员能够完全掌控数据整理。此外,我们还展示了几个用例。特别是,我们展示了NucleoSeeker如何创建一个无冗余的RNA结构数据集,以评估AlphaFold3对RNA结构预测的性能。这证明了NucleoSeeker在整理有价值的无冗余定制数据集以训练新方法和评判现有方法方面的有效性。NucleoSeeker非常易于使用,高度灵活,并且可以显著提高RNA结构数据集的质量。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6174/11915511/4249f808bf56/lqaf021fig1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6174/11915511/4249f808bf56/lqaf021fig1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6174/11915511/4249f808bf56/lqaf021fig1.jpg

相似文献

1
NucleoSeeker-precision filtering of RNA databases to curate high-quality datasets.NucleoSeeker对RNA数据库进行精确筛选以整理高质量数据集。
NAR Genom Bioinform. 2025 Mar 18;7(1):lqaf021. doi: 10.1093/nargab/lqaf021. eCollection 2025 Mar.
2
RNA3DB: A structurally-dissimilar dataset split for training and benchmarking deep learning models for RNA structure prediction.RNA3DB:一个结构不同的数据集,用于训练和基准测试深度学习模型进行 RNA 结构预测。
J Mol Biol. 2024 Sep 1;436(17):168552. doi: 10.1016/j.jmb.2024.168552. Epub 2024 Mar 27.
3
OMD Curation Toolkit: a workflow for in-house curation of public omics datasets.OMD 策管工具包:公共组学数据集内部策管工作流程。
BMC Bioinformatics. 2024 May 9;25(1):184. doi: 10.1186/s12859-024-05803-9.
4
RNApdbee 2.0: multifunctional tool for RNA structure annotation.RNApdbee 2.0:RNA 结构注释的多功能工具。
Nucleic Acids Res. 2018 Jul 2;46(W1):W30-W35. doi: 10.1093/nar/gky314.
5
RNA-Puzzles toolkit: a computational resource of RNA 3D structure benchmark datasets, structure manipulation, and evaluation tools.RNA-Puzzles 工具包:一个 RNA 三维结构基准数据集、结构操作和评估工具的计算资源。
Nucleic Acids Res. 2020 Jan 24;48(2):576-588. doi: 10.1093/nar/gkz1108.
6
3D-Based RNA Function Prediction Tools in rnaglib.rnaglib 中的基于 3D 的 RNA 功能预测工具。
Methods Mol Biol. 2025;2847:153-161. doi: 10.1007/978-1-0716-4079-1_10.
7
RR3DD: an RNA global structure-based RNA three-dimensional structural classification database.RR3DD:一个基于 RNA 全局结构的 RNA 三维结构分类数据库。
RNA Biol. 2021 Nov 12;18(sup2):738-746. doi: 10.1080/15476286.2021.1989200. Epub 2021 Oct 18.
8
Datasets for Benchmarking RNA Design Algorithms.用于基准测试 RNA 设计算法的数据集。
Methods Mol Biol. 2025;2847:229-240. doi: 10.1007/978-1-0716-4079-1_16.
9
RNABase: an annotated database of RNA structures.RNABase:一个经过注释的RNA结构数据库。
Nucleic Acids Res. 2003 Jan 1;31(1):502-4. doi: 10.1093/nar/gkg012.
10
GTCreator: a flexible annotation tool for image-based datasets.GTCreator:一个用于基于图像数据集的灵活标注工具。
Int J Comput Assist Radiol Surg. 2019 Feb;14(2):191-201. doi: 10.1007/s11548-018-1864-x. Epub 2018 Sep 25.

本文引用的文献

1
Accurate structure prediction of biomolecular interactions with AlphaFold 3.利用 AlphaFold 3 进行生物分子相互作用的精确结构预测。
Nature. 2024 Jun;630(8016):493-500. doi: 10.1038/s41586-024-07487-w. Epub 2024 May 8.
2
Assessment of three-dimensional RNA structure prediction in CASP15.评估在 CASP15 中三维 RNA 结构预测。
Proteins. 2023 Dec;91(12):1747-1770. doi: 10.1002/prot.26602. Epub 2023 Oct 24.
3
RNA contact prediction by data efficient deep learning.通过数据高效的深度学习进行 RNA 接触预测。
Commun Biol. 2023 Sep 6;6(1):913. doi: 10.1038/s42003-023-05244-9.
4
RNAsolo: a repository of cleaned PDB-derived RNA 3D structures.RNAsolo:一个经过清理的 PDB 衍生 RNA 3D 结构库。
Bioinformatics. 2022 Jul 11;38(14):3668-3670. doi: 10.1093/bioinformatics/btac386.
5
Guidelines and quality criteria for artificial intelligence-based prediction models in healthcare: a scoping review.医疗保健中基于人工智能的预测模型的指南和质量标准:一项范围综述
NPJ Digit Med. 2022 Jan 10;5(1):2. doi: 10.1038/s41746-021-00549-7.
6
Highly accurate protein structure prediction with AlphaFold.利用 AlphaFold 进行高精度蛋白质结构预测。
Nature. 2021 Aug;596(7873):583-589. doi: 10.1038/s41586-021-03819-2. Epub 2021 Jul 15.
7
Rfam 14: expanded coverage of metagenomic, viral and microRNA families.Rfam 14:扩展了对宏基因组、病毒和 miRNA 家族的覆盖范围。
Nucleic Acids Res. 2021 Jan 8;49(D1):D192-D200. doi: 10.1093/nar/gkaa1047.
8
Evaluating DCA-based method performances for RNA contact prediction by a well-curated data set.评估基于 DCA 的方法在经过良好整理的数据集上进行 RNA 接触预测的性能。
RNA. 2020 Jul;26(7):794-802. doi: 10.1261/rna.073809.119. Epub 2020 Apr 10.
9
pydca v1.0: a comprehensive software for direct coupling analysis of RNA and protein sequences.pydca v1.0:用于 RNA 和蛋白质序列直接耦联分析的综合软件。
Bioinformatics. 2020 Apr 1;36(7):2264-2265. doi: 10.1093/bioinformatics/btz892.
10
Shedding light on the dark matter of the biomolecular structural universe: Progress in RNA 3D structure prediction.揭示生物分子结构宇宙的暗物质:RNA 三维结构预测的进展。
Methods. 2019 Jun 1;162-163:68-73. doi: 10.1016/j.ymeth.2019.04.012. Epub 2019 Apr 24.