• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

ChEMBL数据库中的活性、测定及靶点数据整理与质量

Activity, assay and target data curation and quality in the ChEMBL database.

作者信息

Papadatos George, Gaulton Anna, Hersey Anne, Overington John P

机构信息

European Molecular Biology Laboratory, European Bioinformatics Institute (EMBL-EBI), Wellcome Trust Genome Campus, Hinxton, Cambridgeshire, CB10 1SD, UK.

出版信息

J Comput Aided Mol Des. 2015 Sep;29(9):885-96. doi: 10.1007/s10822-015-9860-5. Epub 2015 Jul 23.

DOI:10.1007/s10822-015-9860-5
PMID:26201396
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC4607714/
Abstract

The emergence of a number of publicly available bioactivity databases, such as ChEMBL, PubChem BioAssay and BindingDB, has raised awareness about the topics of data curation, quality and integrity. Here we provide an overview and discussion of the current and future approaches to activity, assay and target data curation of the ChEMBL database. This curation process involves several manual and automated steps and aims to: (1) maximise data accessibility and comparability; (2) improve data integrity and flag outliers, ambiguities and potential errors; and (3) add further curated annotations and mappings thus increasing the usefulness and accuracy of the ChEMBL data for all users and modellers in particular. Issues related to activity, assay and target data curation and integrity along with their potential impact for users of the data are discussed, alongside robust selection and filter strategies in order to avoid or minimise these, depending on the desired application.

摘要

一些公开可用的生物活性数据库的出现,如ChEMBL、PubChem生物测定数据库和BindingDB,提高了人们对数据管理、质量和完整性等主题的认识。在此,我们概述并讨论了ChEMBL数据库中当前和未来针对活性、测定和靶点数据管理的方法。这个管理过程涉及几个手动和自动步骤,目标是:(1) 最大限度地提高数据的可访问性和可比性;(2)提高数据完整性并标记异常值、模糊性和潜在错误;(3)添加进一步的管理注释和映射,从而提高ChEMBL数据对所有用户尤其是建模人员的有用性和准确性。讨论了与活性、测定和靶点数据管理及完整性相关的问题及其对数据用户的潜在影响,同时还讨论了稳健的选择和过滤策略,以便根据所需应用避免或最小化这些问题。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6a4/4607714/bc7aaed35958/10822_2015_9860_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6a4/4607714/5b73f2eb0a7f/10822_2015_9860_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6a4/4607714/bc7aaed35958/10822_2015_9860_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6a4/4607714/5b73f2eb0a7f/10822_2015_9860_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6a4/4607714/bc7aaed35958/10822_2015_9860_Fig2_HTML.jpg

相似文献

1
Activity, assay and target data curation and quality in the ChEMBL database.ChEMBL数据库中的活性、测定及靶点数据整理与质量
J Comput Aided Mol Des. 2015 Sep;29(9):885-96. doi: 10.1007/s10822-015-9860-5. Epub 2015 Jul 23.
2
An open source chemical structure curation pipeline using RDKit.一个使用RDKit的开源化学结构编目流程。
J Cheminform. 2020 Sep 1;12(1):51. doi: 10.1186/s13321-020-00456-1.
3
A Consensus Compound/Bioactivity Dataset for Data-Driven Drug Design and Chemogenomics.用于数据驱动药物设计和化学生物组学的共识化合物/生物活性数据集。
Molecules. 2022 Apr 13;27(8):2513. doi: 10.3390/molecules27082513.
4
An automated curation procedure for addressing chemical errors and inconsistencies in public datasets used in QSAR modelling.一种用于解决QSAR建模中使用的公共数据集中化学错误和不一致性的自动化编目程序。
SAR QSAR Environ Res. 2016 Nov;27(11):939-965. doi: 10.1080/1062936X.2016.1253611.
5
Strategies towards digital and semi-automated curation in RegulonDB.RegulonDB中数字和半自动管理的策略。
Database (Oxford). 2017 Jan 1;2017(1). doi: 10.1093/database/bax012.
6
Enhanced taxonomy annotation of antiviral activity data from ChEMBL.增强型抗病毒活性数据的化学物质生物活性数据库(ChEMBL)分类注释。
Database (Oxford). 2019 Jan 1;2019:bay139. doi: 10.1093/database/bay139.
7
Data Curation: Improving Environmental Health Data Quality.数据管理:提高环境卫生数据质量。
Stud Health Technol Inform. 2015;216:1061.
8
A document classifier for medicinal chemistry publications trained on the ChEMBL corpus.一种基于ChEMBL语料库训练的药物化学出版物文档分类器。
J Cheminform. 2014 Aug 12;6(1):40. doi: 10.1186/s13321-014-0040-8. eCollection 2014 Dec.
9
Automated evaluation of consistency within the PubChem Compound database.自动评估 PubChem 化合物数据库中的一致性。
Sci Data. 2019 Feb 19;6:190023. doi: 10.1038/sdata.2019.23.
10
PPDMs-a resource for mapping small molecule bioactivities from ChEMBL to Pfam-A protein domains.PPDMs——一种用于将ChEMBL中的小分子生物活性映射到Pfam-A蛋白质结构域的资源。
Bioinformatics. 2015 Mar 1;31(5):776-8. doi: 10.1093/bioinformatics/btu711. Epub 2014 Oct 27.

引用本文的文献

1
Artificial Intelligence in Molecular Optimization: Current Paradigms and Future Frontiers.分子优化中的人工智能:当前范式与未来前沿
Int J Mol Sci. 2025 May 19;26(10):4878. doi: 10.3390/ijms26104878.
2
MHNfs: Prompting In-Context Bioactivity Predictions for Low-Data Drug Discovery.MHNfs:为低数据药物发现提供上下文生物活性预测
J Chem Inf Model. 2025 May 12;65(9):4243-4250. doi: 10.1021/acs.jcim.4c02373. Epub 2025 Apr 30.
3
Data Exploration for Target Predictions Using Proprietary and Publicly Available Data Sets.使用专有数据集和公开可用数据集进行目标预测的数据探索

本文引用的文献

1
Quality Issues with Public Domain Chemogenomics Data.公共领域化学基因组学数据的质量问题。
Mol Inform. 2013 Dec;32(11-12):898-905. doi: 10.1002/minf.201300051. Epub 2013 Sep 8.
2
Chemical databases: curation or integration by user-defined equivalence?化学数据库:通过用户定义的等效性进行整理还是整合?
Drug Discov Today Technol. 2015 Jul;14:17-24. doi: 10.1016/j.ddtec.2015.01.005. Epub 2015 Mar 11.
3
A resource for cell line authentication, annotation and quality control.细胞系鉴定、注释和质量控制资源。
Chem Res Toxicol. 2025 May 19;38(5):820-833. doi: 10.1021/acs.chemrestox.4c00347. Epub 2025 Apr 20.
4
On the importance of data curation for knowledge mining in antiviral research.论数据管理在抗病毒研究知识挖掘中的重要性。
Sci Prog. 2025 Jan-Mar;108(1):368504241301535. doi: 10.1177/00368504241301535.
5
Integrating pharmacogenomics and cheminformatics with diverse disease phenotypes for cell type-guided drug discovery.整合药物基因组学和化学信息学与多种疾病表型,用于细胞类型导向的药物发现。
Genome Med. 2025 Jan 20;17(1):7. doi: 10.1186/s13073-025-01431-x.
6
Combining crystallographic and binding affinity data towards a novel dataset of small molecule overlays.结合针对小分子叠加新数据集的晶体学和结合亲和力数据。
J Comput Aided Mol Des. 2024 Dec 4;39(1):2. doi: 10.1007/s10822-024-00581-1.
7
Advancing Drug Safety in Drug Development: Bridging Computational Predictions for Enhanced Toxicity Prediction.推进药物研发中的药物安全性:弥合计算预测差距,提高毒性预测能力。
Chem Res Toxicol. 2024 Jun 17;37(6):827-849. doi: 10.1021/acs.chemrestox.3c00352. Epub 2024 May 17.
8
Binding Curve Viewer: Visualizing the Equilibrium and Kinetics of Protein-Ligand Binding and Competitive Binding.结合曲线查看器:可视化蛋白质-配体结合和竞争结合的平衡和动力学。
J Chem Inf Model. 2024 May 27;64(10):4180-4192. doi: 10.1021/acs.jcim.4c00130. Epub 2024 May 8.
9
A journey from molecule to physiology and tools for drug discovery targeting the transient receptor potential vanilloid type 1 (TRPV1) channel.从分子到生理学的历程以及靶向瞬时受体电位香草酸亚型1(TRPV1)通道的药物发现工具。
Front Pharmacol. 2024 Jan 24;14:1251061. doi: 10.3389/fphar.2023.1251061. eCollection 2023.
10
Multi-task bioassay pre-training for protein-ligand binding affinity prediction.多任务生物测定预训练用于蛋白质-配体结合亲和力预测。
Brief Bioinform. 2023 Nov 22;25(1). doi: 10.1093/bib/bbad451.
Nature. 2015 Apr 16;520(7547):307-11. doi: 10.1038/nature14397.
4
UniProt: a hub for protein information.通用蛋白质数据库(UniProt):蛋白质信息中心。
Nucleic Acids Res. 2015 Jan;43(Database issue):D204-12. doi: 10.1093/nar/gku989. Epub 2014 Oct 27.
5
Evolving BioAssay Ontology (BAO): modularization, integration and applications.不断发展的生物测定本体(BAO):模块化、集成与应用
J Biomed Semantics. 2014 Jun 3;5(Suppl 1 Proceedings of the Bio-Ontologies Spec Interest G):S5. doi: 10.1186/2041-1480-5-S1-S5. eCollection 2014.
6
SwissTargetPrediction: a web server for target prediction of bioactive small molecules.瑞士靶点预测:一个用于生物活性小分子靶点预测的网络服务器。
Nucleic Acids Res. 2014 Jul;42(Web Server issue):W32-8. doi: 10.1093/nar/gku293. Epub 2014 May 3.
7
The ChEMBL database: a taster for medicinal chemists.ChEMBL数据库:药物化学家的入门指南。
Future Med Chem. 2014 Mar;6(4):361-4. doi: 10.4155/fmc.14.8.
8
Comparing the Chemical Structure and Protein Content of ChEMBL, DrugBank, Human Metabolome Database and the Therapeutic Target Database.比较ChEMBL、DrugBank、人类代谢组数据库和治疗靶点数据库的化学结构和蛋白质含量。
Mol Inform. 2013 Dec;32(11-12):881-897. doi: 10.1002/minf.201300103. Epub 2013 Dec 11.
9
The IUPHAR/BPS Guide to PHARMACOLOGY: an expert-driven knowledgebase of drug targets and their ligands.国际药理学联合会/英国药理学学会药物靶点和配体百科全书:一个由专家驱动的药物靶点和配体知识库。
Nucleic Acids Res. 2014 Jan;42(Database issue):D1098-106. doi: 10.1093/nar/gkt1143. Epub 2013 Nov 14.
10
The ChEMBL bioactivity database: an update.《ChEMBL 生物活性数据库更新》
Nucleic Acids Res. 2014 Jan;42(Database issue):D1083-90. doi: 10.1093/nar/gkt1031. Epub 2013 Nov 7.