• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

Lemon:一种从蛋白质数据库中快速挖掘结构信息的框架。

Lemon: a framework for rapidly mining structural information from the Protein Data Bank.

机构信息

Department of Chemistry, Purdue University, West Lafayette, IN, USA.

出版信息

Bioinformatics. 2019 Oct 15;35(20):4165-4167. doi: 10.1093/bioinformatics/btz178.

DOI:10.1093/bioinformatics/btz178
PMID:30873531
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC6792122/
Abstract

MOTIVATION

The Protein Data Bank (PDB) currently holds over 140 000 biomolecular structures and continues to release new structures on a weekly basis. The PDB is an essential resource to the structural bioinformatics community to develop software that mine, use, categorize and analyze such data. New computational biology methods are evaluated using custom benchmarking sets derived as subsets of 3D experimentally determined structures and structural features from the PDB. Currently, such benchmarking features are manually curated with custom scripts in a non-standardized manner that results in slow distribution and updates with new experimental structures. Finally, there is a scarcity of standardized tools to rapidly query 3D descriptors of the entire PDB.

RESULTS

Our solution is the Lemon framework, a C++11 library with Python bindings, which provides a consistent workflow methodology for selecting biomolecular interactions based on user criterion and computing desired 3D structural features. This framework can parse and characterize the entire PDB in <10 min on modern, multithreaded hardware. The speed in parsing is obtained by using the recently developed MacroMolecule Transmission Format to reduce the computational cost of reading text-based PDB files. The use of C++ lambda functions and Python bindings provide extensive flexibility for analysis and categorization of the PDB by allowing the user to write custom functions to suite their objective. We think Lemon will become a one-stop-shop to quickly mine the entire PDB to generate desired structural biology features.

AVAILABILITY AND IMPLEMENTATION

The Lemon software is available as a C++ header library along with a PyPI package and example functions at https://github.com/chopralab/lemon.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

蛋白质数据库 (PDB) 目前拥有超过 140000 个生物分子结构,并继续每周发布新的结构。PDB 是结构生物信息学社区开发软件的重要资源,这些软件可以挖掘、使用、分类和分析这些数据。新的计算生物学方法使用从 PDB 中提取的 3D 实验确定结构和结构特征的自定义基准测试集进行评估。目前,此类基准测试特征是使用自定义脚本以非标准化的方式手动整理的,这导致新实验结构的分布和更新速度较慢。最后,缺乏标准化工具来快速查询整个 PDB 的 3D 描述符。

结果

我们的解决方案是 Lemon 框架,这是一个带有 Python 绑定的 C++11 库,它提供了一种基于用户标准选择生物分子相互作用并计算所需 3D 结构特征的一致工作流程方法。该框架可以在现代多线程硬件上 <10 分钟内解析和描述整个 PDB。通过使用最近开发的大分子传输格式,可以减少读取基于文本的 PDB 文件的计算成本,从而提高解析速度。使用 C++lambda 函数和 Python 绑定为通过允许用户编写自定义函数来满足其目标,为 PDB 的分析和分类提供了广泛的灵活性。我们认为 Lemon 将成为一个一站式服务,可以快速挖掘整个 PDB 以生成所需的结构生物学特征。

可用性和实现

Lemon 软件作为 C++头文件库以及 PyPI 包和示例函数在 https://github.com/chopralab/lemon 上提供。

补充信息

补充数据可在 Bioinformatics 在线获取。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8b81/6792122/0bfc7746c942/btz178f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8b81/6792122/0bfc7746c942/btz178f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8b81/6792122/0bfc7746c942/btz178f1.jpg

相似文献

1
Lemon: a framework for rapidly mining structural information from the Protein Data Bank.Lemon:一种从蛋白质数据库中快速挖掘结构信息的框架。
Bioinformatics. 2019 Oct 15;35(20):4165-4167. doi: 10.1093/bioinformatics/btz178.
2
pdb-tools: a swiss army knife for molecular structures.pdb工具:分子结构的瑞士军刀。
F1000Res. 2018 Dec 20;7:1961. doi: 10.12688/f1000research.17456.1. eCollection 2018.
3
DUBS: A Framework for Developing irectory of seful enchmarking ets for Virtual Screening.DUBS:用于开发虚拟筛选有用基准测试目录的框架。
J Chem Inf Model. 2020 Sep 28;60(9):4137-4143. doi: 10.1021/acs.jcim.0c00122. Epub 2020 Aug 3.
4
MolTalk--a programming library for protein structures and structure analysis.MolTalk——一个用于蛋白质结构和结构分析的编程库。
BMC Bioinformatics. 2004 Apr 19;5:39. doi: 10.1186/1471-2105-5-39.
5
PDBeCIF: an open-source mmCIF/CIF parsing and processing package.PDBeCIF:一个开源的 mmCIF/CIF 解析和处理软件包。
BMC Bioinformatics. 2021 Jul 23;22(1):383. doi: 10.1186/s12859-021-04271-9.
6
RCSB PDB Mobile: iOS and Android mobile apps to provide data access and visualization to the RCSB Protein Data Bank.RCSB PDB移动版:适用于iOS和安卓系统的移动应用程序,用于提供对RCSB蛋白质数据库的数据访问和可视化功能。
Bioinformatics. 2015 Jan 1;31(1):126-7. doi: 10.1093/bioinformatics/btu596. Epub 2014 Sep 2.
7
Integrating genomic information with protein sequence and 3D atomic level structure at the RCSB protein data bank.将基因组信息与RCSB蛋白质数据库中的蛋白质序列和三维原子水平结构相结合。
Bioinformatics. 2016 Dec 15;32(24):3833-3835. doi: 10.1093/bioinformatics/btw547. Epub 2016 Aug 22.
8
atomium-a Python structure parser.原子球塔-一个 Python 结构解析器。
Bioinformatics. 2020 May 1;36(9):2750-2754. doi: 10.1093/bioinformatics/btaa072.
9
MMTF-An efficient file format for the transmission, visualization, and analysis of macromolecular structures.MMTF——一种用于大分子结构传输、可视化和分析的高效文件格式。
PLoS Comput Biol. 2017 Jun 2;13(6):e1005575. doi: 10.1371/journal.pcbi.1005575. eCollection 2017 Jun.
10
PDBx/mmCIF Ecosystem: Foundational Semantic Tools for Structural Biology.PDBx/mmCIF 生态系统:结构生物学的基础语义工具。
J Mol Biol. 2022 Jun 15;434(11):167599. doi: 10.1016/j.jmb.2022.167599. Epub 2022 Apr 20.

引用本文的文献

1
DUBS: A Framework for Developing irectory of seful enchmarking ets for Virtual Screening.DUBS:用于开发虚拟筛选有用基准测试目录的框架。
J Chem Inf Model. 2020 Sep 28;60(9):4137-4143. doi: 10.1021/acs.jcim.0c00122. Epub 2020 Aug 3.
2
CANDOCK: Chemical Atomic Network-Based Hierarchical Flexible Docking Algorithm Using Generalized Statistical Potentials.基于化学原子网络的层次化柔性对接算法,利用广义统计势能。
J Chem Inf Model. 2020 Mar 23;60(3):1509-1527. doi: 10.1021/acs.jcim.9b00686. Epub 2020 Mar 3.

本文引用的文献

1
MMTF-An efficient file format for the transmission, visualization, and analysis of macromolecular structures.MMTF——一种用于大分子结构传输、可视化和分析的高效文件格式。
PLoS Comput Biol. 2017 Jun 2;13(6):e1005575. doi: 10.1371/journal.pcbi.1005575. eCollection 2017 Jun.
2
Forging the Basis for Developing Protein-Ligand Interaction Scoring Functions.为开发蛋白质-配体相互作用评分函数奠定基础。
Acc Chem Res. 2017 Feb 21;50(2):302-309. doi: 10.1021/acs.accounts.6b00491. Epub 2017 Feb 9.
3
The RCSB Protein Data Bank: views of structural biology for basic and applied research and education.
RCSB蛋白质数据库:基础与应用研究及教育的结构生物学视角。
Nucleic Acids Res. 2015 Jan;43(Database issue):D345-56. doi: 10.1093/nar/gku1214. Epub 2014 Nov 26.
4
Directory of useful decoys, enhanced (DUD-E): better ligands and decoys for better benchmarking.有用诱饵目录增强版(DUD-E):更好的配体和诱饵,用于更好的基准测试。
J Med Chem. 2012 Jul 26;55(14):6582-94. doi: 10.1021/jm300687e. Epub 2012 Jul 5.
5
A generalized knowledge-based discriminatory function for biomolecular interactions.一种基于知识的生物分子相互作用通用判别函数。
Proteins. 2009 Jul;76(1):115-28. doi: 10.1002/prot.22323.
6
Solvent dramatically affects protein structure refinement.溶剂对蛋白质结构优化有显著影响。
Proc Natl Acad Sci U S A. 2008 Dec 23;105(51):20239-44. doi: 10.1073/pnas.0810818105. Epub 2008 Dec 10.
7
Diverse, high-quality test set for the validation of protein-ligand docking performance.用于验证蛋白质-配体对接性能的多样、高质量测试集。
J Med Chem. 2007 Feb 22;50(4):726-41. doi: 10.1021/jm061277y.