• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

化学名到结构:视蛋白,一个开源解决方案。

Chemical name to structure: OPSIN, an open source solution.

机构信息

Unilever Centre for Molecular Science Informatics, Department of Chemistry, University of Cambridge, Cambridge, England.

出版信息

J Chem Inf Model. 2011 Mar 28;51(3):739-53. doi: 10.1021/ci100384d. Epub 2011 Mar 9.

DOI:10.1021/ci100384d
PMID:21384929
Abstract

We have produced an open source, freely available, algorithm (Open Parser for Systematic IUPAC Nomenclature, OPSIN) that interprets the majority of organic chemical nomenclature in a fast and precise manner. This has been achieved using an approach based on a regular grammar. This grammar is used to guide tokenization, a potentially difficult problem in chemical names. From the parsed chemical name, an XML parse tree is constructed that is operated on in a stepwise manner until the structure has been reconstructed from the name. Results from OPSIN on various computer generated name/structure pair sets are presented. These show exceptionally high precision (99.8%+) and, when using general organic chemical nomenclature, high recall (98.7-99.2%). This software can serve as the basis for future open source developments of chemical name interpretation.

摘要

我们开发了一个开源、免费、算法(用于系统 IUPAC 命名法的开放解析器,OPSIN),可以快速、准确地解释大多数有机化学命名法。这是通过基于正则语法的方法实现的。该语法用于指导标记化,这在化学名称中是一个潜在的难题。从解析后的化学名称中,构建一个 XML 解析树,然后逐步操作该解析树,直到从名称中重建结构。我们展示了 OPSIN 在各种计算机生成的名称/结构对集上的结果。这些结果显示出极高的精度(99.8%+),并且在使用通用有机化学命名法时,召回率也很高(98.7-99.2%)。该软件可以作为未来开源化学命名解释开发的基础。

相似文献

1
Chemical name to structure: OPSIN, an open source solution.化学名到结构:视蛋白,一个开源解决方案。
J Chem Inf Model. 2011 Mar 28;51(3):739-53. doi: 10.1021/ci100384d. Epub 2011 Mar 9.
2
"gnparser": a powerful parser for scientific names based on Parsing Expression Grammar.“gnparser”:一种基于解析表达式语法的强大的学名解析器。
BMC Bioinformatics. 2017 May 26;18(1):279. doi: 10.1186/s12859-017-1663-3.
3
Improving the quality of published chemical names with nomenclature software.使用命名软件提高已发表化学名称的质量。
Molecules. 2006 Nov 29;11(11):915-28. doi: 10.3390/11110915.
4
Isoprostane nomenclature: inherent problems may cause setbacks for the development of the isoprostanoid field.异前列烷命名法:固有问题可能会给异前列烷领域的发展带来挫折。
Prostaglandins Leukot Essent Fatty Acids. 2010 Feb-Mar;82(2-3):71-81. doi: 10.1016/j.plefa.2009.11.007. Epub 2010 Jan 19.
5
Improved chemical text mining of patents with infinite dictionaries and automatic spelling correction.无限词典和自动拼写纠错改进专利的化学文本挖掘。
J Chem Inf Model. 2012 Jan 23;52(1):51-62. doi: 10.1021/ci200463r. Epub 2011 Dec 28.
6
A summary of the 209 PCB congener nomenclature.209种多氯联苯同系物命名法概述。
Chemosphere. 2007 Aug;68(9):1603-12. doi: 10.1016/j.chemosphere.2007.03.052. Epub 2007 May 11.
7
Goslin: A Grammar of Succinct Lipid Nomenclature.高斯林:简明脂质命名法语法。
Anal Chem. 2020 Aug 18;92(16):10957-10960. doi: 10.1021/acs.analchem.0c01690. Epub 2020 Jul 30.
8
Nomenclature-based data retrieval without prior annotation: facilitating biomedical data integration with fast doublet matching.无需事先注释的基于命名法的数据检索:通过快速双峰匹配促进生物医学数据整合。
In Silico Biol. 2005;5(3):313-22. Epub 2005 Apr 3.
9
[Adaptation of the terminology of chemicals included in the list of maximum allowable concentrations in work environment to the principles which meet the requirements of the IUPAC guidelines].[使工作环境中最大允许浓度清单中所含化学品的术语符合满足国际纯粹与应用化学联合会(IUPAC)指南要求的原则]
Med Pr. 1998;49(4):393-406.
10
OMSSA Parser: an open-source library to parse and extract data from OMSSA MS/MS search results.OMSSA解析器:一个用于解析和提取OMSSA串联质谱搜索结果中数据的开源库。
Proteomics. 2009 Jul;9(14):3772-4. doi: 10.1002/pmic.200900037.

引用本文的文献

1
A structure-oriented kinetics dataset of enzyme-substrate interactions.一个面向结构的酶-底物相互作用动力学数据集。
Sci Data. 2025 Aug 26;12(1):1489. doi: 10.1038/s41597-025-05829-5.
2
How to crack a SMILES: automatic crosschecked chemical structure resolution across multiple services using MoleculeResolver.如何破解SMILES:使用分子解析器跨多个服务自动交叉核对化学结构解析
J Cheminform. 2025 Aug 4;17(1):117. doi: 10.1186/s13321-025-01064-7.
3
Application of the digital annealer unit in optimizing chemical reaction conditions for enhanced production yields.
数字退火器单元在优化化学反应条件以提高产量方面的应用。
J Cheminform. 2025 Jul 14;17(1):105. doi: 10.1186/s13321-025-01043-y.
4
IUPAC-GPT: an IUPAC-based large-scale molecular pre-trained model for property prediction and molecule generation.IUPAC-GPT:一种基于国际纯粹与应用化学联合会(IUPAC)的大规模分子预训练模型,用于性质预测和分子生成。
Mol Divers. 2025 Jul 3. doi: 10.1007/s11030-025-11280-w.
5
SmartChemist─Simplifying Communication About Organic Chemical Structures.智能化学家——简化关于有机化学结构的交流。
J Chem Inf Model. 2025 Sep 8;65(17):9075-9081. doi: 10.1021/acs.jcim.5c00599. Epub 2025 Jun 9.
6
NMRExtractor: leveraging large language models to construct an experimental NMR database from open-source scientific publications.NMRExtractor:利用大语言模型从开源科学出版物构建实验性核磁共振数据库。
Chem Sci. 2025 May 28. doi: 10.1039/d4sc08802f.
7
STOUT V2.0: SMILES to IUPAC name conversion using transformer models.STOUT V2.0:使用变压器模型将SMILES转换为IUPAC名称。
J Cheminform. 2024 Dec 27;16(1):146. doi: 10.1186/s13321-024-00941-x.
8
Machine Learning Models for High Explosive Crystal Density and Performance.用于高爆炸药晶体密度和性能的机器学习模型
Chem Mater. 2024 Nov 7;36(22):11109-11118. doi: 10.1021/acs.chemmater.4c01978. eCollection 2024 Nov 26.
9
FatPlants: a comprehensive information system for lipid-related genes and metabolic pathways in plants.FatPlants:植物中脂质相关基因和代谢途径的综合信息系统。
Database (Oxford). 2024 Aug 5;2024. doi: 10.1093/database/baae074.
10
Augmenting large language models with chemistry tools.用化学工具增强大语言模型。
Nat Mach Intell. 2024;6(5):525-535. doi: 10.1038/s42256-024-00832-8. Epub 2024 May 8.