• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

使用机器学习解析化学混合物描述。

Using Machine Learning to Parse Chemical Mixture Descriptions.

作者信息

Clark Alex M, Gedeck Peter, Cheung Philip P, Bunin Barry A

机构信息

Collaborative Drug Discovery, Inc. 1633 Bayshore Hwy, Suite 342, Burlingame, California 94010, United States.

出版信息

ACS Omega. 2021 Aug 18;6(34):22400-22409. doi: 10.1021/acsomega.1c03311. eCollection 2021 Aug 31.

DOI:10.1021/acsomega.1c03311
PMID:34497929
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC8412965/
Abstract

Chemical mixtures have recently come to the attention of open standards and data structures for capturing machine-readable descriptions for informatics uses. At the present time, essentially all transmission of information about mixtures is done using short text descriptions that are readable only by trained scientists, and there are no accessible repositories of marked-up mixture data. We have designed a machine learning tool that can interpret mixture descriptions and upgrade them to the high-level format, which can in turn be used to generate notation. The interpretation achieves a high success rate and can be used at scale to markup large catalogs and inventories, with some expert checking to catch edge cases. The training data that was accumulated during the project is made openly available, along with previously released mixture editing tools and utilities.

摘要

化学混合物最近已引起开放标准和数据结构的关注,这些标准和数据结构用于捕获机器可读的描述,以用于信息学用途。目前,基本上所有关于混合物的信息传输都是使用只有经过培训的科学家才能读懂的简短文本描述来完成的,而且没有可供访问的标记化混合物数据存储库。我们设计了一种机器学习工具,它可以解释混合物描述并将其升级为高级格式,进而可用于生成符号。这种解释具有很高的成功率,并且可以大规模用于标记大型目录和清单,同时进行一些专家检查以捕捉边缘情况。项目期间积累的训练数据与之前发布的混合物编辑工具和实用程序一起公开提供。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7ba1/8412965/b22cc8a5a332/ao1c03311_0008.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7ba1/8412965/92acde971515/ao1c03311_0002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7ba1/8412965/7f733e68e4af/ao1c03311_0003.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7ba1/8412965/fb37876a8bc7/ao1c03311_0004.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7ba1/8412965/ec02bfd7278b/ao1c03311_0005.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7ba1/8412965/4b9e3fd63c69/ao1c03311_0006.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7ba1/8412965/348791dff39d/ao1c03311_0007.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7ba1/8412965/b22cc8a5a332/ao1c03311_0008.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7ba1/8412965/92acde971515/ao1c03311_0002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7ba1/8412965/7f733e68e4af/ao1c03311_0003.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7ba1/8412965/fb37876a8bc7/ao1c03311_0004.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7ba1/8412965/ec02bfd7278b/ao1c03311_0005.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7ba1/8412965/4b9e3fd63c69/ao1c03311_0006.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7ba1/8412965/348791dff39d/ao1c03311_0007.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7ba1/8412965/b22cc8a5a332/ao1c03311_0008.jpg

相似文献

1
Using Machine Learning to Parse Chemical Mixture Descriptions.使用机器学习解析化学混合物描述。
ACS Omega. 2021 Aug 18;6(34):22400-22409. doi: 10.1021/acsomega.1c03311. eCollection 2021 Aug 31.
2
Capturing mixture composition: an open machine-readable format for representing mixed substances.捕捉混合物成分:一种用于表示混合物质的开放式机器可读格式。
J Cheminform. 2019 May 23;11(1):33. doi: 10.1186/s13321-019-0357-4.
3
yaInChI: modified InChI string scheme for line notation of chemical structures.雅因驰:化学结构线式表示法的改进的 InChI 字符串方案。
SAR QSAR Environ Res. 2012;23(3-4):237-55. doi: 10.1080/1062936X.2012.657677. Epub 2012 Apr 2.
4
Machines first, humans second: on the importance of algorithmic interpretation of open chemistry data.机器优先,人类其次:论算法解释开放化学数据的重要性。
J Cheminform. 2015 Mar 22;7:9. doi: 10.1186/s13321-015-0057-7. eCollection 2015.
5
Principles and requirements for nanomaterial representations to facilitate machine processing and cooperation with nanoinformatics tools.纳米材料表示的原则和要求,以促进机器处理及与纳米信息学工具的协作。
J Cheminform. 2023 Apr 12;15(1):44. doi: 10.1186/s13321-022-00669-6.
6
Can an InChI for Nano Address the Need for a Simplified Representation of Complex Nanomaterials across Experimental and Nanoinformatics Studies?纳米材料的国际化学标识符(InChI)能否满足在实验研究和纳米信息学研究中对复杂纳米材料进行简化表示的需求?
Nanomaterials (Basel). 2020 Dec 11;10(12):2493. doi: 10.3390/nano10122493.
7
Making the InChI FAIR and sustainable while moving to inorganics.在转向无机物的同时,使国际化合物标识(InChI)变得公平且可持续。
Faraday Discuss. 2025 Jan 14;256(0):503-519. doi: 10.1039/d4fd00145a.
8
New method for taxonomic descriptions with coded notation, producing dynamic and interchangeable output.采用编码表示法进行分类描述的新方法,可生成动态且可互换的输出。
Ecol Evol. 2024 Jul 4;14(7):e11206. doi: 10.1002/ece3.11206. eCollection 2024 Jul.
9
Transcription between human-readable synthetic descriptions and machine-executable instructions: an application of the latest pre-training technology.人类可读的合成描述与机器可执行指令之间的转录:最新预训练技术的一种应用。
Chem Sci. 2023 Aug 24;14(35):9360-9373. doi: 10.1039/d3sc02483k. eCollection 2023 Sep 13.
10
Graph isomorphism-based algorithm for cross-checking chemical and crystallographic descriptions.基于图同构的化学和晶体学描述交叉核对算法
J Cheminform. 2023 Feb 23;15(1):25. doi: 10.1186/s13321-023-00692-1.

引用本文的文献

1
Integrated data-driven cross-disciplinary framework to prevent chemical water pollution.用于预防化学性水污染的集成数据驱动跨学科框架。
One Earth. 2023 Aug;6(8). doi: 10.1016/j.oneear.2023.07.001.
2
Progress of Artificial Intelligence in Drug Synthesis and Prospect of Its Application in Nitrification of Energetic Materials.人工智能在药物合成中的进展及其在含能材料硝化中的应用前景
Molecules. 2023 Feb 16;28(4):1900. doi: 10.3390/molecules28041900.

本文引用的文献

1
An open source chemical structure curation pipeline using RDKit.一个使用RDKit的开源化学结构编目流程。
J Cheminform. 2020 Sep 1;12(1):51. doi: 10.1186/s13321-020-00456-1.
2
Can an InChI for Nano Address the Need for a Simplified Representation of Complex Nanomaterials across Experimental and Nanoinformatics Studies?纳米材料的国际化学标识符(InChI)能否满足在实验研究和纳米信息学研究中对复杂纳米材料进行简化表示的需求?
Nanomaterials (Basel). 2020 Dec 11;10(12):2493. doi: 10.3390/nano10122493.
3
The exposome and health: Where chemistry meets biology.
外核组学与健康:化学与生物学的交汇
Science. 2020 Jan 24;367(6476):392-396. doi: 10.1126/science.aay3164.
4
Tracking complex mixtures of chemicals in our changing environment.追踪我们不断变化的环境中复杂的化学混合物。
Science. 2020 Jan 24;367(6476):388-392. doi: 10.1126/science.aay6636.
5
BigSMILES: A Structurally-Based Line Notation for Describing Macromolecules.大简化分子线性输入规范(BigSMILES):一种用于描述大分子的基于结构的线性符号表示法。
ACS Cent Sci. 2019 Sep 25;5(9):1523-1531. doi: 10.1021/acscentsci.9b00476. Epub 2019 Sep 12.
6
Capturing mixture composition: an open machine-readable format for representing mixed substances.捕捉混合物成分:一种用于表示混合物质的开放式机器可读格式。
J Cheminform. 2019 May 23;11(1):33. doi: 10.1186/s13321-019-0357-4.
7
International chemical identifier for reactions (RInChI).反应的国际化学标识符(RInChI)。
J Cheminform. 2018 May 9;10(1):22. doi: 10.1186/s13321-018-0277-8.
8
HELM: a hierarchical notation language for complex biomolecule structure representation.HELM:用于复杂生物分子结构表示的层次符号语言。
J Chem Inf Model. 2012 Oct 22;52(10):2796-806. doi: 10.1021/ci3001925. Epub 2012 Sep 26.
9
Chemical name to structure: OPSIN, an open source solution.化学名到结构:视蛋白,一个开源解决方案。
J Chem Inf Model. 2011 Mar 28;51(3):739-53. doi: 10.1021/ci100384d. Epub 2011 Mar 9.
10
Chemical Markup, XML and the World-Wide Web. 8. Polymer Markup Language.化学标记、XML与万维网。8. 聚合物标记语言。
J Chem Inf Model. 2008 Nov;48(11):2118-28. doi: 10.1021/ci8002123.