• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

雪球 2.0:ChemDataExtractor 的通用物质数据解析器。

Snowball 2.0: Generic Material Data Parser for ChemDataExtractor.

机构信息

Cavendish Laboratory, Department of Physics, University of Cambridge, Cambridge CB3 0HE, U.K.

ISIS Neutron and Muon Source, STFC Rutherford Appleton Laboratory, Harwell Science and Innovation Campus, Didcot, Oxfordshire OX11 0QX, U.K.

出版信息

J Chem Inf Model. 2023 Nov 27;63(22):7045-7055. doi: 10.1021/acs.jcim.3c01281. Epub 2023 Nov 7.

DOI:10.1021/acs.jcim.3c01281
PMID:37934697
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC10685441/
Abstract

The ever-growing amount of chemical data found in the scientific literature has led to the emergence of data-driven materials discovery. The first step in the pipeline, to automatically extract chemical information from plain text, has been driven by the development of software toolkits such as ChemDataExtractor. Such data extraction processes have created a demand for parsers that efficiently enable text mining. Here, we present Snowball 2.0, a sentence parser based on a semisupervised machine-learning algorithm. It can be used to extract any chemical property without additional training. We validate its precision, recall, and -score by training and testing a model with sentences of semiconductor band gap information curated from journal articles. Snowball 2.0 builds on two previously developed Snowball algorithms. Evaluation of Snowball 2.0 shows a 15-20% increase in recall with marginally reduced precision over the previous version which has been incorporated into ChemDataExtractor 2.0, giving Snowball 2.0 better performance in most configurations. Snowball 2.0 offers more and better parsing options for ChemDataExtractor, and it is more capable in the pipeline of automated data extraction. Snowball 2.0 also features better generalizability, performance, learning efficiencies, and user-friendliness.

摘要

不断增长的化学文献中的化学数据量导致了数据驱动的材料发现的出现。从纯文本中自动提取化学信息的流水线的第一步是由 ChemDataExtractor 等软件工具包的开发推动的。这种数据提取过程产生了对高效实现文本挖掘的解析器的需求。在这里,我们提出了基于半监督机器学习算法的句子解析器 Snowball 2.0。它可以用于提取任何化学性质,而无需额外的培训。我们通过使用从期刊文章中精心挑选的半导体带隙信息的句子来训练和测试模型,验证了其精度、召回率和 F1 分数。Snowball 2.0 建立在之前开发的两个 Snowball 算法的基础上。对 Snowball 2.0 的评估表明,与已集成到 ChemDataExtractor 2.0 中的以前版本相比,召回率提高了 15-20%,而精度略有下降,在大多数配置中,Snowball 2.0 的性能更好。Snowball 2.0 为 ChemDataExtractor 提供了更多和更好的解析选项,并且在自动化数据提取流水线中更具能力。Snowball 2.0 还具有更好的泛化能力、性能、学习效率和用户友好性。

相似文献

1
Snowball 2.0: Generic Material Data Parser for ChemDataExtractor.雪球 2.0:ChemDataExtractor 的通用物质数据解析器。
J Chem Inf Model. 2023 Nov 27;63(22):7045-7055. doi: 10.1021/acs.jcim.3c01281. Epub 2023 Nov 7.
2
Auto-generated database of semiconductor band gaps using ChemDataExtractor.使用 ChemDataExtractor 自动生成半导体带隙数据库。
Sci Data. 2022 May 3;9(1):193. doi: 10.1038/s41597-022-01294-6.
3
ChemDataExtractor: A Toolkit for Automated Extraction of Chemical Information from the Scientific Literature.ChemDataExtractor:一个用于从科学文献中自动提取化学信息的工具包。
J Chem Inf Model. 2016 Oct 24;56(10):1894-1904. doi: 10.1021/acs.jcim.6b00207. Epub 2016 Oct 6.
4
PDFDataExtractor: A Tool for Reading Scientific Text and Interpreting Metadata from the Typeset Literature in the Portable Document Format.PDFDataExtractor:一种从可移植文档格式中的排版文献中读取科学文本和解释元数据的工具。
J Chem Inf Model. 2022 Apr 11;62(7):1633-1643. doi: 10.1021/acs.jcim.1c01198. Epub 2022 Mar 29.
5
ChemDataExtractor 2.0: Autopopulated Ontologies for Materials Science.ChemDataExtractor 2.0:材料科学自动填充本体。
J Chem Inf Model. 2021 Sep 27;61(9):4280-4289. doi: 10.1021/acs.jcim.1c00446. Epub 2021 Sep 16.
6
BatteryDataExtractor: battery-aware text-mining software embedded with BERT models.电池数据提取器:嵌入BERT模型的电池感知文本挖掘软件。
Chem Sci. 2022 Sep 23;13(39):11487-11495. doi: 10.1039/d2sc04322j. eCollection 2022 Oct 12.
7
Parsing clinical text: how good are the state-of-the-art parsers?解析临床文本:最先进的解析器有多出色?
BMC Med Inform Decis Mak. 2015;15 Suppl 1(Suppl 1):S2. doi: 10.1186/1472-6947-15-S1-S2. Epub 2015 May 20.
8
A Design-to-Device Pipeline for Data-Driven Materials Discovery.数据驱动的材料发现的设计到器件的流水线。
Acc Chem Res. 2020 Mar 17;53(3):599-610. doi: 10.1021/acs.accounts.9b00470. Epub 2020 Feb 25.
9
Auto-generated materials database of Curie and Néel temperatures via semi-supervised relationship extraction.通过半监督关系抽取技术生成居里温度和奈尔温度的自动材料数据库。
Sci Data. 2018 Jun 19;5:180111. doi: 10.1038/sdata.2018.111.
10
Natural language processing and machine learning to enable automatic extraction and classification of patients' smoking status from electronic medical records.自然语言处理和机器学习可实现从电子病历中自动提取和分类患者的吸烟状况。
Ups J Med Sci. 2020 Nov;125(4):316-324. doi: 10.1080/03009734.2020.1792010. Epub 2020 Jul 22.

引用本文的文献

1
Self-Driving Laboratories for Chemistry and Materials Science.化学与材料科学的自动驾驶实验室
Chem Rev. 2024 Aug 28;124(16):9633-9732. doi: 10.1021/acs.chemrev.4c00055. Epub 2024 Aug 13.

本文引用的文献

1
A thermoelectric materials database auto-generated from the scientific literature using ChemDataExtractor.使用 ChemDataExtractor 从科学文献中自动生成的热电材料数据库。
Sci Data. 2022 Oct 22;9(1):648. doi: 10.1038/s41597-022-01752-1.
2
Perovskite- and Dye-Sensitized Solar-Cell Device Databases Auto-generated Using ChemDataExtractor.使用ChemDataExtractor自动生成的钙钛矿和染料敏化太阳能电池器件数据库。
Sci Data. 2022 Jun 17;9(1):329. doi: 10.1038/s41597-022-01355-w.
3
A database of refractive indices and dielectric constants auto-generated using ChemDataExtractor.
使用 ChemDataExtractor 自动生成的折射率和介电常数数据库。
Sci Data. 2022 May 3;9(1):192. doi: 10.1038/s41597-022-01295-5.
4
Auto-generated database of semiconductor band gaps using ChemDataExtractor.使用 ChemDataExtractor 自动生成半导体带隙数据库。
Sci Data. 2022 May 3;9(1):193. doi: 10.1038/s41597-022-01294-6.
5
Single Model for Organic and Inorganic Chemical Named Entity Recognition in ChemDataExtractor.在 ChemDataExtractor 中进行有机和无机化学命名实体识别的单一模型。
J Chem Inf Model. 2022 Mar 14;62(5):1207-1213. doi: 10.1021/acs.jcim.1c01199. Epub 2022 Feb 24.
6
ChemDataExtractor 2.0: Autopopulated Ontologies for Materials Science.ChemDataExtractor 2.0:材料科学自动填充本体。
J Chem Inf Model. 2021 Sep 27;61(9):4280-4289. doi: 10.1021/acs.jcim.1c00446. Epub 2021 Sep 16.
7
A database of battery materials auto-generated using ChemDataExtractor.使用 ChemDataExtractor 自动生成的电池材料数据库。
Sci Data. 2020 Aug 6;7(1):260. doi: 10.1038/s41597-020-00602-2.
8
A Design-to-Device Pipeline for Data-Driven Materials Discovery.数据驱动的材料发现的设计到器件的流水线。
Acc Chem Res. 2020 Mar 17;53(3):599-610. doi: 10.1021/acs.accounts.9b00470. Epub 2020 Feb 25.
9
Comparative dataset of experimental and computational attributes of UV/vis absorption spectra.紫外/可见吸收光谱的实验和计算属性比较数据集。
Sci Data. 2019 Dec 5;6(1):307. doi: 10.1038/s41597-019-0306-0.
10
Auto-generated materials database of Curie and Néel temperatures via semi-supervised relationship extraction.通过半监督关系抽取技术生成居里温度和奈尔温度的自动材料数据库。
Sci Data. 2018 Jun 19;5:180111. doi: 10.1038/sdata.2018.111.