• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

使用单位本体对预先存在的元数据进行注释。

Using a units ontology to annotate pre-existing metadata.

作者信息

Porter John H, O'Brien Margaret, Frants Marina, Earl Stevan, Martin Mary, Laney Christine M

机构信息

University of Virginia, Charlottesville, Virginia, USA.

University of California, Santa Barbara, Santa Barbara, California, USA.

出版信息

Sci Data. 2025 Feb 20;12(1):304. doi: 10.1038/s41597-025-04587-8.

DOI:10.1038/s41597-025-04587-8
PMID:39979334
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC11842773/
Abstract

Automated processing of environmental data is hindered by the wide array of unit representations provided in the metadata of digital datasets. For example, gm/m2, g/m2, gm-2, g/m^2, g.m-2 and gramPerMeterSquared are all representations of a single complex unit that might be human-readable but are not machine-interpretable. Connecting ad hoc units to a single unit concept in an ontology permits the identification of datasets sharing units and provides additional information regarding labels, definitions, dimensions and transformations provided in the ontology. Here we use successive string transformations to link ad hoc unit representations to units in the QUDT ontology (e.g., unit: GM-PER-M2). Although only 896 of 7,110 distinct units in a corpus of ecological metadata from DataONE, the Environmental Data Initiative and the U.S. National Ecological Observatory Network were matched, 324,811 unit uses (instances) out of 355,057 of total unit uses were successfully mapped to QUDT units (91%). The resulting lookup table was used to enable a web service and R functions for adding annotation elements to Ecological Metadata Language documents.

摘要

数字数据集元数据中提供的大量单位表示形式阻碍了环境数据的自动化处理。例如,gm/m2、g/m2、gm-2、g/m^2、g.m-2和gramPerMeterSquared都是单个复合单位的表示形式,这些表示形式可能是人类可读的,但不是机器可解释的。在本体中将临时单位连接到单个单位概念,可以识别共享单位的数据集,并提供有关本体中提供的标签、定义、维度和转换的附加信息。在这里,我们使用连续的字符串转换将临时单位表示形式链接到QUDT本体中的单位(例如,单位:GM-PER-M2)。尽管在来自DataONE、环境数据倡议组织和美国国家生态观测网络的生态元数据语料库中的7110个不同单位中,只有896个被匹配,但在总单位使用量的355057个中,有324811个单位使用(实例)被成功映射到QUDT单位(91%)。生成的查找表用于启用一个网络服务和R函数,以便向生态元数据语言文档添加注释元素。

相似文献

1
Using a units ontology to annotate pre-existing metadata.使用单位本体对预先存在的元数据进行注释。
Sci Data. 2025 Feb 20;12(1):304. doi: 10.1038/s41597-025-04587-8.
2
NeuroBridge ontology: computable provenance metadata to give the long tail of neuroimaging data a FAIR chance for secondary use.神经桥本体:可计算的溯源元数据,为神经影像数据的长尾提供二次使用的公平机会。
Front Neuroinform. 2023 Jul 24;17:1216443. doi: 10.3389/fninf.2023.1216443. eCollection 2023.
3
Making Metadata Machine-Readable as the First Step to Providing Findable, Accessible, Interoperable, and Reusable Population Health Data: Framework Development and Implementation Study.将元数据转化为机器可读形式作为提供可查找、可访问、可互操作和可重用的人群健康数据的第一步:框架开发与实施研究
Online J Public Health Inform. 2024 Aug 1;16:e56237. doi: 10.2196/56237.
4
CEDAR OnDemand: a browser extension to generate ontology-based scientific metadata.CEDAR OnDemand:一个基于本体的科学元数据生成的浏览器扩展。
BMC Bioinformatics. 2018 Jul 16;19(1):268. doi: 10.1186/s12859-018-2247-6.
5
An open annotation ontology for science on web 3.0.用于Web 3.0科学领域的开放注释本体。
J Biomed Semantics. 2011 May 17;2 Suppl 2(Suppl 2):S4. doi: 10.1186/2041-1480-2-S2-S4.
6
Biomedical word sense disambiguation with ontologies and metadata: automation meets accuracy.利用本体和元数据进行生物医学词义消歧:自动化与准确性的结合。
BMC Bioinformatics. 2009 Jan 21;10:28. doi: 10.1186/1471-2105-10-28.
7
Annotating publicly-available samples and studies using interpretable modeling of unstructured metadata.使用非结构化元数据的可解释模型对公开可用的样本和研究进行注释。
Brief Bioinform. 2024 Nov 22;26(1). doi: 10.1093/bib/bbae652.
8
Enabling Scientific Reproducibility through FAIR Data Management: An ontology-driven deep learning approach in the NeuroBridge Project.通过 FAIR 数据管理实现科学可重复性:NeuroBridge 项目中的基于本体的深度学习方法。
AMIA Annu Symp Proc. 2023 Apr 29;2022:1135-1144. eCollection 2022.
9
Clinical MetaData ontology: a simple classification scheme for data elements of clinical data based on semantics.临床元数据本体:基于语义的临床数据数据元素的简单分类方案。
BMC Med Inform Decis Mak. 2019 Aug 20;19(1):166. doi: 10.1186/s12911-019-0877-x.
10
A System for Automated Extraction of Metadata from Scanned Documents using Layout Recognition and String Pattern Search Models.一种使用布局识别和字符串模式搜索模型从扫描文档中自动提取元数据的系统。
Archiving. 2009;1509STP:107-112.

本文引用的文献

1
The Ontology of Biological Attributes (OBA)-computational traits for the life sciences.生物属性本体论(OBA)——生命科学的计算特征。
Mamm Genome. 2023 Sep;34(3):364-378. doi: 10.1007/s00335-023-09992-1. Epub 2023 Apr 19.
2
The Environmental Data Initiative: Connecting the past to the future through data reuse.环境数据倡议组织:通过数据再利用连接过去与未来。
Ecol Evol. 2023 Jan 6;13(1):e9592. doi: 10.1002/ece3.9592. eCollection 2023 Jan.
3
Stop squandering data: make units of measurement machine-readable.停止浪费数据:使计量单位机器可读。
Nature. 2022 May;605(7909):222-224. doi: 10.1038/d41586-022-01233-w.
4
The environment ontology in 2016: bridging domains with increased scope, semantic density, and interoperation.2016年的环境本体:通过扩大范围、增加语义密度和实现互操作性来弥合各领域之间的差距。
J Biomed Semantics. 2016 Sep 23;7(1):57. doi: 10.1186/s13326-016-0097-6.
5
The ChEBI reference database and ontology for biologically relevant chemistry: enhancements for 2013.《ChEBI 参考数据库和生物学相关化学本体:2013 年的增强》
Nucleic Acids Res. 2013 Jan;41(Database issue):D456-63. doi: 10.1093/nar/gks1146. Epub 2012 Nov 24.
6
Units of measure in clinical information systems.临床信息系统中的计量单位。
J Am Med Inform Assoc. 1999 Mar-Apr;6(2):151-62. doi: 10.1136/jamia.1999.0060151.