• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

文本到术语工具,将生物医学术语的自由文本描述映射到本体上。

The text2term tool to map free-text descriptions of biomedical terms to ontologies.

机构信息

Stanford Center for Biomedical Informatics Research, Stanford University, 3180 Porter Dr, Palo Alto, CA 94304, United States.

Center for Computational Biomedicine, Harvard Medical School, 10 Shattuck St, Boston, MA 02115, United States.

出版信息

Database (Oxford). 2024 Nov 28;2024. doi: 10.1093/database/baae119.

DOI:10.1093/database/baae119
PMID:39607847
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC11604108/
Abstract

There is an ongoing need for scalable tools to aid researchers in both retrospective and prospective standardization of discrete entity types-such as disease names, cell types, or chemicals-that are used in metadata associated with biomedical data. When metadata are not well-structured or precise, the associated data are harder to find and are often burdensome to reuse, analyze, or integrate with other datasets due to the upfront curation effort required to make the data usable-typically through retrospective standardization and cleaning of the (meta)data. With the goal of facilitating the task of standardizing metadata-either in bulk or in a one-by-one fashion, e.g. to support autocompletion of biomedical entities in forms-we have developed an open-source tool called text2term that maps free-text descriptions of biomedical entities to controlled terms in ontologies. The tool is highly configurable and can be used in multiple ways that cater to different users and expertise levels-it is available on Python Package Index and can be used programmatically as any Python package; it can also be used via a command-line interface or via our hosted, graphical user interface-based web application or by deploying a local instance of our interactive application using Docker. Database URL: https://pypi.org/project/text2term.

摘要

目前需要可扩展的工具来帮助研究人员对离散实体类型(例如疾病名称、细胞类型或化学物质)进行回溯和前瞻性标准化,这些实体类型用于与生物医学数据相关的元数据中。如果元数据结构不良或不够精确,那么相关数据就更难找到,并且由于需要进行前期整理工作才能使数据可用(通常是通过回溯标准化和清理(元)数据),因此数据通常难以重用、分析或与其他数据集集成。为了方便元数据标准化的任务(无论是批量进行还是逐个进行,例如支持在表单中自动补全生物医学实体),我们开发了一个名为 text2term 的开源工具,该工具可将生物医学实体的自由文本描述映射到本体中的受控术语。该工具具有高度可配置性,可以通过多种方式使用,以满足不同用户和专业水平的需求——它在 Python 包索引上可用,可以像任何 Python 包一样通过编程使用;也可以通过命令行界面或我们基于图形用户界面的托管网络应用程序使用,或者通过使用 Docker 部署我们的交互式应用程序的本地实例使用。数据库 URL:https://pypi.org/project/text2term。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6bb8/11604108/10df02910cc8/baae119f6.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6bb8/11604108/5670effdc257/baae119f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6bb8/11604108/3dce370dc02f/baae119f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6bb8/11604108/c8a19a92afca/baae119f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6bb8/11604108/0c3caf344865/baae119f4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6bb8/11604108/4b82adcbeddc/baae119f5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6bb8/11604108/10df02910cc8/baae119f6.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6bb8/11604108/5670effdc257/baae119f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6bb8/11604108/3dce370dc02f/baae119f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6bb8/11604108/c8a19a92afca/baae119f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6bb8/11604108/0c3caf344865/baae119f4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6bb8/11604108/4b82adcbeddc/baae119f5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6bb8/11604108/10df02910cc8/baae119f6.jpg

相似文献

1
The text2term tool to map free-text descriptions of biomedical terms to ontologies.文本到术语工具,将生物医学术语的自由文本描述映射到本体上。
Database (Oxford). 2024 Nov 28;2024. doi: 10.1093/database/baae119.
2
CEDAR OnDemand: a browser extension to generate ontology-based scientific metadata.CEDAR OnDemand:一个基于本体的科学元数据生成的浏览器扩展。
BMC Bioinformatics. 2018 Jul 16;19(1):268. doi: 10.1186/s12859-018-2247-6.
3
Ontology Development Kit: a toolkit for building, maintaining and standardizing biomedical ontologies.本体开发工具包:用于构建、维护和标准化生物医学本体的工具包。
Database (Oxford). 2022 Oct 8;2022. doi: 10.1093/database/baac087.
4
OMeta: an ontology-based, data-driven metadata tracking system.OMeta:一个基于本体论的数据驱动的元数据跟踪系统。
BMC Bioinformatics. 2019 Jan 7;20(1):8. doi: 10.1186/s12859-018-2580-9.
5
WebProtégé: a collaborative Web-based platform for editing biomedical ontologies.WebProtégé:一个基于网络的用于编辑生物医学本体的协作平台。
Bioinformatics. 2014 Aug 15;30(16):2384-5. doi: 10.1093/bioinformatics/btu256. Epub 2014 Apr 26.
6
Sequencing data discovery with MetaSeek.利用 MetaSeek 进行测序数据发现。
Bioinformatics. 2019 Nov 1;35(22):4857-4859. doi: 10.1093/bioinformatics/btz499.
7
SIFR annotator: ontology-based semantic annotation of French biomedical text and clinical notes.SIFR 标注器:基于本体论的法语生物医学文本和临床笔记的语义标注。
BMC Bioinformatics. 2018 Nov 6;19(1):405. doi: 10.1186/s12859-018-2429-2.
8
SATORI: a system for ontology-guided visual exploration of biomedical data repositories.SATORI:一个用于本体指导的生物医学数据存储库可视化探索系统。
Bioinformatics. 2018 Apr 1;34(7):1200-1207. doi: 10.1093/bioinformatics/btx739.
9
OBO Foundry in 2021: operationalizing open data principles to evaluate ontologies.2021 年的 OBO 基金会:运用开放数据原则来评估本体论。
Database (Oxford). 2021 Oct 26;2021. doi: 10.1093/database/baab069.
10
Owlready: Ontology-oriented programming in Python with automatic classification and high level constructs for biomedical ontologies.Owlready:用于生物医学本体的面向本体的Python编程,具备自动分类和高级构造。
Artif Intell Med. 2017 Jul;80:11-28. doi: 10.1016/j.artmed.2017.07.002. Epub 2017 Aug 14.

引用本文的文献

1
Annotation of biological samples data to standard ontologies with support from large language models.在大语言模型的支持下将生物样本数据注释到标准本体中。
Comput Struct Biotechnol J. 2025 May 26;27:2155-2167. doi: 10.1016/j.csbj.2025.05.020. eCollection 2025.

本文引用的文献

1
Dynamic Retrieval Augmented Generation of Ontologies using Artificial Intelligence (DRAGON-AI).基于人工智能的本体动态检索增强生成(DRAGON-AI)。
J Biomed Semantics. 2024 Oct 17;15(1):19. doi: 10.1186/s13326-024-00320-3.
2
Prediction and curation of missing biomedical identifier mappings with Biomappings.利用 Biomappings 预测和整理缺失的生物医学标识符映射。
Bioinformatics. 2023 Apr 3;39(4). doi: 10.1093/bioinformatics/btad130.
3
A Simple Standard for Sharing Ontological Mappings (SSSOM).简单本体映射共享标准(SSSOM)。
Database (Oxford). 2022 May 25;2022. doi: 10.1093/database/baac035.
4
Open Targets Platform: supporting systematic drug-target identification and prioritisation.Open Targets 平台:支持系统性药物靶点识别和优先级排序。
Nucleic Acids Res. 2021 Jan 8;49(D1):D1302-D1310. doi: 10.1093/nar/gkaa1027.
5
The CEDAR Workbench: An Ontology-Assisted Environment for Authoring Metadata that Describe Scientific Experiments.CEDAR工作台:一个用于创作描述科学实验的元数据的本体辅助环境。
Semant Web ISWC. 2017 Oct;10588:103-110. doi: 10.1007/978-3-319-68204-4_10. Epub 2017 Oct 4.
6
The variable quality of metadata about biological samples used in biomedical experiments.生物医学实验中使用的生物样本元数据的质量参差不齐。
Sci Data. 2019 Feb 19;6:190021. doi: 10.1038/sdata.2019.21.
7
Owlready: Ontology-oriented programming in Python with automatic classification and high level constructs for biomedical ontologies.Owlready:用于生物医学本体的面向本体的Python编程,具备自动分类和高级构造。
Artif Intell Med. 2017 Jul;80:11-28. doi: 10.1016/j.artmed.2017.07.002. Epub 2017 Aug 14.
8
The new NHGRI-EBI Catalog of published genome-wide association studies (GWAS Catalog).新的NHGRI-EBI已发表全基因组关联研究目录(GWAS目录)。
Nucleic Acids Res. 2017 Jan 4;45(D1):D896-D901. doi: 10.1093/nar/gkw1133. Epub 2016 Nov 29.
9
The FAIR Guiding Principles for scientific data management and stewardship.科学数据管理和保存的 FAIR 指导原则。
Sci Data. 2016 Mar 15;3:160018. doi: 10.1038/sdata.2016.18.
10
SORTA: a system for ontology-based re-coding and technical annotation of biomedical phenotype data.SORTA:一种用于生物医学表型数据的基于本体的重新编码和技术注释的系统。
Database (Oxford). 2015 Sep 18;2015. doi: 10.1093/database/bav089. Print 2015.