• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

生物医学文献中的生活方式因素:命名实体识别的本体和综合资源。

Lifestyle factors in the biomedical literature: an ontology and comprehensive resources for named entity recognition.

机构信息

Novo Nordisk Foundation Center for Protein Research, University of Copenhagen, Copenhagen 2200, Denmark.

Faculty of Information Technology and Computer Engineering, Azarbaijan Shahid Madani University, Tabriz, Iran.

出版信息

Bioinformatics. 2024 Nov 1;40(11). doi: 10.1093/bioinformatics/btae613.

DOI:10.1093/bioinformatics/btae613
PMID:39412443
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC11543612/
Abstract

MOTIVATION

Despite lifestyle factors (LSFs) being increasingly acknowledged in shaping individual health trajectories, particularly in chronic diseases, they have still not been systematically described in the biomedical literature. This is in part because no named entity recognition (NER) system exists, which can comprehensively detect all types of LSFs in text. The task is challenging due to their inherent diversity, lack of a comprehensive LSF classification for dictionary-based NER, and lack of a corpus for deep learning-based NER.

RESULTS

We present a novel lifestyle factor ontology (LSFO), which we used to develop a dictionary-based system for recognition and normalization of LSFs. Additionally, we introduce a manually annotated corpus for LSFs (LSF200) suitable for training and evaluation of NER systems, and use it to train a transformer-based system. Evaluating the performance of both NER systems on the corpus revealed an F-score of 64% for the dictionary-based system and 76% for the transformer-based system. Large-scale application of these systems on PubMed abstracts and PMC Open Access articles identified over 300 million mentions of LSF in the biomedical literature.

AVAILABILITY AND IMPLEMENTATION

LSFO, the annotated LSF200 corpus, and the detected LSFs in PubMed and PMC-OA articles using both NER systems, are available under open licenses via the following GitHub repository: https://github.com/EsmaeilNourani/LSFO-expansion. This repository contains links to two associated GitHub repositories and a Zenodo project related to the study. LSFO is also available at BioPortal: https://bioportal.bioontology.org/ontologies/LSFO.

摘要

动机

尽管生活方式因素(LSFs)越来越被认为是塑造个体健康轨迹的因素,尤其是在慢性病方面,但它们在生物医学文献中仍然没有得到系统的描述。这在一定程度上是因为没有命名实体识别(NER)系统能够全面检测文本中的所有类型的 LSF。由于其固有多样性、基于字典的 NER 缺乏全面的 LSF 分类以及缺乏基于深度学习的 NER 的语料库,因此这项任务具有挑战性。

结果

我们提出了一种新颖的生活方式因素本体(LSFO),我们使用它来开发基于字典的系统,用于识别和规范化 LSF。此外,我们引入了一个手动注释的 LSF 语料库(LSF200),适合用于 NER 系统的培训和评估,并使用它来训练基于转换器的系统。在语料库上评估这两个 NER 系统的性能,基于字典的系统的 F 分数为 64%,基于转换器的系统的 F 分数为 76%。这些系统在 PubMed 摘要和 PMC 开放获取文章上的大规模应用,在生物医学文献中识别出了超过 3 亿个 LSF 的提及。

可用性和实现

LSFO、带注释的 LSF200 语料库以及使用这两个 NER 系统在 PubMed 和 PMC-OA 文章中检测到的 LSF,都可以通过以下 GitHub 存储库以开放许可证获得:https://github.com/EsmaeilNourani/LSFO-expansion。该存储库包含与两个相关的 GitHub 存储库以及与该研究相关的 Zenodo 项目的链接。LSFO 也可在 BioPortal 上获得:https://bioportal.bioontology.org/ontologies/LSFO。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7abe/11543612/0f42237a467b/btae613f4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7abe/11543612/f4ebdd9c5ab1/btae613f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7abe/11543612/bc7f35357b2d/btae613f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7abe/11543612/028c037dea7b/btae613f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7abe/11543612/0f42237a467b/btae613f4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7abe/11543612/f4ebdd9c5ab1/btae613f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7abe/11543612/bc7f35357b2d/btae613f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7abe/11543612/028c037dea7b/btae613f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/7abe/11543612/0f42237a467b/btae613f4.jpg

相似文献

1
Lifestyle factors in the biomedical literature: an ontology and comprehensive resources for named entity recognition.生物医学文献中的生活方式因素:命名实体识别的本体和综合资源。
Bioinformatics. 2024 Nov 1;40(11). doi: 10.1093/bioinformatics/btae613.
2
Improving dictionary-based named entity recognition with deep learning.利用深度学习改进基于字典的命名实体识别。
Bioinformatics. 2024 Sep 1;40(Suppl 2):ii45-ii52. doi: 10.1093/bioinformatics/btae402.
3
CoNECo: a Corpus for Named Entity recognition and normalization of protein Complexes.CoNECo:一个用于蛋白质复合物命名实体识别和规范化的语料库。
Bioinform Adv. 2024 Aug 20;4(1):vbae116. doi: 10.1093/bioadv/vbae116. eCollection 2024.
4
S1000: a better taxonomic name corpus for biomedical information extraction.S1000:用于生物医学信息抽取的更好的分类学名称语料库。
Bioinformatics. 2023 Jun 1;39(6). doi: 10.1093/bioinformatics/btad369.
5
Vocabulary Matters: An Annotation Pipeline and Four Deep Learning Algorithms for Enzyme Named Entity Recognition.词汇很重要:用于酶命名实体识别的标注流水线和四个深度学习算法。
J Proteome Res. 2024 Jun 7;23(6):1915-1925. doi: 10.1021/acs.jproteome.3c00367. Epub 2024 May 11.
6
Europe PMC annotated full-text corpus for gene/proteins, diseases and organisms.欧洲 PMC 注释全文生物库,包含基因/蛋白质、疾病和生物信息。
Sci Data. 2023 Oct 19;10(1):722. doi: 10.1038/s41597-023-02617-x.
7
A method for named entity normalization in biomedical articles: application to diseases and plants.一种生物医学文章中命名实体规范化的方法:应用于疾病和植物
BMC Bioinformatics. 2017 Oct 13;18(1):451. doi: 10.1186/s12859-017-1857-8.
8
Biomedical named entity recognition using deep neural networks with contextual information.基于上下文信息的深度神经网络的生物医学命名实体识别。
BMC Bioinformatics. 2019 Dec 27;20(1):735. doi: 10.1186/s12859-019-3321-4.
9
Named entity recognition of pharmacokinetic parameters in the scientific literature.科学文献中药代动力学参数的命名实体识别。
Sci Rep. 2024 Oct 8;14(1):23485. doi: 10.1038/s41598-024-73338-3.
10
Evaluating Medical Entity Recognition in Health Care: Entity Model Quantitative Study.评估医疗保健中的实体识别:实体模型定量研究。
JMIR Med Inform. 2024 Oct 17;12:e59782. doi: 10.2196/59782.

引用本文的文献

1
LSD600: the first corpus of biomedical abstracts annotated with lifestyle-disease relations.LSD600:首个标注了生活方式与疾病关系的生物医学摘要语料库。
Database (Oxford). 2025 Jan 13;2025. doi: 10.1093/database/baae129.

本文引用的文献

1
STRING-ing together protein complexes: corpus and methods for extracting physical protein interactions from the biomedical literature.从生物医学文献中提取物理蛋白质相互作用的语料库和方法:将蛋白质复合物串联起来。
Bioinformatics. 2024 Sep 2;40(9). doi: 10.1093/bioinformatics/btae552.
2
RegulaTome: a corpus of typed, directed, and signed relations between biomedical entities in the scientific literature.RegulaTome:科学文献中生物医学实体之间的有类型、有方向和有签名的关系语料库。
Database (Oxford). 2024 Sep 12;2024. doi: 10.1093/database/baae095.
3
Improving dictionary-based named entity recognition with deep learning.
利用深度学习改进基于字典的命名实体识别。
Bioinformatics. 2024 Sep 1;40(Suppl 2):ii45-ii52. doi: 10.1093/bioinformatics/btae402.
4
The transition from genomics to phenomics in personalized population health.从个体化人群健康的基因组学到表型组学的转变。
Nat Rev Genet. 2024 Apr;25(4):286-302. doi: 10.1038/s41576-023-00674-x. Epub 2023 Dec 13.
5
Overview of DrugProt task at BioCreative VII: data and methods for large-scale text mining and knowledge graph generation of heterogenous chemical-protein relations.DrugProt 任务概述在 BioCreative VII 上:大规模文本挖掘和异构化学-蛋白质关系知识图生成的数据和方法。
Database (Oxford). 2023 Nov 28;2023. doi: 10.1093/database/baad080.
6
The DO-KB Knowledgebase: a 20-year journey developing the disease open science ecosystem.DO-KB 知识库:开发疾病开放科学生态系统的 20 年历程。
Nucleic Acids Res. 2024 Jan 5;52(D1):D1305-D1314. doi: 10.1093/nar/gkad1051.
7
Second international consensus report on gaps and opportunities for the clinical translation of precision diabetes medicine.关于精准糖尿病医学临床转化的差距与机遇的第二份国际共识报告
Nat Med. 2023 Oct;29(10):2438-2457. doi: 10.1038/s41591-023-02502-5. Epub 2023 Oct 5.
8
Lifestyle factors and clinical severity of Parkinson's disease.生活方式因素与帕金森病的临床严重程度。
Sci Rep. 2023 Jun 12;13(1):9537. doi: 10.1038/s41598-023-31531-w.
9
S1000: a better taxonomic name corpus for biomedical information extraction.S1000:用于生物医学信息抽取的更好的分类学名称语料库。
Bioinformatics. 2023 Jun 1;39(6). doi: 10.1093/bioinformatics/btad369.
10
Deep learning methods for biomedical named entity recognition: a survey and qualitative comparison.深度学习方法在生物医学命名实体识别中的应用:综述与定性比较。
Brief Bioinform. 2021 Nov 5;22(6). doi: 10.1093/bib/bbab282.