基于层次共享迁移学习的生物医学命名实体识别。

Hierarchical shared transfer learning for biomedical named entity recognition.

机构信息

College of Information Science and Technology, Beijing University of Chemical Technology, Beijing, China.

School of Public Health, Peking University, Beijing, China.

出版信息

BMC Bioinformatics. 2022 Jan 4;23(1):8. doi: 10.1186/s12859-021-04551-4.

DOI:10.1186/s12859-021-04551-4

PMID:34983362

原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC8729142/

Abstract

BACKGROUND

Biomedical named entity recognition (BioNER) is a basic and important medical information extraction task to extract medical entities with special meaning from medical texts. In recent years, deep learning has become the main research direction of BioNER due to its excellent data-driven context coding ability. However, in BioNER task, deep learning has the problem of poor generalization and instability.

RESULTS

we propose the hierarchical shared transfer learning, which combines multi-task learning and fine-tuning, and realizes the multi-level information fusion between the underlying entity features and the upper data features. We select 14 datasets containing 4 types of entities for training and evaluate the model. The experimental results showed that the F1-scores of the five gold standard datasets BC5CDR-chemical, BC5CDR-disease, BC2GM, BC4CHEMD, NCBI-disease and LINNAEUS were increased by 0.57, 0.90, 0.42, 0.77, 0.98 and - 2.16 compared to the single-task XLNet-CRF model. BC5CDR-chemical, BC5CDR-disease and BC4CHEMD achieved state-of-the-art results.The reasons why LINNAEUS's multi-task results are lower than single-task results are discussed at the dataset level.

CONCLUSION

Compared with using multi-task learning and fine-tuning alone, the model has more accurate recognition ability of medical entities, and has higher generalization and stability.

摘要

背景

生物医学命名实体识别（BioNER）是从医学文本中提取具有特殊意义的医学实体的基本且重要的医学信息提取任务。近年来，由于其出色的数据驱动上下文编码能力，深度学习已成为 BioNER 的主要研究方向。然而，在 BioNER 任务中，深度学习存在泛化能力差和不稳定性的问题。

结果

我们提出了层次共享转移学习，它结合了多任务学习和微调，实现了底层实体特征和上层数据特征之间的多层次信息融合。我们选择了包含 4 种实体的 14 个数据集进行训练和评估模型。实验结果表明，在五个黄金标准数据集 BC5CDR-chemical、BC5CDR-disease、BC2GM、BC4CHEMD、NCBI-disease 和 LINNAEUS 上，F1 分数分别比单任务 XLNet-CRF 模型提高了 0.57、0.90、0.42、0.77、0.98 和 -2.16。BC5CDR-chemical、BC5CDR-disease 和 BC4CHEMD 达到了最先进的水平。在数据集层面上讨论了 LINNAEUS 的多任务结果低于单任务结果的原因。

结论

与单独使用多任务学习和微调相比，该模型对医学实体的识别能力更准确，具有更高的泛化能力和稳定性。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/afa6/8729142/437bd8824256/12859_2021_4551_Fig1_HTML.jpg

相似文献

Hierarchical shared transfer learning for biomedical named entity recognition.

BMC Bioinformatics. 2022 Jan 4;23(1):8. doi: 10.1186/s12859-021-04551-4.

Biomedical named entity recognition with the combined feature attention and fully-shared multi-task learning.

BMC Bioinformatics. 2022 Nov 3;23(1):458. doi: 10.1186/s12859-022-04994-3.

DTranNER: biomedical named entity recognition with deep learning-based label-label transition model.

BMC Bioinformatics. 2020 Feb 11;21(1):53. doi: 10.1186/s12859-020-3393-1.

BioByGANS: biomedical named entity recognition by fusing contextual and syntactic features through graph attention network in node classification framework.

BMC Bioinformatics. 2022 Nov 22;23(1):501. doi: 10.1186/s12859-022-05051-9.

Biomedical named entity recognition using BERT in the machine reading comprehension framework.

J Biomed Inform. 2021 Jun;118:103799. doi: 10.1016/j.jbi.2021.103799. Epub 2021 May 6.

Towards reliable named entity recognition in the biomedical domain.

Bioinformatics. 2020 Jan 1;36(1):280-286. doi: 10.1093/bioinformatics/btz504.

A prefix and attention map discrimination fusion guided attention for biomedical named entity recognition.

BMC Bioinformatics. 2023 Feb 8;24(1):42. doi: 10.1186/s12859-023-05172-9.

Noise Reduction Learning Based on XLNet-CRF for Biomedical Named Entity Recognition.

IEEE/ACM Trans Comput Biol Bioinform. 2023 Jan-Feb;20(1):595-605. doi: 10.1109/TCBB.2022.3157630. Epub 2023 Feb 3.

Language model based on deep learning network for biomedical named entity recognition.

Methods. 2024 Jun;226:71-77. doi: 10.1016/j.ymeth.2024.04.013. Epub 2024 Apr 17.

Dictionary-based matching graph network for biomedical named entity recognition.

Sci Rep. 2023 Dec 8;13(1):21667. doi: 10.1038/s41598-023-48564-w.

引用本文的文献

Biomedical named entity recognition using improved green anaconda-assisted Bi-GRU-based hierarchical ResNet model.

BMC Bioinformatics. 2025 Jan 30;26(1):34. doi: 10.1186/s12859-024-06008-w.

Biomedical named entity recognition based on multi-cross attention feature fusion.

PLoS One. 2024 May 28;19(5):e0304329. doi: 10.1371/journal.pone.0304329. eCollection 2024.

RT: a Retrieving and Chain-of-Thought framework for few-shot medical named entity recognition.

J Am Med Inform Assoc. 2024 Sep 1;31(9):1929-1938. doi: 10.1093/jamia/ocae095.

BioBBC: a multi-feature model that enhances the detection of biomedical entities.

Sci Rep. 2024 Apr 2;14(1):7697. doi: 10.1038/s41598-024-58334-x.

An ensemble novel architecture for Bangla Mathematical Entity Recognition (MER) using transformer based learning.

Heliyon. 2024 Feb 5;10(3):e25467. doi: 10.1016/j.heliyon.2024.e25467. eCollection 2024 Feb 15.

A Review on Electronic Health Record Text-Mining for Biomedical Name Entity Recognition in Healthcare Domain.

Healthcare (Basel). 2023 Apr 28;11(9):1268. doi: 10.3390/healthcare11091268.

AIONER: all-in-one scheme-based biomedical named entity recognition using deep learning.

Bioinformatics. 2023 May 4;39(5). doi: 10.1093/bioinformatics/btad310.

Biomedical named entity recognition based on fusion multi-features embedding.

Technol Health Care. 2023;31(S1):111-121. doi: 10.3233/THC-236011.

A prefix and attention map discrimination fusion guided attention for biomedical named entity recognition.

BMC Bioinformatics. 2023 Feb 8;24(1):42. doi: 10.1186/s12859-023-05172-9.

Extraction of knowledge graph of Covid-19 through mining of unstructured biomedical corpora.

Comput Biol Chem. 2023 Feb;102:107808. doi: 10.1016/j.compbiolchem.2022.107808. Epub 2023 Jan 2.

本文引用的文献

Mining microbe-disease interactions from literature via a transfer learning model.

BMC Bioinformatics. 2021 Sep 10;22(1):432. doi: 10.1186/s12859-021-04346-7.

TLGP: a flexible transfer learning algorithm for gene prioritization based on heterogeneous source domain.

BMC Bioinformatics. 2021 Aug 25;22(Suppl 9):274. doi: 10.1186/s12859-021-04190-9.

HunFlair: an easy-to-use tool for state-of-the-art biomedical named entity recognition.

Bioinformatics. 2021 Sep 9;37(17):2792-2794. doi: 10.1093/bioinformatics/btab042.

Dataset-aware multi-task learning approaches for biomedical named entity recognition.

Bioinformatics. 2020 Aug 1;36(15):4331-4338. doi: 10.1093/bioinformatics/btaa515.

Traditional Chinese medicine clinical records classification with BERT and domain specific corpora.

J Am Med Inform Assoc. 2019 Dec 1;26(12):1632-1636. doi: 10.1093/jamia/ocz164.

BioBERT: a pre-trained biomedical language representation model for biomedical text mining.

Bioinformatics. 2020 Feb 15;36(4):1234-1240. doi: 10.1093/bioinformatics/btz682.

Towards reliable named entity recognition in the biomedical domain.

Bioinformatics. 2020 Jan 1;36(1):280-286. doi: 10.1093/bioinformatics/btz504.

CollaboNet: collaboration of deep neural networks for biomedical named entity recognition.

BMC Bioinformatics. 2019 May 29;20(Suppl 10):249. doi: 10.1186/s12859-019-2813-6.

Cross-type biomedical named entity recognition with deep multi-task learning.

Bioinformatics. 2019 May 15;35(10):1745-1752. doi: 10.1093/bioinformatics/bty869.

Deep EHR: A Survey of Recent Advances in Deep Learning Techniques for Electronic Health Record (EHR) Analysis.

IEEE J Biomed Health Inform. 2018 Sep;22(5):1589-1604. doi: 10.1109/JBHI.2017.2767063. Epub 2017 Oct 27.

文献AI研究员

20分钟写一篇综述，助力文献阅读效率提升50倍。

立即体验

用中文搜PubMed

大模型驱动的PubMed中文搜索引擎

马上搜索

文档翻译

学术文献翻译模型，支持多种主流文档格式。

立即体验

基于层次共享迁移学习的生物医学命名实体识别。

Hierarchical shared transfer learning for biomedical named entity recognition.

机构信息

出版信息

BACKGROUND

RESULTS

CONCLUSION

背景

结果

结论

相似文献

引用本文的文献

本文引用的文献

文献AI研究员

用中文搜PubMed

文档翻译

Suppr 超能文献

相似文献

引用本文的文献

本文引用的文献