• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

HunFlair:一种用于最先进生物医学命名实体识别的易于使用的工具。

HunFlair: an easy-to-use tool for state-of-the-art biomedical named entity recognition.

作者信息

Weber Leon, Sänger Mario, Münchmeyer Jannes, Habibi Maryam, Leser Ulf, Akbik Alan

机构信息

Computer Science Department, Humboldt-Universität zu Berlin, Berlin 10099, Germany.

Group Mathematical Modelling of Cellular Processes, Max Delbrück Center for Molecular Medicine in the Helmholtz Association, Berlin 13125, Germany.

出版信息

Bioinformatics. 2021 Sep 9;37(17):2792-2794. doi: 10.1093/bioinformatics/btab042.

DOI:10.1093/bioinformatics/btab042
PMID:33508086
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC8428609/
Abstract

SUMMARY

Named entity recognition (NER) is an important step in biomedical information extraction pipelines. Tools for NER should be easy to use, cover multiple entity types, be highly accurate and be robust toward variations in text genre and style. We present HunFlair, a NER tagger fulfilling these requirements. HunFlair is integrated into the widely used NLP framework Flair, recognizes five biomedical entity types, reaches or overcomes state-of-the-art performance on a wide set of evaluation corpora, and is trained in a cross-corpus setting to avoid corpus-specific bias. Technically, it uses a character-level language model pretrained on roughly 24 million biomedical abstracts and three million full texts. It outperforms other off-the-shelf biomedical NER tools with an average gain of 7.26 pp over the next best tool in a cross-corpus setting and achieves on-par results with state-of-the-art research prototypes in in-corpus experiments. HunFlair can be installed with a single command and is applied with only four lines of code. Furthermore, it is accompanied by harmonized versions of 23 biomedical NER corpora.

AVAILABILITY AND IMPLEMENTATION

HunFlair ist freely available through the Flair NLP framework (https://github.com/flairNLP/flair) under an MIT license and is compatible with all major operating systems.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

摘要

命名实体识别(NER)是生物医学信息提取流程中的重要一步。NER工具应易于使用,涵盖多种实体类型,具有高度准确性,并能应对文本体裁和风格的变化。我们展示了HunFlair,这是一个满足这些要求的NER标记器。HunFlair集成到广泛使用的自然语言处理框架Flair中,识别五种生物医学实体类型,在广泛的评估语料库上达到或超越了当前的最佳性能,并且在跨语料库设置中进行训练以避免特定语料库的偏差。从技术上讲,它使用了一个在大约2400万篇生物医学摘要和300万篇全文上预训练的字符级语言模型。在跨语料库设置中,它比其他现成的生物医学NER工具表现更优,比次优工具平均提升7.26个百分点,并且在语料库实验中与当前的最佳研究原型取得了相当的结果。HunFlair可以通过一条命令安装,并且只需四行代码即可应用。此外,它还附带了23个生物医学NER语料库的统一版本。

可用性与实现

HunFlair可通过Flair自然语言处理框架(https://github.com/flairNLP/flair)在MIT许可下免费获取,并且与所有主流操作系统兼容。

补充信息

补充数据可在《生物信息学》在线获取。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/482f/8428609/90a8c96c2dfc/btab042f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/482f/8428609/90a8c96c2dfc/btab042f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/482f/8428609/90a8c96c2dfc/btab042f1.jpg

相似文献

1
HunFlair: an easy-to-use tool for state-of-the-art biomedical named entity recognition.HunFlair:一种用于最先进生物医学命名实体识别的易于使用的工具。
Bioinformatics. 2021 Sep 9;37(17):2792-2794. doi: 10.1093/bioinformatics/btab042.
2
HunFlair2 in a cross-corpus evaluation of biomedical named entity recognition and normalization tools.HunFlair2 在生物医学命名实体识别和标准化工具的跨语料库评估中的应用。
Bioinformatics. 2024 Oct 1;40(10). doi: 10.1093/bioinformatics/btae564.
3
HUNER: improving biomedical NER with pretraining.HUNER:通过预训练改进生物医学命名实体识别。
Bioinformatics. 2020 Jan 1;36(1):295-302. doi: 10.1093/bioinformatics/btz528.
4
Deep learning with word embeddings improves biomedical named entity recognition.使用词嵌入的深度学习可改善生物医学命名实体识别。
Bioinformatics. 2017 Jul 15;33(14):i37-i48. doi: 10.1093/bioinformatics/btx228.
5
D3NER: biomedical named entity recognition using CRF-biLSTM improved with fine-tuned embeddings of various linguistic information.D3NER:基于条件随机场-双向长短期记忆网络的生物医学命名实体识别,通过各种语言信息的微调嵌入得到改进。
Bioinformatics. 2018 Oct 15;34(20):3539-3546. doi: 10.1093/bioinformatics/bty356.
6
BioBERT: a pre-trained biomedical language representation model for biomedical text mining.BioBERT:一种用于生物医学文本挖掘的预训练生物医学语言表示模型。
Bioinformatics. 2020 Feb 15;36(4):1234-1240. doi: 10.1093/bioinformatics/btz682.
7
TaggerOne: joint named entity recognition and normalization with semi-Markov Models.TaggerOne:使用半马尔可夫模型进行联合命名实体识别与归一化
Bioinformatics. 2016 Sep 15;32(18):2839-46. doi: 10.1093/bioinformatics/btw343. Epub 2016 Jun 9.
8
Dataset-aware multi-task learning approaches for biomedical named entity recognition.基于数据集的多任务学习方法在生物医学命名实体识别中的应用。
Bioinformatics. 2020 Aug 1;36(15):4331-4338. doi: 10.1093/bioinformatics/btaa515.
9
GRAM-CNN: a deep learning approach with local context for named entity recognition in biomedical text.GRAM-CNN:一种基于局部上下文的深度学习方法,用于生物医学文本中的命名实体识别。
Bioinformatics. 2018 May 1;34(9):1547-1554. doi: 10.1093/bioinformatics/btx815.
10
Improving deep learning method for biomedical named entity recognition by using entity definition information.利用实体定义信息改进生物医学命名实体识别的深度学习方法。
BMC Bioinformatics. 2021 Dec 17;22(Suppl 1):600. doi: 10.1186/s12859-021-04236-y.

引用本文的文献

1
Not Fully Synthetic: LLM-based Hybrid Approaches Towards Privacy-Preserving Clinical Note Sharing.非完全合成:基于大语言模型的隐私保护临床笔记共享混合方法。
AMIA Jt Summits Transl Sci Proc. 2025 Jun 10;2025:441-450. eCollection 2025.
2
XenoMet: A Corpus of Texts to Extract Data on Metabolites of Xenobiotics.XenoMet:用于提取异生物素代谢物数据的文本语料库。
ACS Omega. 2025 Jan 12;10(3):2459-2471. doi: 10.1021/acsomega.4c05723. eCollection 2025 Jan 28.
3
Is metadata of articles about COVID-19 enough for multilabel topic classification task?
关于 COVID-19 的文章的元数据是否足以完成多标签主题分类任务?
Database (Oxford). 2024 Oct 21;2024. doi: 10.1093/database/baae106.
4
Named entity recognition of pharmacokinetic parameters in the scientific literature.科学文献中药代动力学参数的命名实体识别。
Sci Rep. 2024 Oct 8;14(1):23485. doi: 10.1038/s41598-024-73338-3.
5
HunFlair2 in a cross-corpus evaluation of biomedical named entity recognition and normalization tools.HunFlair2 在生物医学命名实体识别和标准化工具的跨语料库评估中的应用。
Bioinformatics. 2024 Oct 1;40(10). doi: 10.1093/bioinformatics/btae564.
6
Real-world learnings for digital health industryNHS collaboration: Life sciences vision in action.数字健康产业的现实世界经验教训:英国国家医疗服务体系(NHS)的合作——生命科学愿景付诸实践。
Future Healthc J. 2024 Aug 8;11(3):100168. doi: 10.1016/j.fhj.2024.100168. eCollection 2024 Sep.
7
The overview of the BioRED (Biomedical Relation Extraction Dataset) track at BioCreative VIII.生物创意 VIII 中生物医学关系提取数据集(BioRED)赛道概述。
Database (Oxford). 2024 Aug 8;2024. doi: 10.1093/database/baae069.
8
Public data sources for regulatory genomic features.监管基因组特征的公共数据源。
Med Genet. 2021 Aug 14;33(2):167-177. doi: 10.1515/medgen-2021-2075. eCollection 2021 Jun.
9
RicePilaf: a post-GWAS/QTL dashboard to integrate pangenomic, coexpression, regulatory, epigenomic, ontology, pathway, and text-mining information to provide functional insights into rice QTLs and GWAS loci.稻米煲饭:一个后 GWAS/QTL 仪表盘,用于整合泛基因组、共表达、调控、表观基因组、本体论、通路和文本挖掘信息,为水稻 QTL 和 GWAS 基因座提供功能见解。
Gigascience. 2024 Jan 2;13. doi: 10.1093/gigascience/giae013.
10
Biomedical named entity recognition based on multi-cross attention feature fusion.基于多交叉注意力特征融合的生物医学命名实体识别。
PLoS One. 2024 May 28;19(5):e0304329. doi: 10.1371/journal.pone.0304329. eCollection 2024.