• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

使用放射学报告对语境和非语境词嵌入进行内在评估。

Intrinsic Evaluation of Contextual and Non-contextual Word Embeddings using Radiology Reports.

机构信息

US Dept. of Veterans Affairs, Nashville, TN.

Vanderbilt University, Nasvhille, TN.

出版信息

AMIA Annu Symp Proc. 2022 Feb 21;2021:631-640. eCollection 2021.

PMID:35308988
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC8861761/
Abstract

Many clinical natural language processing methods rely on non-contextual word embedding (NCWE) or contextual word embedding (CWE) models. Yet, few, if any, intrinsic evaluation benchmarks exist comparing embedding representations against clinician judgment. We developed intrinsic evaluation tasks for embedding models using a corpus of radiology reports: term pair similarity for NCWEs and cloze task accuracy for CWEs. Using surveys, we quantified the agreement between clinician judgment and embedding model representations. We compare embedding models trained on a custom radiology report corpus (RRC), a general corpus, and PubMed and MIMIC-III corpora (P&MC). Cloze task accuracy was equivalent for RRC and P&MC models. For term pair similarity, P&MC-trained NCWEs outperformed all other NCWE models (ρ 0.61 vs. 0.27-0.44). Among models trained on RRC, fastText models often outperformed other NCWE models and spherical embeddings provided overly optimistic representations of term pair similarity.

摘要

许多临床自然语言处理方法依赖于非语境词嵌入 (NCWE) 或语境词嵌入 (CWE) 模型。然而,几乎没有内在评估基准可以将嵌入表示与临床医生的判断进行比较。我们使用放射学报告语料库开发了嵌入模型的内在评估任务:NCWE 的术语对相似性和 CWE 的 cloze 任务准确性。我们使用调查量化了临床医生判断和嵌入模型表示之间的一致性。我们比较了在定制放射学报告语料库 (RRC)、一般语料库以及 PubMed 和 MIMIC-III 语料库 (P&MC) 上训练的嵌入模型。RRC 和 P&MC 模型的 cloze 任务准确性相当。对于术语对相似性,P&MC 训练的 NCWE 优于所有其他 NCWE 模型(ρ 0.61 与 0.27-0.44)。在 RRC 上训练的模型中,fastText 模型通常优于其他 NCWE 模型,而球形嵌入提供了过于乐观的术语对相似性表示。

相似文献

1
Intrinsic Evaluation of Contextual and Non-contextual Word Embeddings using Radiology Reports.使用放射学报告对语境和非语境词嵌入进行内在评估。
AMIA Annu Symp Proc. 2022 Feb 21;2021:631-640. eCollection 2021.
2
A comparison of word embeddings for the biomedical natural language processing.生物医学自然语言处理中词嵌入的比较。
J Biomed Inform. 2018 Nov;87:12-20. doi: 10.1016/j.jbi.2018.09.008. Epub 2018 Sep 12.
3
Domain specific word embeddings for natural language processing in radiology.用于放射学自然语言处理的特定领域词嵌入
J Biomed Inform. 2021 Jan;113:103665. doi: 10.1016/j.jbi.2020.103665. Epub 2020 Dec 15.
4
Enhancing clinical concept extraction with contextual embeddings.利用上下文嵌入增强临床概念提取。
J Am Med Inform Assoc. 2019 Nov 1;26(11):1297-1304. doi: 10.1093/jamia/ocz096.
5
The Impact of Specialized Corpora for Word Embeddings in Natural Langage Understanding.专业语料库对自然语言理解中词嵌入的影响。
Stud Health Technol Inform. 2020 Jun 16;270:432-436. doi: 10.3233/SHTI200197.
6
Visualization of medical concepts represented using word embeddings: a scoping review.基于词向量表示的医学概念可视化:范围综述。
BMC Med Inform Decis Mak. 2022 Mar 29;22(1):83. doi: 10.1186/s12911-022-01822-9.
7
Use of word and graph embedding to measure semantic relatedness between Unified Medical Language System concepts.使用词和图嵌入来衡量统一医学语言系统概念之间的语义相关性。
J Am Med Inform Assoc. 2020 Oct 1;27(10):1538-1546. doi: 10.1093/jamia/ocaa136.
8
Word embeddings trained on published case reports are lightweight, effective for clinical tasks, and free of protected health information.基于已发表病例报告训练的词嵌入模型轻巧、适用于临床任务且不包含受保护的健康信息。
J Biomed Inform. 2022 Jan;125:103971. doi: 10.1016/j.jbi.2021.103971. Epub 2021 Dec 14.
9
A Study of Neural Word Embeddings for Named Entity Recognition in Clinical Text.用于临床文本中命名实体识别的神经词嵌入研究
AMIA Annu Symp Proc. 2015 Nov 5;2015:1326-33. eCollection 2015.
10
Projection Word Embedding Model With Hybrid Sampling Training for Classifying ICD-10-CM Codes: Longitudinal Observational Study.用于对ICD-10-CM编码进行分类的混合采样训练投影词嵌入模型:纵向观察研究
JMIR Med Inform. 2019 Jul 23;7(3):e14499. doi: 10.2196/14499.

本文引用的文献

1
Differential Documentation of Race in the First Line of the History of Present Illness.在现病史首行记录种族差异。
JAMA Intern Med. 2021 Mar 1;181(3):386-388. doi: 10.1001/jamainternmed.2020.5792.
2
The REDCap consortium: Building an international community of software platform partners.REDCap 联盟:构建软件平台合作伙伴的国际社区。
J Biomed Inform. 2019 Jul;95:103208. doi: 10.1016/j.jbi.2019.103208. Epub 2019 May 9.
3
BioWordVec, improving biomedical word embeddings with subword information and MeSH.BioWordVec,利用子词信息和 MeSH 改进生物医学词向量。
Sci Data. 2019 May 10;6(1):52. doi: 10.1038/s41597-019-0055-0.
4
Intelligent Word Embeddings of Free-Text Radiology Reports.自由文本放射学报告的智能词嵌入
AMIA Annu Symp Proc. 2018 Apr 16;2017:411-420. eCollection 2017.
5
Extracting similar terms from multiple EMR-based semantic embeddings to support chart reviews.从多个基于 EMR 的语义嵌入中提取相似术语,以支持图表审查。
J Biomed Inform. 2018 Jul;83:63-72. doi: 10.1016/j.jbi.2018.05.014. Epub 2018 May 22.
6
Expanding a radiology lexicon using contextual patterns in radiology reports.利用放射科报告中的上下文模式扩展放射学词汇。
J Am Med Inform Assoc. 2018 Jun 1;25(6):679-685. doi: 10.1093/jamia/ocx152.
7
Corpus domain effects on distributional semantic modeling of medical terms.语料库领域对医学术语分布语义建模的影响。
Bioinformatics. 2016 Dec 1;32(23):3635-3644. doi: 10.1093/bioinformatics/btw529. Epub 2016 Aug 16.
8
MIMIC-III, a freely accessible critical care database.MIMIC-III,一个免费获取的重症监护数据库。
Sci Data. 2016 May 24;3:160035. doi: 10.1038/sdata.2016.35.
9
Secondary use of clinical data: the Vanderbilt approach.临床数据的二次利用:范德比尔特方法
J Biomed Inform. 2014 Dec;52:28-35. doi: 10.1016/j.jbi.2014.02.003. Epub 2014 Feb 14.
10
Semantic similarity in the biomedical domain: an evaluation across knowledge sources.生物医学领域的语义相似度:跨知识源的评估。
BMC Bioinformatics. 2012 Oct 10;13:261. doi: 10.1186/1471-2105-13-261.