• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

通过条件独立性对临床文本进行上下文敏感的拼写校正

Context-Sensitive Spelling Correction of Clinical Text via Conditional Independence.

作者信息

Kim Juyong, Weiss Jeremy C, Ravikumar Pradeep

机构信息

Machine Learning Department, Carnegie Mellon University, Pittsburgh, PA 15213.

Heinz College of Information Systems and Public Policy, Carnegie Mellon University, Pittsburgh, PA 15213.

出版信息

Proc Mach Learn Res. 2022 Apr;174:234-247.

PMID:38665367
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC11044887/
Abstract

Spelling correction is a particularly important problem in clinical natural language processing because of the abundant occurrence of misspellings in medical records. However, the scarcity of labeled datasets in a clinical context makes it hard to build a machine learning system for such clinical spelling correction. In this work, we present a probabilistic model of correcting misspellings based on a simple conditional independence assumption, which leads to a modular decomposition into a language model and a corruption model. With a deep character-level language model trained on a large clinical corpus, and a simple edit-based corruption model, we can build a spelling correction model with small or no real data. Experimental results show that our model significantly outperforms baselines on two healthcare spelling correction datasets.

摘要

在临床自然语言处理中,拼写纠错是一个尤为重要的问题,因为医疗记录中存在大量拼写错误。然而,临床环境中标注数据集的稀缺使得难以构建用于此类临床拼写纠错的机器学习系统。在这项工作中,我们基于一个简单的条件独立性假设提出了一种纠正拼写错误的概率模型,该模型可模块化分解为语言模型和错误生成模型。通过在大型临床语料库上训练的深度字符级语言模型以及简单的基于编辑的错误生成模型,我们可以构建一个几乎不需要真实数据的拼写纠错模型。实验结果表明,我们的模型在两个医疗拼写纠错数据集上显著优于基线模型。

相似文献

1
Context-Sensitive Spelling Correction of Clinical Text via Conditional Independence.通过条件独立性对临床文本进行上下文敏感的拼写校正
Proc Mach Learn Res. 2022 Apr;174:234-247.
2
An efficient prototype method to identify and correct misspellings in clinical text.一种用于识别和纠正临床文本中拼写错误的高效原型方法。
BMC Res Notes. 2019 Jan 18;12(1):42. doi: 10.1186/s13104-019-4073-y.
3
Similarity-Based Unsupervised Spelling Correction Using BioWordVec: Development and Usability Study of Bacterial Culture and Antimicrobial Susceptibility Reports.使用BioWordVec的基于相似度的无监督拼写校正:细菌培养和药敏报告的开发与可用性研究
JMIR Med Inform. 2021 Feb 22;9(2):e25530. doi: 10.2196/25530.
4
Improving the quality of Persian clinical text with a novel spelling correction system.利用新型拼写纠错系统提高波斯语临床文本质量。
BMC Med Inform Decis Mak. 2024 Aug 5;24(1):220. doi: 10.1186/s12911-024-02613-0.
5
Improving Terminology Mapping in Clinical Text with Context-Sensitive Spelling Correction.通过上下文敏感拼写校正改进临床文本中的术语映射
Stud Health Technol Inform. 2017;235:241-245.
6
Automated misspelling detection and correction in clinical free-text records.临床自由文本记录中的自动拼写错误检测与纠正
J Biomed Inform. 2015 Jun;55:188-95. doi: 10.1016/j.jbi.2015.04.008. Epub 2015 Apr 24.
7
An Ensemble Method for Spelling Correction in Consumer Health Questions.一种用于消费者健康问题拼写纠正的集成方法。
AMIA Annu Symp Proc. 2015 Nov 5;2015:727-36. eCollection 2015.
8
An unsupervised and customizable misspelling generator for mining noisy health-related text sources.一种用于挖掘噪声健康相关文本源的无监督和可定制的拼写错误生成器。
J Biomed Inform. 2018 Dec;88:98-107. doi: 10.1016/j.jbi.2018.11.007. Epub 2018 Nov 13.
9
Assessing the feasibility of large-scale natural language processing in a corpus of ordinary medical records: a lexical analysis.评估在普通病历语料库中进行大规模自然语言处理的可行性:词汇分析
Proc AMIA Annu Fall Symp. 1997:580-4.
10
Using lexical disambiguation and named-entity recognition to improve spelling correction in the electronic patient record.利用词汇消歧和命名实体识别改善电子病历中的拼写校正。
Artif Intell Med. 2003 Sep-Oct;29(1-2):169-84. doi: 10.1016/s0933-3657(03)00052-6.

引用本文的文献

1
Term-BLAST-like alignment tool for concept recognition in noisy clinical texts.用于嘈杂临床文本中概念识别的 Term-BLAST 样对齐工具。
Bioinformatics. 2023 Dec 1;39(12). doi: 10.1093/bioinformatics/btad716.

本文引用的文献

1
Spell checker for consumer language (CSpell).消费者语言拼写检查器(CSpell)。
J Am Med Inform Assoc. 2019 Mar 1;26(3):211-218. doi: 10.1093/jamia/ocy171.
2
MIMIC-III, a freely accessible critical care database.MIMIC-III,一个免费获取的重症监护数据库。
Sci Data. 2016 May 24;3:160035. doi: 10.1038/sdata.2016.35.
3
Automated misspelling detection and correction in clinical free-text records.临床自由文本记录中的自动拼写错误检测与纠正
J Biomed Inform. 2015 Jun;55:188-95. doi: 10.1016/j.jbi.2015.04.008. Epub 2015 Apr 24.
4
A UMLS-based spell checker for natural language processing in vaccine safety.一种基于统一医学语言系统的疫苗安全性自然语言处理拼写检查器。
BMC Med Inform Decis Mak. 2007 Feb 12;7:3. doi: 10.1186/1472-6947-7-3.
5
PhysioNet: a research resource for studies of complex physiologic and biomedical signals.生理信号网:一个用于研究复杂生理和生物医学信号的研究资源。
Comput Cardiol. 2000;27:179-82.
6
Using lexical disambiguation and named-entity recognition to improve spelling correction in the electronic patient record.利用词汇消歧和命名实体识别改善电子病历中的拼写校正。
Artif Intell Med. 2003 Sep-Oct;29(1-2):169-84. doi: 10.1016/s0933-3657(03)00052-6.