• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

一种用于检测归因于自杀情况的死亡调查记录中不一致性的自然语言处理方法。

A natural language processing approach to detect inconsistencies in death investigation notes attributing suicide circumstances.

作者信息

Wang Song, Zhou Yiliang, Han Ziqiang, Tao Cui, Xiao Yunyu, Ding Ying, Ghosh Joydeep, Peng Yifan

机构信息

Cockrell School of Engineering, The University of Texas at Austin, Austin, TX, USA.

Population Health Sciences, Weill Cornell Medicine, New York, NY, USA.

出版信息

Commun Med (Lond). 2024 Oct 14;4(1):199. doi: 10.1038/s43856-024-00631-7.

DOI:10.1038/s43856-024-00631-7
PMID:39397053
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC11471859/
Abstract

BACKGROUND

Data accuracy is essential for scientific research and policy development. The National Violent Death Reporting System (NVDRS) data is widely used for discovering the patterns and causing factors of death. Recent studies suggested the annotation inconsistencies within the NVDRS and the potential impact on erroneous suicide-circumstance attributions.

METHODS

We present an empirical Natural Language Processing (NLP) approach to detect annotation inconsistencies and adopt a cross-validation-like paradigm to identify possible label errors. We analyzed 267,804 suicide death incidents between 2003 and 2020 from the NVDRS. We measured annotation inconsistency by the degree of changes in the F-1 score.

RESULTS

Our results show that incorporating the target state's data into training the suicide-circumstance classifier brings an increase of 5.4% to the F-1 score on the target state's test set and a decrease of 1.1% on other states' test set.

CONCLUSIONS

To conclude, we present an NLP framework to detect the annotation inconsistencies, show the effectiveness of identifying and rectifying possible label errors, and eventually propose an improvement solution to improve the coding consistency of human annotators.

摘要

背景

数据准确性对于科学研究和政策制定至关重要。国家暴力死亡报告系统(NVDRS)的数据被广泛用于发现死亡模式和成因。近期研究表明NVDRS内部存在注释不一致的情况,以及这对错误的自杀情况归因可能产生的影响。

方法

我们提出一种实证自然语言处理(NLP)方法来检测注释不一致性,并采用类似交叉验证的范式来识别可能的标签错误。我们分析了NVDRS在2003年至2020年期间的267,804起自杀死亡事件。我们通过F-1分数的变化程度来衡量注释不一致性。

结果

我们的结果表明,将目标州的数据纳入自杀情况分类器的训练中,会使目标州测试集的F-1分数提高5.4%,而其他州测试集的F-1分数则下降1.1%。

结论

总之,我们提出了一个NLP框架来检测注释不一致性,展示识别和纠正可能的标签错误的有效性,并最终提出一种改进解决方案,以提高人工注释者的编码一致性。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5c10/11471859/ee7750b53e4f/43856_2024_631_Fig6_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5c10/11471859/73a1f86c5cbd/43856_2024_631_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5c10/11471859/13d667c53c1f/43856_2024_631_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5c10/11471859/c5636cd04a0a/43856_2024_631_Fig3_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5c10/11471859/0b18992e6c61/43856_2024_631_Fig4_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5c10/11471859/4713c774080b/43856_2024_631_Fig5_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5c10/11471859/ee7750b53e4f/43856_2024_631_Fig6_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5c10/11471859/73a1f86c5cbd/43856_2024_631_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5c10/11471859/13d667c53c1f/43856_2024_631_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5c10/11471859/c5636cd04a0a/43856_2024_631_Fig3_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5c10/11471859/0b18992e6c61/43856_2024_631_Fig4_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5c10/11471859/4713c774080b/43856_2024_631_Fig5_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5c10/11471859/ee7750b53e4f/43856_2024_631_Fig6_HTML.jpg

相似文献

1
A natural language processing approach to detect inconsistencies in death investigation notes attributing suicide circumstances.一种用于检测归因于自杀情况的死亡调查记录中不一致性的自然语言处理方法。
Commun Med (Lond). 2024 Oct 14;4(1):199. doi: 10.1038/s43856-024-00631-7.
2
Surveillance for Violent Deaths - National Violent Death Reporting System, 48 States, the District of Columbia, and Puerto Rico, 2021.暴力死亡监测-2021 年全国暴力死亡报告系统,48 个州、哥伦比亚特区和波多黎各。
MMWR Surveill Summ. 2024 Jul 11;73(5):1-44. doi: 10.15585/mmwr.ss7305a1.
3
Surveillance for Violent Deaths - National Violent Death Reporting System, 48 States, the District of Columbia, and Puerto Rico, 2020.暴力死亡监测 - 全国暴力死亡报告系统,2020 年,48 个州、哥伦比亚特区和波多黎各。
MMWR Surveill Summ. 2023 May 26;72(5):1-38. doi: 10.15585/mmwr.ss7205a1.
4
Surveillance for Violent Deaths - National Violent Death Reporting System, 39 States, the District of Columbia, and Puerto Rico, 2018.暴力死亡监测 - 国家暴力死亡报告系统,2018 年,39 个州、哥伦比亚特区和波多黎各。
MMWR Surveill Summ. 2022 Jan 28;71(3):1-44. doi: 10.15585/mmwr.ss7103a1.
5
Surveillance for Violent Deaths - National Violent Death Reporting System, 42 States, the District of Columbia, and Puerto Rico, 2019.暴力死亡监测-全国暴力死亡报告系统,42 个州、哥伦比亚特区和波多黎各,2019 年。
MMWR Surveill Summ. 2022 May 20;71(6):1-40. doi: 10.15585/mmwr.ss7106a1.
6
Detecting intimate partner violence circumstance for suicide: development and validation of a tool using natural language processing and supervised machine learning in the National Violent Death Reporting System.利用自然语言处理和监督机器学习技术在国家暴力死亡报告系统中开发和验证用于自杀的亲密伴侣暴力情况检测工具。
Inj Prev. 2023 Apr;29(2):134-141. doi: 10.1136/ip-2022-044662. Epub 2022 Dec 6.
7
Surveillance for Violent Deaths - National Violent Death Reporting System, 32 States, 2016.暴力死亡监测-全国暴力死亡报告系统,32 个州,2016 年。
MMWR Surveill Summ. 2019 Oct 4;68(9):1-36. doi: 10.15585/mmwr.ss.6809a1.
8
Surveillance for Violent Deaths - National Violent Death Reporting System, 34 States, Four California Counties, the District of Columbia, and Puerto Rico, 2017.暴力死亡监测 - 国家暴力死亡报告系统,2017 年,34 个州、加利福尼亚州的 4 个县、哥伦比亚特区和波多黎各。
MMWR Surveill Summ. 2020 Dec 4;69(8):1-37. doi: 10.15585/mmwr.ss6908a1.
9
Surveillance for Violent Deaths - National Violent Death Reporting System, 27 States, 2015.暴力死亡监测 - 国家暴力死亡报告系统,27 个州,2015 年。
MMWR Surveill Summ. 2018 Sep 28;67(11):1-32. doi: 10.15585/mmwr.ss6711a1.
10
Surveillance for violent deaths - National Violent Death Reporting System, 16 states, 2010.暴力死亡监测 - 全国暴力死亡报告系统,16 个州,2010 年。
MMWR Surveill Summ. 2014 Jan 17;63(1):1-33.

引用本文的文献

1
A scoping review of natural language processing in addressing medically inaccurate information: Errors, misinformation, and hallucination.关于自然语言处理在处理医学错误信息方面的范围综述:错误、错误信息和幻觉。
J Biomed Inform. 2025 Jul 22:104866. doi: 10.1016/j.jbi.2025.104866.

本文引用的文献

1
Large language models to identify social determinants of health in electronic health records.利用大语言模型识别电子健康记录中的健康社会决定因素。
NPJ Digit Med. 2024 Jan 11;7(1):6. doi: 10.1038/s41746-023-00970-0.
2
Surveillance for Violent Deaths - National Violent Death Reporting System, 48 States, the District of Columbia, and Puerto Rico, 2020.暴力死亡监测 - 全国暴力死亡报告系统,2020 年,48 个州、哥伦比亚特区和波多黎各。
MMWR Surveill Summ. 2023 May 26;72(5):1-38. doi: 10.15585/mmwr.ss7205a1.
3
An NLP approach to identify SDoH-related circumstance and suicide crisis from death investigation narratives.
一种从死亡调查报告中识别 SDoH 相关情况和自杀危机的自然语言处理方法。
J Am Med Inform Assoc. 2023 Jul 19;30(8):1408-1417. doi: 10.1093/jamia/ocad068.
4
BioBERT: a pre-trained biomedical language representation model for biomedical text mining.BioBERT:一种用于生物医学文本挖掘的预训练生物医学语言表示模型。
Bioinformatics. 2020 Feb 15;36(4):1234-1240. doi: 10.1093/bioinformatics/btz682.