Suppr超能文献

通过扩散模型可靠地生成隐私保护的合成电子健康记录时间序列。

Reliable generation of privacy-preserving synthetic electronic health record time series via diffusion models.

机构信息

Department of Computer Science, Duke University, Durham, NC 27708, United States.

Department of Electrical & Computer Engineering, Duke University, Durham, NC 27708, United States.

出版信息

J Am Med Inform Assoc. 2024 Nov 1;31(11):2529-2539. doi: 10.1093/jamia/ocae229.

Abstract

OBJECTIVE

Electronic health records (EHRs) are rich sources of patient-level data, offering valuable resources for medical data analysis. However, privacy concerns often restrict access to EHRs, hindering downstream analysis. Current EHR deidentification methods are flawed and can lead to potential privacy leakage. Additionally, existing publicly available EHR databases are limited, preventing the advancement of medical research using EHR. This study aims to overcome these challenges by generating realistic and privacy-preserving synthetic EHRs time series efficiently.

MATERIALS AND METHODS

We introduce a new method for generating diverse and realistic synthetic EHR time series data using denoizing diffusion probabilistic models. We conducted experiments on 6 databases: Medical Information Mart for Intensive Care III and IV, the eICU Collaborative Research Database (eICU), and non-EHR datasets on Stocks and Energy. We compared our proposed method with 8 existing methods.

RESULTS

Our results demonstrate that our approach significantly outperforms all existing methods in terms of data fidelity while requiring less training effort. Additionally, data generated by our method yield a lower discriminative accuracy compared to other baseline methods, indicating the proposed method can generate data with less privacy risk.

DISCUSSION

The proposed model utilizes a mixed diffusion process to generate realistic synthetic EHR samples that protect patient privacy. This method could be useful in tackling data availability issues in the field of healthcare by reducing barrier to EHR access and supporting research in machine learning for health.

CONCLUSION

The proposed diffusion model-based method can reliably and efficiently generate synthetic EHR time series, which facilitates the downstream medical data analysis. Our numerical results show the superiority of the proposed method over all other existing methods.

摘要

目的

电子健康记录 (EHR) 是患者级数据的丰富来源,为医学数据分析提供了有价值的资源。然而,隐私问题常常限制了对 EHR 的访问,阻碍了下游分析。当前的 EHR 去识别方法存在缺陷,可能导致潜在的隐私泄露。此外,现有的公开可用的 EHR 数据库有限,阻碍了使用 EHR 进行医学研究的进展。本研究旨在通过高效生成现实且隐私保护的合成 EHR 时间序列来克服这些挑战。

材料和方法

我们引入了一种使用去噪扩散概率模型生成多样化和现实的合成 EHR 时间序列数据的新方法。我们在 6 个数据库上进行了实验:重症监护医疗信息集市 III 和 IV、eICU 协作研究数据库 (eICU) 以及股票和能源的非 EHR 数据集。我们将我们提出的方法与 8 种现有方法进行了比较。

结果

我们的结果表明,在数据保真度方面,我们的方法明显优于所有现有方法,同时需要更少的训练工作量。此外,与其他基线方法相比,我们方法生成的数据判别准确率较低,表明所提出的方法可以生成隐私风险较低的数据。

讨论

所提出的模型利用混合扩散过程生成保护患者隐私的现实合成 EHR 样本。这种方法可以通过减少对 EHR 的访问障碍并支持机器学习在健康领域的研究,解决医疗保健领域的数据可用性问题。

结论

所提出的基于扩散模型的方法可以可靠且高效地生成合成 EHR 时间序列,从而促进下游医学数据分析。我们的数值结果表明,该方法优于所有其他现有方法。

相似文献

本文引用的文献

5
Synthetic data in health care: A narrative review.医疗保健中的合成数据:一篇叙述性综述。
PLOS Digit Health. 2023 Jan 6;2(1):e0000082. doi: 10.1371/journal.pdig.0000082. eCollection 2023 Jan.

文献AI研究员

20分钟写一篇综述,助力文献阅读效率提升50倍。

立即体验

用中文搜PubMed

大模型驱动的PubMed中文搜索引擎

马上搜索

文档翻译

学术文献翻译模型,支持多种主流文档格式。

立即体验