• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

通过层次自回归语言模型合成高维纵向电子健康记录。

Synthesize high-dimensional longitudinal electronic health records via hierarchical autoregressive language model.

机构信息

University of Illinois at Urbana-Champaign, 201 North Goodwin Avenue, Urbana, IL, USA.

Medisyn Inc., Las Vegas, NV, USA.

出版信息

Nat Commun. 2023 Aug 31;14(1):5305. doi: 10.1038/s41467-023-41093-0.

DOI:10.1038/s41467-023-41093-0
PMID:37652934
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC10471716/
Abstract

Synthetic electronic health records (EHRs) that are both realistic and privacy-preserving offer alternatives to real EHRs for machine learning (ML) and statistical analysis. However, generating high-fidelity EHR data in its original, high-dimensional form poses challenges for existing methods. We propose Hierarchical Autoregressive Language mOdel (HALO) for generating longitudinal, high-dimensional EHR, which preserve the statistical properties of real EHRs and can train accurate ML models without privacy concerns. HALO generates a probability density function over medical codes, clinical visits, and patient records, allowing for generating realistic EHR data without requiring variable selection or aggregation. Extensive experiments demonstrated that HALO can generate high-fidelity data with high-dimensional disease code probabilities closely mirroring (above 0.9 R correlation) real EHR data. HALO also enhances the accuracy of predictive modeling and enables downstream ML models to attain similar accuracy as models trained on genuine data.

摘要

生成既真实又能保护隐私的合成电子健康记录 (EHR) 可以为机器学习 (ML) 和统计分析提供替代真实 EHR 的选择。然而,以原始的高维形式生成高保真 EHR 数据对现有方法提出了挑战。我们提出了层次自回归语言模型 (HALO) 来生成纵向、高维的 EHR,它保留了真实 EHR 的统计特性,可以在不涉及隐私问题的情况下训练准确的 ML 模型。HALO 对医疗代码、临床就诊和患者记录生成概率密度函数,允许生成逼真的 EHR 数据,而无需进行变量选择或聚合。广泛的实验表明,HALO 可以生成具有高维疾病代码概率的高保真数据,这些概率与真实 EHR 数据非常接近 (高于 0.9 R 相关性)。HALO 还可以提高预测建模的准确性,并使下游 ML 模型能够达到与基于真实数据训练的模型相似的准确性。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/932a/10471716/201f895d76b4/41467_2023_41093_Fig4_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/932a/10471716/ceacd5ec4cc2/41467_2023_41093_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/932a/10471716/d51e26680ea9/41467_2023_41093_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/932a/10471716/dfcfb802f7be/41467_2023_41093_Fig3_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/932a/10471716/201f895d76b4/41467_2023_41093_Fig4_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/932a/10471716/ceacd5ec4cc2/41467_2023_41093_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/932a/10471716/d51e26680ea9/41467_2023_41093_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/932a/10471716/dfcfb802f7be/41467_2023_41093_Fig3_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/932a/10471716/201f895d76b4/41467_2023_41093_Fig4_HTML.jpg

相似文献

1
Synthesize high-dimensional longitudinal electronic health records via hierarchical autoregressive language model.通过层次自回归语言模型合成高维纵向电子健康记录。
Nat Commun. 2023 Aug 31;14(1):5305. doi: 10.1038/s41467-023-41093-0.
2
Synthesize Extremely High-dimensional Longitudinal Electronic Health Records via Hierarchical Autoregressive Language Model.通过分层自回归语言模型合成超高维纵向电子健康记录。
Res Sq. 2023 Mar 10:rs.3.rs-2644725. doi: 10.21203/rs.3.rs-2644725/v1.
3
Reliable generation of privacy-preserving synthetic electronic health record time series via diffusion models.通过扩散模型可靠地生成隐私保护的合成电子健康记录时间序列。
J Am Med Inform Assoc. 2024 Nov 1;31(11):2529-2539. doi: 10.1093/jamia/ocae229.
4
Generating sequential electronic health records using dual adversarial autoencoder.使用对偶对抗自动编码器生成连续的电子健康记录。
J Am Med Inform Assoc. 2020 Jul 1;27(9):1411-1419. doi: 10.1093/jamia/ocaa119.
5
EHR-Safe: generating high-fidelity and privacy-preserving synthetic electronic health records.EHR-Safe:生成高保真且保护隐私的合成电子健康记录。
NPJ Digit Med. 2023 Aug 11;6(1):141. doi: 10.1038/s41746-023-00888-7.
6
Privacy preserving Generative Adversarial Networks to model Electronic Health Records.用于建模电子健康记录的隐私保护生成对抗网络。
Neural Netw. 2022 Sep;153:339-348. doi: 10.1016/j.neunet.2022.06.022. Epub 2022 Jun 25.
7
On the evaluation of synthetic longitudinal electronic health records.关于综合纵向电子健康记录的评估。
BMC Med Res Methodol. 2024 Aug 14;24(1):181. doi: 10.1186/s12874-024-02304-4.
8
Automated feature selection of predictors in electronic medical records data.电子病历数据中预测指标的自动特征选择
Biometrics. 2019 Mar;75(1):268-277. doi: 10.1111/biom.12987. Epub 2019 Apr 2.
9
A method for cohort selection of cardiovascular disease records from an electronic health record system.一种从电子健康记录系统中选择心血管疾病记录队列的方法。
Int J Med Inform. 2017 Jun;102:138-149. doi: 10.1016/j.ijmedinf.2017.03.015. Epub 2017 Mar 30.
10
Harmonized representation learning on dynamic EHR graphs.动态电子健康记录图上的协调表示学习。
J Biomed Inform. 2020 Jun;106:103426. doi: 10.1016/j.jbi.2020.103426. Epub 2020 Apr 25.

引用本文的文献

1
A perspective for adapting generalist AI to specialized medical AI applications and their challenges.将通用人工智能应用于专业医学人工智能应用的前景及其挑战。
NPJ Digit Med. 2025 Jul 11;8(1):429. doi: 10.1038/s41746-025-01789-7.
2
Multi-class subarachnoid hemorrhage severity prediction: addressing challenges in predicting rare outcomes.多类别蛛网膜下腔出血严重程度预测:应对罕见结局预测中的挑战。
Neurosurg Rev. 2025 Jul 10;48(1):554. doi: 10.1007/s10143-025-03678-9.
3
MediSim: Multi-granular simulation for enriching longitudinal, multi-modal electronic health records.

本文引用的文献

1
Generating synthetic mixed-type longitudinal electronic health records for artificial intelligent applications.为人工智能应用生成合成混合型纵向电子健康记录。
NPJ Digit Med. 2023 May 27;6(1):98. doi: 10.1038/s41746-023-00834-7.
2
A Multifaceted benchmarking of synthetic electronic health record generation models.综合电子健康记录生成模型的多方面基准测试。
Nat Commun. 2022 Dec 9;13(1):7609. doi: 10.1038/s41467-022-35295-1.
3
The National COVID Cohort Collaborative: Analyses of Original and Computationally Derived Electronic Health Record Data.
MediSim:用于丰富纵向多模态电子健康记录的多粒度模拟。
Patterns (N Y). 2025 May 8;6(6):101261. doi: 10.1016/j.patter.2025.101261. eCollection 2025 Jun 13.
4
Generating synthetic electronic health record data: a methodological scoping review with benchmarking on phenotype data and open-source software.生成合成电子健康记录数据:一项关于表型数据和开源软件基准测试的方法学范围综述
J Am Med Inform Assoc. 2025 Jul 1;32(7):1227-1240. doi: 10.1093/jamia/ocaf082.
5
A review on generative AI models for synthetic medical text, time series, and longitudinal data.关于用于合成医学文本、时间序列和纵向数据的生成式人工智能模型的综述。
NPJ Digit Med. 2025 May 15;8(1):281. doi: 10.1038/s41746-024-01409-w.
6
Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models.通过预测扩散模型合成多模态电子健康记录
KDD. 2024 Aug;2024:4607-4618. doi: 10.1145/3637528.3671836. Epub 2024 Aug 24.
7
Advancing Clinical Information Systems: Harnessing Telemedicine, Data Science, and AI for Enhanced and More Precise Healthcare Delivery.推进临床信息系统:利用远程医疗、数据科学和人工智能实现更高效、精准的医疗服务。
Yearb Med Inform. 2024 Aug;33(1):115-122. doi: 10.1055/s-0044-1800730. Epub 2025 Apr 8.
8
Improving medical machine learning models with generative balancing for equity and excellence.通过生成式平衡提升医学机器学习模型,以实现公平与卓越。
NPJ Digit Med. 2025 Feb 14;8(1):100. doi: 10.1038/s41746-025-01438-z.
9
Synthetic Health Data: Real Ethical Promise and Peril.合成健康数据:真实的伦理承诺与危险。
Hastings Cent Rep. 2024 Sep;54(5):8-13. doi: 10.1002/hast.4911.
10
Reliable generation of privacy-preserving synthetic electronic health record time series via diffusion models.通过扩散模型可靠地生成隐私保护的合成电子健康记录时间序列。
J Am Med Inform Assoc. 2024 Nov 1;31(11):2529-2539. doi: 10.1093/jamia/ocae229.
国家 COVID 队列协作组:原始和计算衍生电子健康记录数据的分析。
J Med Internet Res. 2021 Oct 4;23(10):e30697. doi: 10.2196/30697.
4
Generating Electronic Health Records with Multiple Data Types and Constraints.生成具有多种数据类型和约束的电子健康记录。
AMIA Annu Symp Proc. 2021 Jan 25;2020:1335-1344. eCollection 2020.
5
DDL: Deep Dictionary Learning for Predictive Phenotyping.DDL:用于预测性表型分析的深度字典学习
IJCAI (U S). 2019 Aug;2019:5857-5863. doi: 10.24963/ijcai.2019/812.
6
GRAM: Graph-based Attention Model for Healthcare Representation Learning.GRAM:用于医疗保健表示学习的基于图的注意力模型。
KDD. 2017 Aug;2017:787-795. doi: 10.1145/3097983.3098126.
7
Generating high-fidelity synthetic patient data for assessing machine learning healthcare software.生成用于评估机器学习医疗软件的高保真合成患者数据。
NPJ Digit Med. 2020 Nov 9;3(1):147. doi: 10.1038/s41746-020-00353-9.
8
SynTEG: a framework for temporal structured electronic health data simulation.SynTEG:用于时间结构化电子健康数据模拟的框架。
J Am Med Inform Assoc. 2021 Mar 1;28(3):596-604. doi: 10.1093/jamia/ocaa262.
9
Ensuring electronic medical record simulation through better training, modeling, and evaluation.通过更好的培训、建模和评估来确保电子病历模拟。
J Am Med Inform Assoc. 2020 Jan 1;27(1):99-108. doi: 10.1093/jamia/ocz161.
10
Multitask learning and benchmarking with clinical time series data.多任务学习与临床时间序列数据的基准测试。
Sci Data. 2019 Jun 17;6(1):96. doi: 10.1038/s41597-019-0103-9.