• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

美国国家合成人口数据集。

A National Synthetic Populations Dataset for the United States.

作者信息

Rineer James, Kruskamp Nicholas, Kery Caroline, Jones Kasey, Hilscher Rainer, Bobashev Georgiy

机构信息

RTI International, 3040 Cornwallis Rd., P.O. Box 12194, Research Triangle Park, NC, 27709, USA.

出版信息

Sci Data. 2025 Jan 25;12(1):144. doi: 10.1038/s41597-025-04380-7.

DOI:10.1038/s41597-025-04380-7
PMID:39863626
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC11762717/
Abstract

Geospatially explicit and statistically accurate person and household data allow researchers to study community-and neighborhood-level effects and design and test hypotheses that would otherwise not be possible without the generation of synthetic data. In this article, we demonstrate the workflow for generating spatially explicit household- and individual-level synthetic populations for the United States representing the year 2019. We use publicly available U.S. Census American Community Survey (ACS) 5-year estimates from the 2015-2019 ACS. We use Iterative Proportional Fitting (IPF) to create our synthetic population and use the resulting joint counts to sample representative households and people directly from microdata. Our dataset contains records for 120,754,708 households and 303,128,287 individuals across the United States. We spatially allocate households using the Environmental Protection Agency (EPA) Integrated Climate and Land Use Scenarios (ICLUS) project household distribution estimates to create a spatially explicit dataset. Our validation shows strong correlation with original census variables, with many categories reporting a greater than 0.99 Pearson's r correlation coefficient.

摘要

地理空间明确且统计准确的个人和家庭数据使研究人员能够研究社区和邻里层面的影响,并设计和检验假设,否则在没有生成合成数据的情况下这些假设是无法实现的。在本文中,我们展示了为代表2019年的美国生成地理空间明确的家庭和个人层面合成人口的工作流程。我们使用了2015 - 2019年美国人口普查美国社区调查(ACS)的公开可用5年估计数据。我们使用迭代比例拟合(IPF)来创建我们的合成人口,并使用所得的联合计数直接从微观数据中对有代表性的家庭和个人进行抽样。我们的数据集包含美国各地120,754,708个家庭和303,128,287个人的记录。我们使用美国环境保护局(EPA)综合气候和土地利用情景(ICLUS)项目的家庭分布估计来对家庭进行空间分配,以创建一个地理空间明确的数据集。我们的验证显示与原始普查变量有很强的相关性,许多类别报告的皮尔逊r相关系数大于0.99。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/4a89/11762717/95157ddbc898/41597_2025_4380_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/4a89/11762717/95157ddbc898/41597_2025_4380_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/4a89/11762717/95157ddbc898/41597_2025_4380_Fig2_HTML.jpg

相似文献

1
A National Synthetic Populations Dataset for the United States.美国国家合成人口数据集。
Sci Data. 2025 Jan 25;12(1):144. doi: 10.1038/s41597-025-04380-7.
2
Population allocation at the housing unit level: estimates around underground natural gas storage wells in PA, OH, NY, WV, MI, and CA.住户单元层面的人口分配:宾夕法尼亚州、俄亥俄州、纽约州、西弗吉尼亚州、密歇根州和加利福尼亚州地下天然气储存井周围的估计数。
Environ Health. 2019 Jul 8;18(1):58. doi: 10.1186/s12940-019-0497-z.
3
Disability and the household context: Findings for the United States from the public Use Microdata Sample of the American Community Survey.残疾与家庭环境:来自美国社区调查公共使用微观数据样本的美国研究结果
Front Rehabil Sci. 2022 Aug 12;3:875966. doi: 10.3389/fresc.2022.875966. eCollection 2022.
4
Folic acid supplementation and malaria susceptibility and severity among people taking antifolate antimalarial drugs in endemic areas.在流行地区,服用抗叶酸抗疟药物的人群中,叶酸补充剂与疟疾易感性和严重程度的关系。
Cochrane Database Syst Rev. 2022 Feb 1;2(2022):CD014217. doi: 10.1002/14651858.CD014217.
5
Mortality and Morbidity Effects of Long-Term Exposure to Low-Level PM, BC, NO, and O: An Analysis of European Cohorts in the ELAPSE Project.长期暴露于低水平 PM、BC、NO 和 O 对死亡率和发病率的影响:ELAPSE 项目中欧洲队列的分析。
Res Rep Health Eff Inst. 2021 Sep;2021(208):1-127.
6
Community-wide health risk assessment using geographically resolved demographic data: a synthetic population approach.基于地理位置解析人口数据的全社区健康风险评估:一种综合人口方法。
PLoS One. 2014 Jan 28;9(1):e87144. doi: 10.1371/journal.pone.0087144. eCollection 2014.
7
The shortcomings of synthetic census microdata.合成普查微观数据的缺点。
Proc Natl Acad Sci U S A. 2025 Mar 18;122(11):e2424655122. doi: 10.1073/pnas.2424655122. Epub 2025 Mar 6.
8
Environmental data and methods from the Accumulating Data to Optimally Predict Obesity Treatment (ADOPT) core measures environmental working group.来自“累积数据以优化预测肥胖治疗(ADOPT)”核心指标环境工作组的环境数据与方法。
Data Brief. 2022 Mar 2;41:108002. doi: 10.1016/j.dib.2022.108002. eCollection 2022 Apr.
9
Surveillance of health status in minority communities - Racial and Ethnic Approaches to Community Health Across the U.S. (REACH U.S.) Risk Factor Survey, United States, 2009.少数民族社区健康状况监测 - 美国全民族族裔社区健康方法(REACH US)风险因素调查,2009 年美国。
MMWR Surveill Summ. 2011 May 20;60(6):1-44.
10
Multidimensional well-being of US households at a fine spatial scale using fused household surveys.利用融合家庭调查数据,以精细的空间尺度刻画美国家庭的多维福祉。
Sci Data. 2024 Jan 29;11(1):142. doi: 10.1038/s41597-023-02788-7.

引用本文的文献

1
Magnitude and Impact of Hallucinations in Tabular Synthetic Health Data on Prognostic Machine Learning Models: Validation Study.表格合成健康数据中的幻觉对预后机器学习模型的影响程度及验证研究
J Med Internet Res. 2025 Aug 18;27:e77893. doi: 10.2196/77893.

本文引用的文献

1
Generating synthetic population for simulating the spatiotemporal dynamics of epidemics.生成用于模拟传染病时空动态的合成人群。
PLoS Comput Biol. 2024 Feb 12;20(2):e1011810. doi: 10.1371/journal.pcbi.1011810. eCollection 2024 Feb.
2
An overview of synthetic administrative data for research.合成行政数据研究概述。
Int J Popul Data Sci. 2022 May 23;7(1):1727. doi: 10.23889/ijpds.v7i1.1727. eCollection 2022.
3
A synthetic population for agent-based modelling in Canada.基于代理的加拿大综合人口模型。
Sci Data. 2023 Mar 21;10(1):148. doi: 10.1038/s41597-023-02030-4.
4
A synthetic population dataset for estimating small area health and socio-economic outcomes in Great Britain.用于估计大不列颠小范围卫生和社会经济结果的综合人口数据集。
Sci Data. 2022 Jan 20;9(1):19. doi: 10.1038/s41597-022-01124-9.
5
A Synthetic Population for Modelling the Dynamics of Infectious Disease Transmission in American Samoa.用于模拟美属萨摩亚传染病传播动力学的合成人群。
Sci Rep. 2017 Dec 1;7(1):16725. doi: 10.1038/s41598-017-17093-8.
6
Personalized medicine for prevention: can risk stratified screening decrease colorectal cancer mortality at an acceptable cost?预防的个性化医疗:风险分层筛查能否以可接受的成本降低结直肠癌死亡率?
Cancer Causes Control. 2017 Apr;28(4):299-308. doi: 10.1007/s10552-017-0864-4. Epub 2017 Feb 21.
7
FRED (a Framework for Reconstructing Epidemic Dynamics): an open-source software system for modeling infectious diseases and control strategies using census-based populations.FRED(疫情动态重构框架):一个用于使用基于人口普查的人群来模拟传染病和控制策略的开源软件系统。
BMC Public Health. 2013 Oct 8;13:940. doi: 10.1186/1471-2458-13-940.
8
Attribute Assignment to a Synthetic Population in Support of Agent-Based Disease Modeling.为基于主体的疾病建模对合成人群进行属性赋值。
Methods Rep RTI Press. 2010 Sep 1;19(1009):1-14. doi: 10.3768/rtipress.2010.mr.0019.1009.
9
National housing and impervious surface scenarios for integrated climate impact assessments.国家住房和不透水面情景综合气候影响评估。
Proc Natl Acad Sci U S A. 2010 Dec 7;107(49):20887-92. doi: 10.1073/pnas.1002096107. Epub 2010 Nov 15.
10
Modeling the cost-effectiveness of colorectal cancer screening: policy guidance based on patient preferences and compliance.结直肠癌筛查成本效益建模:基于患者偏好和依从性的政策指导
Cancer Epidemiol Biomarkers Prev. 2009 Jul;18(7):1971-8. doi: 10.1158/1055-9965.EPI-09-0083. Epub 2009 Jun 30.