基于序贯回归树的缺失数据多重插补法。

Multiple imputation for missing data via sequential regression trees.

机构信息

Department of Statistical Science, Duke University, Durham, North Carolina 27708, USA.

出版信息

Am J Epidemiol. 2010 Nov 1;172(9):1070-6. doi: 10.1093/aje/kwq260. Epub 2010 Sep 14.

PMID:20841346

Abstract

Multiple imputation is particularly well suited to deal with missing data in large epidemiologic studies, because typically these studies support a wide range of analyses by many data users. Some of these analyses may involve complex modeling, including interactions and nonlinear relations. Identifying such relations and encoding them in imputation models, for example, in the conditional regressions for multiple imputation via chained equations, can be daunting tasks with large numbers of categorical and continuous variables. The authors present a nonparametric approach for implementing multiple imputation via chained equations by using sequential regression trees as the conditional models. This has the potential to capture complex relations with minimal tuning by the data imputer. Using simulations, the authors demonstrate that the method can result in more plausible imputations, and hence more reliable inferences, in complex settings than the naive application of standard sequential regression imputation techniques. They apply the approach to impute missing values in data on adverse birth outcomes with more than 100 clinical and survey variables. They evaluate the imputations using posterior predictive checks with several epidemiologic analyses of interest.

摘要

多重插补特别适合处理大型流行病学研究中的缺失数据，因为这些研究通常支持许多数据使用者进行广泛的分析。其中一些分析可能涉及复杂的建模，包括交互作用和非线性关系。在通过链式方程进行多重插补的条件回归中，确定这些关系并将其编码到插补模型中，对于具有大量分类和连续变量的情况来说，可能是一项艰巨的任务。作者提出了一种非参数方法，通过使用序贯回归树作为条件模型来实现通过链式方程进行的多重插补。通过数据插补器进行最小的调整，这种方法具有捕捉复杂关系的潜力。通过模拟，作者证明在复杂环境中，该方法可以产生更合理的插补值，从而更可靠地进行推断，而不是简单地应用标准的序贯回归插补技术。他们将该方法应用于 100 多个临床和调查变量的不良出生结局数据中缺失值的插补。他们使用感兴趣的几种流行病学分析进行后验预测检查来评估插补值。

相似文献

Multiple imputation for missing data via sequential regression trees.

Am J Epidemiol. 2010 Nov 1;172(9):1070-6. doi: 10.1093/aje/kwq260. Epub 2010 Sep 14.

Multiple imputation for missing data: fully conditional specification versus multivariate normal imputation.

Am J Epidemiol. 2010 Mar 1;171(5):624-32. doi: 10.1093/aje/kwp425. Epub 2010 Jan 27.

Multiple imputation of missing dual-energy X-ray absorptiometry data in the National Health and Nutrition Examination Survey.

Stat Med. 2011 Feb 10;30(3):260-76. doi: 10.1002/sim.4080. Epub 2010 Nov 30.

[Multiple imputation of missing at random data: General points and presentation of a Monte-Carlo method].

Rev Epidemiol Sante Publique. 2009 Oct;57(5):361-72. doi: 10.1016/j.respe.2009.04.011. Epub 2009 Aug 11.

Multiple imputation for national public-use datasets and its possible application for gestational age in United States Natality files.

Paediatr Perinat Epidemiol. 2007 Sep;21 Suppl 2:97-105. doi: 10.1111/j.1365-3016.2007.00866.x.

Collateral missing value imputation: a new robust missing value estimation algorithm for microarray data.

Bioinformatics. 2005 May 15;21(10):2417-23. doi: 10.1093/bioinformatics/bti345. Epub 2005 Feb 24.

Comparison of methods of handling missing data in individual patient data meta-analyses: an empirical example on antibiotics in children with acute otitis media.

Am J Epidemiol. 2008 Mar 1;167(5):540-5. doi: 10.1093/aje/kwm341. Epub 2008 Jan 9.

Guided multiple imputation of missing data: using a subsample to strengthen the missing-at-random assumption.

Epidemiology. 2007 Mar;18(2):246-52. doi: 10.1097/01.ede.0000254708.40228.8b.

DNA microarray data imputation and significance analysis of differential expression.

Bioinformatics. 2005 Nov 15;21(22):4155-61. doi: 10.1093/bioinformatics/bti638. Epub 2005 Aug 23.

Sequential imputation for missing values.

Comput Biol Chem. 2007 Oct;31(5-6):320-7. doi: 10.1016/j.compbiolchem.2007.07.001. Epub 2007 Jul 10.

引用本文的文献

Bias and Efficiency Comparison between Multiple Imputation and Available-Case Analysis for Missing Data in Longitudinal Models.

Stat Biosci. 2025 Jun 12. doi: 10.1007/s12561-025-09493-6.

The External Validation of SACrA (Sex, Albumin, Creatinine, and APACHE II) Score for Predicting Nonemergent Renal Replacement Therapy Initiation: A Retrospective Study Based on the Medical Information Mart for Intensive Care - Version IV Database.

Cureus. 2025 Jun 26;17(6):e86834. doi: 10.7759/cureus.86834. eCollection 2025 Jun.

Comparison of imputation methods for univariate categorical longitudinal data.

Qual Quant. 2025;59(2):1767-1791. doi: 10.1007/s11135-024-02028-z. Epub 2024 Dec 26.

A comparison of various imputation algorithms for missing data.

PLoS One. 2025 May 12;20(5):e0319784. doi: 10.1371/journal.pone.0319784. eCollection 2025.

Prediction of acute and chronic kidney diseases during the post-covid-19 pandemic with machine learning models: utilizing national electronic health records in the US.

EBioMedicine. 2025 May;115:105726. doi: 10.1016/j.ebiom.2025.105726. Epub 2025 Apr 26.

Men's internet sex addiction predicts sexual objectification of women even after taking pornography consumption frequency into account.

Front Psychol. 2025 Feb 12;16:1517317. doi: 10.3389/fpsyg.2025.1517317. eCollection 2025.

Conceptual framework as a guide to choose appropriate imputation method for missing values in a clinical structured dataset.

BMC Med Res Methodol. 2025 Feb 20;25(1):43. doi: 10.1186/s12874-025-02496-3.

A novel MissForest-based missing values imputation approach with recursive feature elimination in medical applications.

BMC Med Res Methodol. 2024 Nov 8;24(1):269. doi: 10.1186/s12874-024-02392-2.

Multi-metric comparison of machine learning imputation methods with application to breast cancer survival.

BMC Med Res Methodol. 2024 Aug 30;24(1):191. doi: 10.1186/s12874-024-02305-3.

Identify the most appropriate imputation method for handling missing values in clinical structured datasets: a systematic review.

BMC Med Res Methodol. 2024 Aug 28;24(1):188. doi: 10.1186/s12874-024-02310-6.

文献AI研究员

20分钟写一篇综述，助力文献阅读效率提升50倍。

立即体验

用中文搜PubMed

大模型驱动的PubMed中文搜索引擎

马上搜索

文档翻译

学术文献翻译模型，支持多种主流文档格式。

立即体验

基于序贯回归树的缺失数据多重插补法。

Multiple imputation for missing data via sequential regression trees.

机构信息

出版信息

相似文献

引用本文的文献

文献AI研究员

用中文搜PubMed

文档翻译

Suppr 超能文献

相似文献

引用本文的文献