用于异质分块缺失数据的双层多源学习。

Bi-level multi-source learning for heterogeneous block-wise missing data.

作者信息

Xiang Shuo, Yuan Lei, Fan Wei, Wang Yalin, Thompson Paul M, Ye Jieping

机构信息

School of Computing, Informatics, and Decision Systems Engineering, Arizona State University, Tempe, AZ, USA; Center for Evolutionary Medicine and Informatics, The Biodesign Institute, Arizona State University, Tempe, AZ, USA.

Huawei Noah's Ark Lab, Hong Kong.

出版信息

Neuroimage. 2014 Nov 15;102 Pt 1:192-206. doi: 10.1016/j.neuroimage.2013.08.015. Epub 2013 Aug 27.

DOI:10.1016/j.neuroimage.2013.08.015

PMID:23988272

原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC3937297/

Abstract

Bio-imaging technologies allow scientists to collect large amounts of high-dimensional data from multiple heterogeneous sources for many biomedical applications. In the study of Alzheimer's Disease (AD), neuroimaging data, gene/protein expression data, etc., are often analyzed together to improve predictive power. Joint learning from multiple complementary data sources is advantageous, but feature-pruning and data source selection are critical to learn interpretable models from high-dimensional data. Often, the data collected has block-wise missing entries. In the Alzheimer's Disease Neuroimaging Initiative (ADNI), most subjects have MRI and genetic information, but only half have cerebrospinal fluid (CSF) measures, a different half has FDG-PET; only some have proteomic data. Here we propose how to effectively integrate information from multiple heterogeneous data sources when data is block-wise missing. We present a unified "bi-level" learning model for complete multi-source data, and extend it to incomplete data. Our major contributions are: (1) our proposed models unify feature-level and source-level analysis, including several existing feature learning approaches as special cases; (2) the model for incomplete data avoids imputing missing data and offers superior performance; it generalizes to other applications with block-wise missing data sources; (3) we present efficient optimization algorithms for modeling complete and incomplete data. We comprehensively evaluate the proposed models including all ADNI subjects with at least one of four data types at baseline: MRI, FDG-PET, CSF and proteomics. Our proposed models compare favorably with existing approaches.

摘要

生物成像技术使科学家能够从多个异构源收集大量高维数据，用于许多生物医学应用。在阿尔茨海默病（AD）的研究中，神经成像数据、基因/蛋白质表达数据等通常会被一起分析，以提高预测能力。从多个互补数据源进行联合学习具有优势，但特征修剪和数据源选择对于从高维数据中学习可解释模型至关重要。通常，收集到的数据存在分块缺失的条目。在阿尔茨海默病神经成像倡议（ADNI）中，大多数受试者有MRI和遗传信息，但只有一半有脑脊液（CSF）测量数据，另一半有FDG-PET数据；只有一些人有蛋白质组学数据。在此，我们提出当数据分块缺失时如何有效整合来自多个异构数据源的信息。我们为完整的多源数据提出了一个统一的“双层”学习模型，并将其扩展到不完整数据。我们的主要贡献包括：（1）我们提出的模型统一了特征级和源级分析，包括几种现有的特征学习方法作为特殊情况；（2）不完整数据的模型避免了对缺失数据的插补，并提供了卓越的性能；它可以推广到具有分块缺失数据源的其他应用；（3）我们提出了用于对完整和不完整数据进行建模的高效优化算法。我们全面评估了所提出的模型，包括在基线时具有四种数据类型（MRI、FDG-PET、CSF和蛋白质组学）中至少一种的所有ADNI受试者。我们提出的模型与现有方法相比具有优势。

相似文献

Bi-level multi-source learning for heterogeneous block-wise missing data.用于异质分块缺失数据的双层多源学习。

Neuroimage. 2014 Nov 15;102 Pt 1:192-206. doi: 10.1016/j.neuroimage.2013.08.015. Epub 2013 Aug 27.

Multi-source feature learning for joint analysis of incomplete multiple heterogeneous neuroimaging data.多源特征学习用于联合分析不完全的多种异质神经影像数据。

Neuroimage. 2012 Jul 2;61(3):622-32. doi: 10.1016/j.neuroimage.2012.03.059. Epub 2012 Mar 29.

Multi-Source Learning for Joint Analysis of Incomplete Multi-Modality Neuroimaging Data.用于联合分析不完整多模态神经影像数据的多源学习

KDD. 2012:1149-1157. doi: 10.1145/2339530.2339710.

Multi-task linear programming discriminant analysis for the identification of progressive MCI individuals.用于识别轻度认知障碍（MCI）进展期个体的多任务线性规划判别分析

PLoS One. 2014 May 12;9(5):e96458. doi: 10.1371/journal.pone.0096458. eCollection 2014.

Latent Representation Learning for Alzheimer's Disease Diagnosis With Incomplete Multi-Modality Neuroimaging and Genetic Data.基于不完全多模态神经影像学和遗传数据的阿尔茨海默病诊断的潜在表示学习。

IEEE Trans Med Imaging. 2019 Oct;38(10):2411-2422. doi: 10.1109/TMI.2019.2913158. Epub 2019 Apr 25.

Multi-modal multi-task learning for joint prediction of multiple regression and classification variables in Alzheimer's disease.多模态多任务学习在阿尔茨海默病中用于联合预测多个回归和分类变量。

Neuroimage. 2012 Jan 16;59(2):895-907. doi: 10.1016/j.neuroimage.2011.09.069. Epub 2011 Oct 4.

Relation-Induced Multi-Modal Shared Representation Learning for Alzheimer's Disease Diagnosis.关系诱导的多模态共享表示学习用于阿尔茨海默病诊断。

IEEE Trans Med Imaging. 2021 Jun;40(6):1632-1645. doi: 10.1109/TMI.2021.3063150. Epub 2021 Jun 1.

Diagnosis of Alzheimer's disease using hypergraph p-Laplacian regularized multi-task feature learning.利用超图 p-Laplacian 正则化多任务特征学习诊断阿尔茨海默病。

J Biomed Inform. 2023 Apr;140:104326. doi: 10.1016/j.jbi.2023.104326. Epub 2023 Mar 3.

Random forest-based similarity measures for multi-modal classification of Alzheimer's disease.基于随机森林的阿尔茨海默病多模态分类相似性度量方法。

Neuroimage. 2013 Jan 15;65:167-75. doi: 10.1016/j.neuroimage.2012.09.065. Epub 2012 Oct 4.

The Alzheimer's Disease Neuroimaging Initiative: a review of papers published since its inception.阿尔茨海默病神经影像学倡议：成立以来发表论文的综述。

Alzheimers Dement. 2013 Sep;9(5):e111-94. doi: 10.1016/j.jalz.2013.05.1769. Epub 2013 Aug 7.

引用本文的文献

A framework for block-wise missing data in multi-omics.多组学中基于块的缺失数据框架。

PLoS One. 2024 Jul 23;19(7):e0307482. doi: 10.1371/journal.pone.0307482. eCollection 2024.

Improving Regression Analysis with Imputation in a Longitudinal Study of Alzheimer's Disease.在阿尔茨海默病纵向研究中通过插补法改进回归分析

J Alzheimers Dis. 2024;99(1):263-277. doi: 10.3233/JAD-231047.

Missingness adapted group informed clustered (MAGIC)-LASSO: a novel paradigm for phenotype prediction to improve power for genetic loci discovery.缺失性适应群体信息聚类（MAGIC）-套索算法：一种用于表型预测以提高遗传位点发现效能的新范式。

Front Genet. 2023 Jul 20;14:1162690. doi: 10.3389/fgene.2023.1162690. eCollection 2023.

A Novel Transfer Learning Model for Predictive Analytics using Incomplete Multimodality Data.一种使用不完整多模态数据进行预测分析的新型迁移学习模型。

IISE Trans. 2021;53(9):1010-1022. doi: 10.1080/24725854.2020.1798569. Epub 2020 Sep 17.

Multinomial Logistic Factor Regression for Multi-source Functional Block-wise Missing Data.多源功能块式缺失数据的多项式逻辑因子回归。

Psychometrika. 2023 Sep;88(3):975-1001. doi: 10.1007/s11336-023-09918-5. Epub 2023 Jun 2.

Statistical Learning Methods for Neuroimaging Data Analysis with Applications.统计学习方法在神经影像学数据分析中的应用。

Annu Rev Biomed Data Sci. 2023 Aug 10;6:73-104. doi: 10.1146/annurev-biodatasci-020722-100353. Epub 2023 Apr 26.

Federated Learning in Health care Using Structured Medical Data.利用结构化医疗数据进行医疗保健中的联邦学习。

Adv Kidney Dis Health. 2023 Jan;30(1):4-16. doi: 10.1053/j.akdh.2022.11.007.

Disease-Image-Specific Learning for Diagnosis-Oriented Neuroimage Synthesis With Incomplete Multi-Modality Data.面向诊断导向神经影像合成的疾病影像特异性学习，采用不完全多模态数据。

IEEE Trans Pattern Anal Mach Intell. 2022 Oct;44(10):6839-6853. doi: 10.1109/TPAMI.2021.3091214. Epub 2022 Sep 15.

Improved Prediction of Cognitive Outcomes via Globally Aligned Imaging Biomarker Enrichments Over Progressions.通过全局对齐的影像生物标志物富集对进展中的认知结果进行改善预测。

IEEE Trans Biomed Eng. 2021 Nov;68(11):3336-3346. doi: 10.1109/TBME.2021.3070875. Epub 2021 Oct 19.

High-Order Laplacian Regularized Low-Rank Representation for Multimodal Dementia Diagnosis.用于多模态痴呆诊断的高阶拉普拉斯正则化低秩表示

Front Neurosci. 2021 Mar 12;15:634124. doi: 10.3389/fnins.2021.634124. eCollection 2021.

本文引用的文献

Sparse Methods for Biomedical Data.生物医学数据的稀疏方法

SIGKDD Explor. 2012 Jun 1;14(1):4-15. doi: 10.1145/2408736.2408739.

Identifying disease sensitive and quantitative trait-relevant biomarkers from multidimensional heterogeneous imaging genetics data via sparse multimodal multitask learning.通过稀疏多模态多任务学习从多维异质成像遗传学数据中识别疾病敏感和定量性状相关生物标志物。

Bioinformatics. 2012 Jun 15;28(12):i127-36. doi: 10.1093/bioinformatics/bts228.

Multi-source feature learning for joint analysis of incomplete multiple heterogeneous neuroimaging data.多源特征学习用于联合分析不完全的多种异质神经影像数据。

Neuroimage. 2012 Jul 2;61(3):622-32. doi: 10.1016/j.neuroimage.2012.03.059. Epub 2012 Mar 29.

Neuroimage. 2012 Jan 16;59(2):895-907. doi: 10.1016/j.neuroimage.2011.09.069. Epub 2011 Oct 4.

Spectral Regularization Algorithms for Learning Large Incomplete Matrices.用于学习大型不完整矩阵的谱正则化算法

J Mach Learn Res. 2010 Mar 1;11:2287-2322.

Multimodal classification of Alzheimer's disease and mild cognitive impairment.阿尔茨海默病和轻度认知障碍的多模态分类。

Neuroimage. 2011 Apr 1;55(3):856-67. doi: 10.1016/j.neuroimage.2011.01.008. Epub 2011 Jan 12.

Predictive markers for AD in a multi-modality framework: an analysis of MCI progression in the ADNI population.多模态框架中的 AD 预测标志物：ADNI 人群中 MCI 进展的分析。

Neuroimage. 2011 Mar 15;55(2):574-89. doi: 10.1016/j.neuroimage.2010.10.081. Epub 2010 Dec 10.

Penalized methods for bi-level variable selection.用于双层变量选择的惩罚方法。

Stat Interface. 2009 Jul 1;2(3):369-380. doi: 10.4310/sii.2009.v2.n3.a10.

Comparing predictors of conversion and decline in mild cognitive impairment.比较轻度认知障碍转归和衰退的预测因素。

Neurology. 2010 Jul 20;75(3):230-8. doi: 10.1212/WNL.0b013e3181e8e8b8. Epub 2010 Jun 30.

Multivariate multi-way analysis of multi-source data.多元多向多源数据分析。

Bioinformatics. 2010 Jun 15;26(12):i391-8. doi: 10.1093/bioinformatics/btq174.

文献检索

告别复杂PubMed语法，用中文像聊天一样搜索，搜遍4000万医学文献。AI智能推荐，让科研检索更轻松。

立即免费搜索

文件翻译

保留排版，准确专业，支持PDF/Word/PPT等文件格式，支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述，25分钟生成高质量综述，智能提取关键信息，辅助科研写作。

立即免费体验