• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

DIMA:基于数据驱动的插补算法选择。

DIMA: Data-Driven Selection of an Imputation Algorithm.

机构信息

Institute of Medical Biometry and Statistics (IMBI), Institute of Medicine and Medical Center Freiburg, 79104 Freiburg im Breisgau, Germany.

Centre for Integrative Biological Signalling Studies (CIBSS), Albert-Ludwigs-Universität Freiburg, 79104 Freiburg, Germany.

出版信息

J Proteome Res. 2021 Jul 2;20(7):3489-3496. doi: 10.1021/acs.jproteome.1c00119. Epub 2021 Jun 1.

DOI:10.1021/acs.jproteome.1c00119
PMID:34062065
Abstract

Imputation is a prominent strategy when dealing with missing values (MVs) in proteomics data analysis pipelines. However, it is difficult to assess the performance of different imputation methods and varies strongly depending on data characteristics. To overcome this issue, we present the concept of a data-driven selection of an imputation algorithm (DIMA). The performance and broad applicability of DIMA are demonstrated on 142 quantitative proteomics data sets from the PRoteomics IDEntifications (PRIDE) database and on simulated data consisting of 5-50% MVs with different proportions of missing not at random and missing completely at random values. DIMA reliably suggests a high-performing imputation algorithm, which is always among the three best algorithms and results in a root mean square error difference (ΔRMSE) ≤ 10% in 80% of the cases. DIMA implementation is available in MATLAB at github.com/kreutz-lab/OmicsData and in R at github.com/kreutz-lab/DIMAR.

摘要

在蛋白质组学数据分析管道中处理缺失值 (MVs) 时,插补是一种突出的策略。然而,评估不同插补方法的性能是困难的,并且强烈依赖于数据特征。为了克服这个问题,我们提出了一种数据驱动的选择插补算法 (DIMA) 的概念。DIMA 的性能和广泛适用性在来自 PRoteomics IDEntifications (PRIDE) 数据库的 142 个定量蛋白质组学数据集和由 5-50%MV 组成的模拟数据上得到了验证,其中 MV 的缺失部分为非随机缺失和完全随机缺失,比例不同。DIMA 可靠地建议了一种高性能的插补算法,该算法始终是三种最佳算法之一,在 80%的情况下导致均方根误差差异 (ΔRMSE) ≤ 10%。DIMA 的实现可在 MATLAB 中于 github.com/kreutz-lab/OmicsData 获得,也可在 R 中于 github.com/kreutz-lab/DIMAR 获得。

相似文献

1
DIMA: Data-Driven Selection of an Imputation Algorithm.DIMA:基于数据驱动的插补算法选择。
J Proteome Res. 2021 Jul 2;20(7):3489-3496. doi: 10.1021/acs.jproteome.1c00119. Epub 2021 Jun 1.
2
ProJect: a powerful mixed-model missing value imputation method.ProJect:一种强大的混合模型缺失值插补方法。
Brief Bioinform. 2023 Jul 20;24(4). doi: 10.1093/bib/bbad233.
3
Proper imputation of missing values in proteomics datasets for differential expression analysis.蛋白质组学数据集缺失值的恰当推断用于差异表达分析。
Brief Bioinform. 2021 May 20;22(3). doi: 10.1093/bib/bbaa112.
4
A comparative study of evaluating missing value imputation methods in label-free proteomics.基于无标记蛋白质组学的缺失值插补方法评估的比较研究。
Sci Rep. 2021 Jan 19;11(1):1760. doi: 10.1038/s41598-021-81279-4.
5
Review, evaluation, and discussion of the challenges of missing value imputation for mass spectrometry-based label-free global proteomics.基于质谱的无标记全局蛋白质组学中缺失值插补挑战的综述、评估与讨论。
J Proteome Res. 2015 May 1;14(5):1993-2001. doi: 10.1021/pr501138h. Epub 2015 Apr 22.
6
Accounting for the Multiple Natures of Missing Values in Label-Free Quantitative Proteomics Data Sets to Compare Imputation Strategies.考虑无标记定量蛋白质组学数据集中缺失值的多重性质以比较插补策略。
J Proteome Res. 2016 Apr 1;15(4):1116-25. doi: 10.1021/acs.jproteome.5b00981. Epub 2016 Mar 1.
7
A Simple Optimization Workflow to Enable Precise and Accurate Imputation of Missing Values in Proteomic Data Sets.一种简单的优化工作流程,可实现蛋白质组学数据集缺失值的精确和准确插补。
J Proteome Res. 2021 Jun 4;20(6):3214-3229. doi: 10.1021/acs.jproteome.1c00070. Epub 2021 May 3.
8
Multiple Imputation Approaches Applied to the Missing Value Problem in Bottom-Up Proteomics.自下而上蛋白质组学中缺失值问题的多重插补方法。
Int J Mol Sci. 2021 Sep 6;22(17):9650. doi: 10.3390/ijms22179650.
9
Tools for statistical analysis with missing data: application to a large medical database.处理缺失数据的统计分析工具:应用于大型医学数据库
Stud Health Technol Inform. 2005;116:181-6.
10
A Review of Imputation Strategies for Isobaric Labeling-Based Shotgun Proteomics.基于等压标记的 shotgun 蛋白质组学中填补策略的综述
J Proteome Res. 2021 Jan 1;20(1):1-13. doi: 10.1021/acs.jproteome.0c00123. Epub 2020 Sep 25.

引用本文的文献

1
High performance data integration for large-scale analyses of incomplete Omic profiles using Batch-Effect Reduction Trees (BERT).使用批效应减少树(BERT)对不完整组学图谱进行大规模分析的高性能数据集成。
Nat Commun. 2025 Aug 2;16(1):7104. doi: 10.1038/s41467-025-62237-4.
2
Protein phosphatase-1 regulates the binding of filamin C to FILIP1 in cultured skeletal muscle cells under mechanical stress.蛋白磷酸酶-1 调节机械应激下培养的骨骼肌细胞中细丝蛋白 C 与 FILIP1 的结合。
Sci Rep. 2024 Nov 9;14(1):27348. doi: 10.1038/s41598-024-78953-8.
3
Pam16 and Pam18 were repurposed during Trypanosoma brucei evolution to regulate the replication of mitochondrial DNA.
Pam16 和 Pam18 在布氏锥虫的进化过程中被重新利用来调节线粒体 DNA 的复制。
PLoS Biol. 2024 Aug 15;22(8):e3002449. doi: 10.1371/journal.pbio.3002449. eCollection 2024 Aug.
4
Ageing-dependent thiol oxidation reveals early oxidation of proteins with core proteostasis functions.衰老相关的巯基氧化揭示了具有核心蛋白稳态功能的蛋白质的早期氧化。
Life Sci Alliance. 2024 Feb 21;7(5). doi: 10.26508/lsa.202302300. Print 2024 May.
5
Evaluating Proteomics Imputation Methods with Improved Criteria.评估具有改进标准的蛋白质组学插补方法。
J Proteome Res. 2023 Nov 3;22(11):3427-3438. doi: 10.1021/acs.jproteome.3c00205. Epub 2023 Oct 20.
6
Robust classification using average correlations as features (ACF).基于平均相关系数的稳健分类(ACF)。
BMC Bioinformatics. 2023 Mar 20;24(1):101. doi: 10.1186/s12859-023-05224-0.