• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

选择提升:一种增强变量选择方法性能的通用算法。

selectBoost: a general algorithm to enhance the performance of variable selection methods.

机构信息

Institut de Recherche Mathématique Avancée, CNRS UMR 7501, Labex IRMIA, Université de Strasbourg, Strasbourg, France.

Université de Technologie de Troyes, ICD, ROSAS, M2S, Troyes, France.

出版信息

Bioinformatics. 2021 May 5;37(5):659-668. doi: 10.1093/bioinformatics/btaa855.

DOI:10.1093/bioinformatics/btaa855
PMID:33016991
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC8097688/
Abstract

MOTIVATION

With the growth of big data, variable selection has become one of the critical challenges in statistics. Although many methods have been proposed in the literature, their performance in terms of recall (sensitivity) and precision (predictive positive value) is limited in a context where the number of variables by far exceeds the number of observations or in a highly correlated setting.

RESULTS

In this article, we propose a general algorithm, which improves the precision of any existing variable selection method. This algorithm is based on highly intensive simulations and takes into account the correlation structure of the data. Our algorithm can either produce a confidence index for variable selection or be used in an experimental design planning perspective. We demonstrate the performance of our algorithm on both simulated and real data. We then apply it in two different ways to improve biological network reverse-engineering.

AVAILABILITY AND IMPLEMENTATION

Code is available as the SelectBoost package on the CRAN, https://cran.r-project.org/package=SelectBoost. Some network reverse-engineering functionalities are available in the Patterns CRAN package, https://cran.r-project.org/package=Patterns.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

随着大数据的增长,变量选择已成为统计学中的关键挑战之一。尽管文献中已经提出了许多方法,但在变量数量远远超过观测值的情况下,或者在高度相关的情况下,它们在召回率(灵敏度)和精度(预测阳性值)方面的性能受到限制。

结果

在本文中,我们提出了一种通用算法,该算法可提高任何现有变量选择方法的精度。该算法基于高度密集的模拟,并考虑了数据的相关结构。我们的算法可以为变量选择生成置信指数,也可以用于实验设计规划的角度。我们在模拟和真实数据上展示了我们算法的性能。然后,我们以两种不同的方式将其应用于改进生物网络反向工程。

可用性和实现

代码作为 SelectBoost 包在 CRAN 上可用,https://cran.r-project.org/package=SelectBoost。Patterns CRAN 包中提供了一些网络反向工程功能,https://cran.r-project.org/package=Patterns。

补充信息

补充数据可在 Bioinformatics 在线获得。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0ae5/8097688/41651dc904da/btaa855f7.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0ae5/8097688/bf662d09e6a2/btaa855f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0ae5/8097688/906f6fd3c9a0/btaa855f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0ae5/8097688/80fb05d14454/btaa855f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0ae5/8097688/9278636d87ce/btaa855f4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0ae5/8097688/a5d3eb9bc289/btaa855f5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0ae5/8097688/7ea9036856e5/btaa855f6.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0ae5/8097688/41651dc904da/btaa855f7.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0ae5/8097688/bf662d09e6a2/btaa855f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0ae5/8097688/906f6fd3c9a0/btaa855f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0ae5/8097688/80fb05d14454/btaa855f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0ae5/8097688/9278636d87ce/btaa855f4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0ae5/8097688/a5d3eb9bc289/btaa855f5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0ae5/8097688/7ea9036856e5/btaa855f6.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0ae5/8097688/41651dc904da/btaa855f7.jpg

相似文献

1
selectBoost: a general algorithm to enhance the performance of variable selection methods.选择提升:一种增强变量选择方法性能的通用算法。
Bioinformatics. 2021 May 5;37(5):659-668. doi: 10.1093/bioinformatics/btaa855.
2
Knockoff boosted tree for model-free variable selection.无模型变量选择的仿射提升树。
Bioinformatics. 2021 May 17;37(7):976-983. doi: 10.1093/bioinformatics/btaa770.
3
Spathial: an R package for the evolutionary analysis of biological data.Spathial:用于生物数据进化分析的 R 包。
Bioinformatics. 2020 Nov 1;36(17):4664-4667. doi: 10.1093/bioinformatics/btaa273.
4
Deviance residuals-based sparse PLS and sparse kernel PLS regression for censored data.基于偏差残差的稀疏偏最小二乘和稀疏核偏最小二乘回归用于删失数据。
Bioinformatics. 2015 Feb 1;31(3):397-404. doi: 10.1093/bioinformatics/btu660. Epub 2014 Oct 6.
5
RMTL: an R library for multi-task learning.RMTL:一个用于多任务学习的 R 库。
Bioinformatics. 2019 May 15;35(10):1797-1798. doi: 10.1093/bioinformatics/bty831.
6
Bayesian network feature finder (BANFF): an R package for gene network feature selection.贝叶斯网络特征查找器(BANFF):一个用于基因网络特征选择的R包。
Bioinformatics. 2016 Dec 1;32(23):3685-3687. doi: 10.1093/bioinformatics/btw522. Epub 2016 Aug 8.
7
Stable Iterative Variable Selection.稳定迭代变量选择。
Bioinformatics. 2021 Dec 11;37(24):4810-4817. doi: 10.1093/bioinformatics/btab501.
8
Poisson hurdle model-based method for clustering microbiome features.基于泊松 hurdle 模型的微生物组特征聚类方法。
Bioinformatics. 2023 Jan 1;39(1). doi: 10.1093/bioinformatics/btac782.
9
An R package VIGoR for joint estimation of multiple linear learners with variational Bayesian inference.一个用于使用变分贝叶斯推断联合估计多个线性学习者的 R 包 VIGoR。
Bioinformatics. 2022 Jun 13;38(12):3306-3309. doi: 10.1093/bioinformatics/btac328.
10
Rediscover: an R package to identify mutually exclusive mutations.Rediscover:一个用于识别互斥突变的 R 包。
Bioinformatics. 2022 Jan 12;38(3):844-845. doi: 10.1093/bioinformatics/btab709.

引用本文的文献

1
Temporal multiomic modeling reveals a B-cell receptor proliferative program in chronic lymphocytic leukemia.时间多组学建模揭示慢性淋巴细胞白血病中 B 细胞受体增殖程序。
Leukemia. 2021 May;35(5):1463-1474. doi: 10.1038/s41375-021-01221-5. Epub 2021 Apr 8.

本文引用的文献

1
A generalized framework for controlling FDR in gene regulatory network inference.一种用于控制基因调控网络推断中 FDR 的通用框架。
Bioinformatics. 2019 Mar 15;35(6):1026-1032. doi: 10.1093/bioinformatics/bty764.
2
Genomic and Transcriptomic Features of Response to Anti-PD-1 Therapy in Metastatic Melanoma.转移性黑色素瘤中抗PD-1治疗反应的基因组和转录组特征
Cell. 2016 Mar 24;165(1):35-44. doi: 10.1016/j.cell.2016.02.065. Epub 2016 Mar 17.
3
limma powers differential expression analyses for RNA-sequencing and microarray studies.
limma为RNA测序和微阵列研究提供差异表达分析的动力。
Nucleic Acids Res. 2015 Apr 20;43(7):e47. doi: 10.1093/nar/gkv007. Epub 2015 Jan 20.
4
Deviance residuals-based sparse PLS and sparse kernel PLS regression for censored data.基于偏差残差的稀疏偏最小二乘和稀疏核偏最小二乘回归用于删失数据。
Bioinformatics. 2015 Feb 1;31(3):397-404. doi: 10.1093/bioinformatics/btu660. Epub 2014 Oct 6.
5
Cascade: a R package to study, predict and simulate the diffusion of a signal through a temporal gene network.级联:一个用于研究、预测和模拟信号通过时间基因网络扩散的 R 包。
Bioinformatics. 2014 Feb 15;30(4):571-3. doi: 10.1093/bioinformatics/btt705. Epub 2013 Dec 3.
6
Data-based filtering for replicated high-throughput transcriptome sequencing experiments.基于数据的过滤方法在重复高通量转录组测序实验中的应用。
Bioinformatics. 2013 Sep 1;29(17):2146-52. doi: 10.1093/bioinformatics/btt350. Epub 2013 Jul 2.
7
Polygenic modeling with bayesian sparse linear mixed models.贝叶斯稀疏线性混合模型的多基因建模。
PLoS Genet. 2013;9(2):e1003264. doi: 10.1371/journal.pgen.1003264. Epub 2013 Feb 7.
8
Reverse-engineering the genetic circuitry of a cancer cell with predicted intervention in chronic lymphocytic leukemia.对慢性淋巴细胞白血病进行预测性干预的癌细胞基因回路的反向工程。
Proc Natl Acad Sci U S A. 2013 Jan 8;110(2):459-64. doi: 10.1073/pnas.1211130110. Epub 2012 Dec 24.
9
RANDOM LASSO.随机套索算法
Ann Appl Stat. 2011 Mar 1;5(1):468-485. doi: 10.1214/10-AOAS377.
10
A Selective Overview of Variable Selection in High Dimensional Feature Space.高维特征空间中变量选择的选择性概述
Stat Sin. 2010 Jan;20(1):101-148.