• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

一种用于微阵列基因表达数据的顶级特征选择算法。

A top-r feature selection algorithm for microarray gene expression data.

机构信息

Laboratory of DNA Information Analysis, Human Genome Center, Institute of Medical Science, University of Tokyo, 4-6-1 Shirokanedai, Minato-ku, Tokyo 108-8639, Japan.

出版信息

IEEE/ACM Trans Comput Biol Bioinform. 2012 May-Jun;9(3):754-64. doi: 10.1109/TCBB.2011.151.

DOI:10.1109/TCBB.2011.151
PMID:22084149
Abstract

Most of the conventional feature selection algorithms have a drawback whereby a weakly ranked gene that could perform well in terms of classification accuracy with an appropriate subset of genes will be left out of the selection. Considering this shortcoming, we propose a feature selection algorithm in gene expression data analysis of sample classifications. The proposed algorithm first divides genes into subsets, the sizes of which are relatively small (roughly of size h), then selects informative smaller subsets of genes (of size r < h) from a subset and merges the chosen genes with another gene subset (of size r) to update the gene subset. We repeat this process until all subsets are merged into one informative subset. We illustrate the effectiveness of the proposed algorithm by analyzing three distinct gene expression data sets. Our method shows promising classification accuracy for all the test data sets. We also show the relevance of the selected genes in terms of their biological functions.

摘要

大多数传统的特征选择算法都存在一个缺点,即一个排名较低的基因,如果与适当的基因子集结合,可能在分类准确性方面表现良好,但它可能会被排除在选择之外。考虑到这一缺点,我们提出了一种在样本分类的基因表达数据分析中的特征选择算法。该算法首先将基因分成大小相对较小的子集(大约大小为 h),然后从子集中选择信息量较大的较小子集(大小为 r < h)的基因,并将所选基因与另一个大小为 r 的基因子集合并,以更新基因子集。我们重复这个过程,直到所有的子集合并成一个信息丰富的子集。我们通过分析三个不同的基因表达数据集来说明所提出算法的有效性。我们的方法对所有的测试数据集都显示出了有希望的分类准确性。我们还展示了所选基因在其生物学功能方面的相关性。

相似文献

1
A top-r feature selection algorithm for microarray gene expression data.一种用于微阵列基因表达数据的顶级特征选择算法。
IEEE/ACM Trans Comput Biol Bioinform. 2012 May-Jun;9(3):754-64. doi: 10.1109/TCBB.2011.151.
2
Compact cancer biomarkers discovery using a swarm intelligence feature selection algorithm.利用群体智能特征选择算法发现紧凑型癌症生物标志物。
Comput Biol Chem. 2010 Aug;34(4):244-50. doi: 10.1016/j.compbiolchem.2010.08.003. Epub 2010 Sep 9.
3
Genetic test bed for feature selection.用于特征选择的基因测试平台。
Bioinformatics. 2006 Apr 1;22(7):837-42. doi: 10.1093/bioinformatics/btl008. Epub 2006 Jan 20.
4
A hybrid feature selection method for DNA microarray data.一种用于 DNA 微阵列数据的混合特征选择方法。
Comput Biol Med. 2011 Apr;41(4):228-37. doi: 10.1016/j.compbiomed.2011.02.004. Epub 2011 Mar 3.
5
A blocking strategy to improve gene selection for classification of gene expression data.一种用于改进基因选择以对基因表达数据进行分类的阻断策略。
IEEE/ACM Trans Comput Biol Bioinform. 2007 Apr-Jun;4(2):293-300. doi: 10.1109/TCBB.2007.1014.
6
Stable gene selection from microarray data via sample weighting.基于样本加权的基因芯片数据中稳定基因的选择。
IEEE/ACM Trans Comput Biol Bioinform. 2012 Jan-Feb;9(1):262-72. doi: 10.1109/TCBB.2011.47. Epub 2011 Mar 3.
7
Ensemble gene selection by grouping for microarray data classification.基于分组的微阵列数据分类的集成基因选择。
J Biomed Inform. 2010 Feb;43(1):81-7. doi: 10.1016/j.jbi.2009.08.010. Epub 2009 Aug 20.
8
A fast gene selection method for multi-cancer classification using multiple support vector data description.一种基于多支持向量数据描述的多癌症分类快速基因选择方法。
J Biomed Inform. 2015 Feb;53:381-9. doi: 10.1016/j.jbi.2014.12.009. Epub 2014 Dec 27.
9
Feature Subset Selection for Cancer Classification Using Weight Local Modularity.基于权重局部模块度的癌症分类特征子集选择
Sci Rep. 2016 Oct 5;6:34759. doi: 10.1038/srep34759.
10
Genetic Bee Colony (GBC) algorithm: A new gene selection method for microarray cancer classification.遗传蜂群(GBC)算法:一种用于微阵列癌症分类的新基因选择方法。
Comput Biol Chem. 2015 Jun;56:49-60. doi: 10.1016/j.compbiolchem.2015.03.001. Epub 2015 Mar 18.

引用本文的文献

1
Sequence-Based Prediction of Plant Allergenic Proteins: Machine Learning Classification Approach.基于序列的植物变应原蛋白预测:机器学习分类方法
ACS Omega. 2023 Jan 20;8(4):3698-3704. doi: 10.1021/acsomega.2c02842. eCollection 2023 Jan 31.
2
A Dual Level Analysis with Evolutionary Computing and Swarm Models for Classification of Leukemia.基于进化计算和群集模型的白血病分类双层分析。
Biomed Res Int. 2022 May 26;2022:2052061. doi: 10.1155/2022/2052061. eCollection 2022.
3
Cancer Detection and Prediction Using Genetic Algorithms.
使用遗传算法进行癌症检测和预测。
Comput Intell Neurosci. 2022 May 16;2022:1871841. doi: 10.1155/2022/1871841. eCollection 2022.
4
DeepFeature: feature selection in nonimage data using convolutional neural network.DeepFeature:使用卷积神经网络进行非图像数据的特征选择。
Brief Bioinform. 2021 Nov 5;22(6). doi: 10.1093/bib/bbab297.
5
A comparative study of machine learning and deep learning algorithms to classify cancer types based on microarray gene expression data.基于微阵列基因表达数据对癌症类型进行分类的机器学习和深度学习算法的比较研究。
PeerJ Comput Sci. 2020 Apr 13;6:e270. doi: 10.7717/peerj-cs.270. eCollection 2020.
6
Gene expression feature selection for prostate cancer diagnosis using a two-phase heuristic-deterministic search strategy.基于两阶段启发式确定性搜索策略的前列腺癌诊断基因表达特征选择
IET Syst Biol. 2018 Aug;12(4):162-169. doi: 10.1049/iet-syb.2017.0044.
7
Computational advances of tumor marker selection and sample classification in cancer proteomics.癌症蛋白质组学中肿瘤标志物选择与样本分类的计算进展
Comput Struct Biotechnol J. 2020 Jul 17;18:2012-2025. doi: 10.1016/j.csbj.2020.07.009. eCollection 2020.
8
Multiplatform biomarker identification using a data-driven approach enables single-sample classification.采用数据驱动的方法进行多平台生物标志物鉴定可实现单一样本分类。
BMC Bioinformatics. 2019 Nov 21;20(1):601. doi: 10.1186/s12859-019-3140-7.
9
Brain wave classification using long short-term memory network based OPTICAL predictor.基于 OPTICAL 预测器的长短时记忆网络的脑波分类。
Sci Rep. 2019 Jun 24;9(1):9153. doi: 10.1038/s41598-019-45605-1.
10
Deep Learning Methods for Predicting Disease Status Using Genomic Data.使用基因组数据预测疾病状态的深度学习方法
J Biom Biostat. 2018;9(5). Epub 2018 Dec 11.