基于对称不确定性和邻域粗糙集的肿瘤分类信息基因选择
作者:
作者单位:

作者简介:

叶明全(1973-),男,博士,教授,研究方向:数据挖掘与机器学习、生物医学信息处理与分析、互联网+医疗等,E-mail:ymq@wnmc.edu.cn;高凌云(1991-),女,硕士研究生,研究方向:数据挖掘与机器学习、生物医学信息处理与分析等;伍长荣(1973-),女,副教授,研究方向:数据挖掘与机器学习、医学图像处理与分析等;黄道斌(1981-),男,硕士,研究方向:数据挖掘与机器学习、生物医学信息处理与分析等;胡学钢(1961-),男,博士,教授,研究方向:数据挖掘与人工智能等。

通讯作者:

基金项目:

国家自然科学基金(61672386)资助项目;安徽省自然科学基金(1708085MF142)资助项目;教育部人文社会科学研究规划基金(16YJAZH071)资助项目;安徽高校省级自然科学研究重点基金(KJ2014A266,KJ2016A275)资助项目;安徽高校人文社会科学研究重点基金(SK2016A0953,SK2016A0964)资助项目。


Informative Gene Selection for Tumor Classification Based on Symmetric Uncertainty and Neighborhood Rough Set
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
    摘要:

    基因表达谱中信息基因选择是有效建立肿瘤分类模型的关键问题。肿瘤基因表达谱具有高维小样本、噪声大且存在大量无关和冗余基因等特点。为了获得基因数量尽可能少而分类能力尽可能强的一组信息基因,提出一种基于对称不确定性和邻域粗糙集的肿瘤分类信息基因选择SUNRS方法。首先利用对称不确定性指标评估信息基因的重要度,以剔除大量无关和冗余基因,获取信息基因的候选子集;然后利用邻域粗糙集约简算法对信息基因候选子集进行寻优,获得信息基因的目标子集。实验结果表明,SUNRS方法能够用较少的信息基因获得更高的分类精度,从而既能改善算法的泛化性能,又能提高时间效率。

    Abstract:

    Informative gene selection is an essential step to perform tumor classification with large scale gene expression profiles. However, it is difficult to select informative genes related to tumor from gene expression profiles because of its characteristics such as high dimensionality and relatively small samples, many noises, and some of the genes are superfluous and irrelevant. To deal with the challenging problem of finding an informative gene subset with the least number of genes but the highest classification performance, a novel hybrid gene selection algorithm named SUNRS is proposed based on the symmetric uncertainty (SU) and neighborhood rough set (NRS). Firstly, the symmetric uncertain index, which aims to eliminate redundant and irrelevant genes, is used to select top-ranked genes as the candidate gene subset. Secondly, the neighborhood rough set reduction algorithm is used to obtain the target gene subset by optimizing the candidate gene subset. Experimental results show that the proposed algorithm can obtain higher classification accuracy with less informative gene, which not only improves the generalization performance of the algorithm, but also enhances the time efficiency.

    参考文献
    相似文献
    引证文献
引用本文

叶明全, 高凌云, 伍长荣, 黄道斌, 胡学钢.基于对称不确定性和邻域粗糙集的肿瘤分类信息基因选择[J].数据采集与处理,2018,33(3):426-435

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
历史
  • 收稿日期:2016-06-05
  • 最后修改日期:2016-06-23
  • 录用日期:
  • 在线发布日期: 2018-07-09