[发明专利]基于子类问题分类能力度量的Filter特征选取方法在审

专利信息
申请号: 201610342864.0 申请日: 2016-05-23
公开(公告)号: CN106021929A 公开(公告)日: 2016-10-12
发明(设计)人: 王淑琴;梁颖 申请(专利权)人: 天津师范大学
主分类号: G06F19/00 分类号: G06F19/00
代理公司: 天津市杰盈专利代理有限公司 12207 代理人: 朱红星
地址: 300387 *** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于子类问题分类能力度量的Filter特征选取方法。该方法与大多现有方法的最主要区别在于不是使用以单一值作为特征的分类能力评价标准,而是用特征对各个子问题分类能力及它们的加权平均值来度量,特别看重特征对子类问题的分类能力。该方法既能确保总分类能力强的特征被选择,也能确保对子类问题分类能力强但总分类能力不强的特征也被选择,从而获得特征分类能力更准确的排序评价,也就获得了更好的特征子集,以有效减少冗余特征,提高分类预测准确率。本发明的方法可用于癌症数据集的分类预测,改进预测准确率,有利于发现癌症标志物,进而促进癌症的早期诊断和治疗癌症的靶向药物的研制。
搜索关键词: 基于 子类 问题 分类 能力 度量 filter 特征 选取 方法
【主权项】:
基于子类问题分类能力度量的Filter特征选取方法,其特征在于,该方法的具体步骤如下:第一步:计算所有特征对各子类问题的分类能力;第二步:计算各个子类问题中特征分类能力的阈值,将子类问题的特征分类能力曲线的拐点作为阈值;第三步:采用Round‑Robin方法计算各子类问题中分类能力大于阈值的特征的并集,对各子类问题中同一级的特征按照他们对各子类问题的分类能力的加权平均值降序排序;其中所述特征对各子类问题的分类能力的计算步骤如下:对于具有个特征个样本的分类问题为特征集合,为类别属性,首先采用形式将其转化为由任意两类组成的个两分类子问题,其中再采用信息增益作为特征对子问题分类区分能力值,简称值,分别计算每个特征个子问题的分类区分能力最后再根据下述阈值计算方法获得每个子类问题的类区分能力的阈值;所述子类问题阈值的计算步骤如下:由于各个特征对各子类问题的分类能力有所不同,因此对每个子类问题分别计算阈值,这样可以得到个阈值,设由类构成的子类问题的编号记为以计算由类构成的第个子类问题的阈值为例,其中来说明阈值的计算过程;首先对所有特征按分类区分能力进行降序排序,设降序排序后的序号,然后求使得由离散点构成的曲线中曲率最大的点(简称为拐点)所对应的属性序号先用最小二乘法对所有离散点进行曲线拟合,设拟合函数为其中,那么Z(t)即为所求阈值,即为θj,所述方法和特征对各子类问题的分类能力的加权平均值降序排序的方法步骤如下:确定阈值后,使用方法依次选择各子类问题中分类区分能力大于阈值的特征的并集,即首先依次选择各子类问题中排在第一且未被选择的特征,再选择排在第二且未被选择的特征,依此类推,直到所有子问题中分类能力大于阈值的特征都被选择,其中对属于各子类问题同一等级的特征的选择次序按照其对各子类问题的分类能力的加权平均值从大到小进行,将特征对各子类问题的分类能力的加权平均值作为特征的总分类能力,记为其计算公式为其中N(p,q)是p类和q类所构成的子问题中所含样本的个数;按照上述方法就得到了各特征的分类能力的降序序列。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津师范大学,未经天津师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610342864.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top