[发明专利]用于模式分类的动态特征选择方法无效
申请号: | 200810070105.9 | 申请日: | 2008-08-11 |
公开(公告)号: | CN101339619A | 公开(公告)日: | 2009-01-07 |
发明(设计)人: | 李勇明;曾孝平 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 重庆市前沿专利事务所 | 代理人: | 郭云 |
地址: | 400044重庆*** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 模式 分类 动态 特征 选择 方法 | ||
技术领域
本发明涉及模式分类技术领域,具体地讲,是一种用于模式分类的对动态变化的模式样本进行特征选择的特征选择方法。
背景技术
模式分类问题目前广泛应用于电力、金融、商业、军事、医药卫生等诸多领域,其处理过程由样本预处理、特征提取、特征选择、分类等步骤组成。其中,特征选择是模式分类系统中重要的处理过程。在实际模式分类中,待分类的模式样本中往往含有大量的特征,特征选择可从这些大量的特征中删除掉对分类无关或作用较小的特征,选择出对分类非常有用的特征,以便分类器分类,从而可有效提高模式分类的效率和分类正确率。
在实际中的模式分类中,模式样本常常是动态变化的,原因有很多。以尿沉渣为例,来自不同医院采集的尿沉渣图像样本有所不同,同一个医院来自不同病人的尿沉渣图像样本有所不同,同一个病人不同情况下采集的尿沉渣图像样本也有所不同,等等。目前,现有的特征选择方法常常是属于静态特征选择方法,也就是在设计某一模式分类系统时,采集了一部分训练样本进行训练,选择出一个最优特征组合,然后根据这个最优特征组合对输入样本数据进行规则化,再输入到分类器进行分类。但在实际处理动态变化的模式样本的时候,样本数据在发生变化,待选的每个特征的重要性以及特征间的相关性都在发生变化,最优特征组合常常不是固定不变的,尤其对于复杂的高维特征选择问题来说,这种情况尤其突出。因此,用静态特征选择方法来处理动态模式样本时,常常会出现对于训练样本来说达到一定分类要求的最优特征组合用于其他样本时分类正确率明显下降或者不稳定。
发明内容
本发明的目的在于提供一种用于模式分类的动态特征选择方法,能够对于现实中不断变化的模式样本动态的选择出最优特征组合,从而最大限度的选出具有较高分类正确率的特征,满足高精度的分类需求。
为了实现上述目的,本发明的技术方案如下:一种用于模式分类的动态特征选择方法,包括下列步骤:
(一)预处理模块获取初始输入样本,并对初始输入样本进行预处理,获得预处理输入样本;预处理包括归一化和矩阵变换两种处理,预处理完成后,初始输入样本转换为特征矩阵,列向量表示输入样本个体的特征向量,行数表示特征数。样本大小根据经验确定,通常要大于待选特征数。
(二)预处理模块向知识库发出请求,该知识库对请求进行判断;
所述请求分为两种:分类请求和特征选择请求;当请求是分类请求时,进入分类流程,当请求是特征选择请求时,进入特征选择流程;如果在特征选择流程中,收到分类请求,则中断特征选择流程,转入分类流程;
所述分类流程为:
所述知识库向预处理模块输出存储的最优特征组合,该预处理模块根据该最优特征组合对所述预处理输入样本进行规则化,并输出规则化后的输入样本给分类器,分类器接收知识库传递的需动态调整的分类参数后,对接收的规则化输入样本进行分类;
所述规则化是指根据最优特征组合,对特征矩阵中的特征进行取舍后,得到新的样本矩阵,分类器对新的样本矩阵进行分类。
所述特征选择流程为:
A、所述知识库随机读取所述预处理模块中的部分预处理输入样本个体,组成输入训练样本,该输入训练样本与知识库中存储的存储训练样本整合,组成整合训练样本;所述存储训练样本为经过归一化和矩阵变换处理后的样本。
B、所述知识库随机选择整合训练样本中的部分个体,组成选择训练样本,该知识库对特征选择模块和分类器进行知识加载,包括:
所述知识库将所述选择训练样本分别送至特征选择模块和分类器;知识库还将存储的特征选择模块需要动态调整的特征选择参数送至特征选择模块,将存储的分类器需要动态调整的分类参数送至分类器;所述知识库还将存储的最优特征组合和初始种群送入所述特征选择模块;
知识库存储的特征选择参数依照特征选择模块中采用的具体的特征选择方法而定,存储的分类参数依照分类器的种类而定。
C、还将所述知识库中存储的比率系数送入所述特征选择模块;
D、所述特征选择模块计算初始种群中所有个体的适应度值,并将初始种群个体按照适应度值的高低排序,该特征选择模块按照所述比率系数规定的百分比,从适应度值最高的个体起依次选择占所有个体百分比的部分个体组成分类种群,送入分类器进行分类;
初始种群个体可以按适应度值从高到低排序,也可以从低到高排序。
所述比率系数范围在0到1之间,0表示不送入分类器分类,1表示全部送到分类器分类,也可以反过来规定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810070105.9/2.html,转载请声明来源钻瓜专利网。