[发明专利]基于对称不确定性联合条件熵的特征选择方法在审
申请号: | 202111363477.2 | 申请日: | 2021-11-17 |
公开(公告)号: | CN114169406A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 周红芳;王晨光;连延彬 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 王丹 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 对称 不确定性 联合 条件 特征 选择 方法 | ||
本发明公开了基于对称不确定性联合条件熵的特征选择方法,通过计算已选特征和候选特征以及分类之间的互信息来选取最优特征,基于对称不确定性联合条件熵的算法不仅考虑了特征和类别之间的相关性,还考虑了特征和特征之间的冗余性。本发明能够快速地定位到与类别相关性强并且与已选特征之间冗余较小的特征,极大的提高了分类的准确性和效率。
技术领域
本发明属于特征选择技术领域,具体涉及基于对称不确定性联合条件熵的特征选择方法。
背景技术
随着科技的发展以及物联网的普及,据统计全国现在已经有9.4亿网民,网络为人民的生活和工作带来极大的遍历。人与人之间进行沟通的效率得到了极大的提高。在互联网给我们带来便利的同时,也出现了很多的弊端,如网上的社交软件和各种信息平台,每秒都会产生海量的数据,这些数据绝大多数是无用的数据,因此我们从海量的数据中获取到有价值的信息就变得极为重要。特性选择是为了从大量的数据中选择出信息量大、与类别高度相关的数据。作为数据的预处理部分,特征选择的好坏直接会对后续的分类结果产生影响。
特征选择主要用于数据的预处理阶段,对数据进行降维,即特征子集选择,从已有的含有M个特征的集合个中选择出N个冗余性小且与类别高度相关的特征来,使得最终构造出的分类模型性能最好。特征选择的步骤一般分为产生过程,评价函数,停止准则,验证过程。
特征选择算法主要分为包装方法、过滤方法以及嵌入方法。过滤式特征选择算法只考虑候选特征集合和目标类之间的相关性的大小,与分类模型的构造过程无关。过滤式的特征选择算法实现难度较低,时间开销较少,MRMR算法是常见的基于过滤式的特征选择算法。包装式算法是将特征选择和模型构建关联起来,两者相互指导,彼此反馈。即用每个特征子集来训练模型,将训练得到的模型的泛化性为选择的子集进行打分,模型的分类性能会影响特征选择的最终结果。包装式特征选择算法的性能较优于过滤式方法,但是计算时间过长,且也容易产生过拟合现象。常见的包装式特征选择算法例如遗传算法。嵌入式特征选择算法将特征选择和模型构建融合在一起,常见的如决策树算法,选择信息增益得分最大的特征进行模型的构建,上述算法存在复杂度高、计算时间长的缺陷。
发明内容
本发明的目的是提供基于对称不确定性联合条件熵的特征选择方法,结合候选特征与已选特征以及类别之间的关系,剔除不相关的特征,提高分类器的分类准确率。
本发明所采用的技术方案是,基于对称不确定性联合条件熵的特征选择方法,具体按照以下步骤实施:
步骤1、对连续型样本数据集的特征值进行离散化处理,得到特征值离散化后的样本数据,并将样本数据按照9:1的比例随机划分出训练集和测试集;
步骤2、将训练集所有样本数据作为候选特征集合F的元素,使用互信息计算集合F中所有候选特征与各个样本所属的类别之间的互信息值,选择出互信息值最大的特征放入集合S中,将去除互信息值最大的特征的候选特征集合F作为候选特征子集F′;
步骤3、遍历候选特征子集F′中每一个候选特征,使用基于对称不确定性联合条件熵的特征选择算法计算每一个候选特征的条件对称不确定度,将对称不确定度最高的候选特征加入集合S中;
步骤4、使用集合S测试分类器分类的准确率,并将得到的准确率与前一次的分类准确率进行比较,若准确率得到提升,则保留该集合S内新添加的特征,作为候选特征子集F′的特征,否则剔除该候选特征;
步骤5、重复步骤3、步骤4,最终得到的集合S内的特征为基于对称不确定性联合条件熵的特征。
本发明的特点还在于:
步骤1连续型样本数据集为ASU特征选择库中的数据集合。
步骤2具体过程为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111363477.2/2.html,转载请声明来源钻瓜专利网。