[发明专利]基于标准化类特定互信息的特征选择方法在审
申请号: | 202210643197.5 | 申请日: | 2022-06-07 |
公开(公告)号: | CN115062696A | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 王雅娣;任意缘;刘尊严;莫力源;王翔宇;左宪禹;乔保军 | 申请(专利权)人: | 河南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 郑州芝麻知识产权代理事务所(普通合伙) 41173 | 代理人: | 张丹丹 |
地址: | 475004 河南省*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 标准化 特定 互信 特征 选择 方法 | ||
本发明涉及数据处理技术领域,具体涉及一种基于标准化类特定互信息的特征选择方法,包括:对获取的待处理基准数据集进行预处理,进而确定预处理后的待处理基准数据集对应的完整特征集内的各个候选特征、类标签以及预设最优特征数目,从而确定完整特征集内的各个候选特征与类标签之间的互信息;根据完整特征集内的各个候选特征与类标签之间的互信息,确定预处理后的待处理基准数据集对应的第一最优特征,从而得到第一完整特征集;根据预处理后的待处理基准数据集对应的第一最优特征、第一的完整特征集中的各个候选特征、类标签以及预设最优特征数目,确定待处理基准数据集对应的最优特征子集。本发明有效提高了特征选择的分类精度。
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于标准化类特定互信息的特征选择方法。
背景技术
在过去几十年中,在模式识别、生物信息学和自然语言处理等各个领域产生了大量的具有多种特征的数据,即高维数据,这些高维数据包括许多无关和冗余的特征。这些无关的和冗余的特征使数据处理变得困难,而特征选择可以在保留相关特征的同时消除无关的和冗余的特征,特征选择可以称为最优特征子集选择也可以称为属性选择,现有的特征选择方法的分类精度较低。
发明内容
为了解决上述现有的特征选择方法的分类精度较低的问题,本发明的目的在于提供一种基于标准化类特定互信息的特征选择方法。
本发明提供了一种基于标准化类特定互信息的特征选择方法,包括以下步骤:
获取待处理基准数据集,对待处理基准数据集进行预处理,得到预处理后的待处理基准数据集,进而确定预处理后的待处理基准数据集对应的完整特征集内的各个候选特征、类标签以及预设最优特征数目;
根据预处理后的待处理基准数据集对应的完整特征集内的各个候选特征以及类标签,确定完整特征集内的各个候选特征与类标签之间的互信息;
根据完整特征集内的各个候选特征与类标签之间的互信息,确定预处理后的待处理基准数据集对应的第一最优特征,并对预处理后的待处理基准数据集对应的完整特征集进行更新,从而得到第一完整特征集;
根据预处理后的待处理基准数据集对应的第一最优特征、第一的完整特征集中的各个候选特征、类标签以及预设最优特征数目,确定待处理基准数据集对应的最优特征子集。
进一步的,确定待处理基准数据集对应的最优特征子集的步骤包括:
根据预处理后的待处理基准数据集对应的第一最优特征、第一完整特征集中的各个候选特征以及类标签,确定第一完整特征集中的各个候选特征与类标签之间的特定互信息指标;根据第一完整特征集中的各个候选特征与类标签之间的特定互信息指标,确定预处理后的待处理基准数据集对应的第二最优特征,进而确定当前的预处理后的待处理基准数据集对应的最优特征数目;若当前预处理后的待处理基准数据集对应的最优特征数目不等于预设最优特征数目,则根据预处理后的待处理基准数据集对应的第二最优特征,对第一完整特征集进行更新,从而得到第二完整特征集;根据预处理后的待处理基准数据集对应的第二最优特征、第二完整特征集中的各个候选特征以及类标签,确定第二完整特征集中的各个候选特征与类标签之间的特定互信息,不断重复上述步骤,直至当前预处理后的待处理基准数据集对应的最优特征数目等于预设最优特征数目,确定预处理后的待处理基准数据集对应的各个最优特征,从而确定待处理基准数据集对应的最优特征子集。
进一步的,确定第一完整特征集中的各个候选特征与类标签之间的特定互信息指标的计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南大学,未经河南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210643197.5/2.html,转载请声明来源钻瓜专利网。