[发明专利]基于标准化类特定互信息的特征选择方法在审
申请号: | 202210643197.5 | 申请日: | 2022-06-07 |
公开(公告)号: | CN115062696A | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 王雅娣;任意缘;刘尊严;莫力源;王翔宇;左宪禹;乔保军 | 申请(专利权)人: | 河南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 郑州芝麻知识产权代理事务所(普通合伙) 41173 | 代理人: | 张丹丹 |
地址: | 475004 河南省*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 标准化 特定 互信 特征 选择 方法 | ||
1.一种基于标准化类特定互信息的特征选择方法,其特征在于,包括以下步骤:
获取待处理基准数据集,对待处理基准数据集进行预处理,得到预处理后的待处理基准数据集,进而确定预处理后的待处理基准数据集对应的完整特征集内的各个候选特征、类标签以及预设最优特征数目;
根据预处理后的待处理基准数据集对应的完整特征集内的各个候选特征以及类标签,确定完整特征集内的各个候选特征与类标签之间的互信息;
根据完整特征集内的各个候选特征与类标签之间的互信息,确定预处理后的待处理基准数据集对应的第一最优特征,并对预处理后的待处理基准数据集对应的完整特征集进行更新,从而得到第一完整特征集;
根据预处理后的待处理基准数据集对应的第一最优特征、第一的完整特征集中的各个候选特征、类标签以及预设最优特征数目,确定待处理基准数据集对应的最优特征子集。
2.根据权利要求1所述的一种基于标准化类特定互信息的特征选择方法,其特征在于,确定待处理基准数据集对应的最优特征子集的步骤包括:
根据预处理后的待处理基准数据集对应的第一最优特征、第一完整特征集中的各个候选特征以及类标签,确定第一完整特征集中的各个候选特征与类标签之间的特定互信息指标;根据第一完整特征集中的各个候选特征与类标签之间的特定互信息指标,确定预处理后的待处理基准数据集对应的第二最优特征,进而确定当前的预处理后的待处理基准数据集对应的最优特征数目;若当前预处理后的待处理基准数据集对应的最优特征数目不等于预设最优特征数目,则根据预处理后的待处理基准数据集对应的第二最优特征,对第一完整特征集进行更新,从而得到第二完整特征集;根据预处理后的待处理基准数据集对应的第二最优特征、第二完整特征集中的各个候选特征以及类标签,确定第二完整特征集中的各个候选特征与类标签之间的特定互信息,不断重复上述步骤,直至当前预处理后的待处理基准数据集对应的最优特征数目等于预设最优特征数目,确定预处理后的待处理基准数据集对应的各个最优特征,从而确定待处理基准数据集对应的最优特征子集。
3.根据权利要求2所述的一种基于标准化类特定互信息的特征选择方法,其特征在于,确定第一完整特征集中的各个候选特征与类标签之间的特定互信息指标的计算公式为:
其中,S(xi)为第一完整特征集中的第i个候选特征与类标签之间的特定互信息指标,xi为第一完整特征集中的第i个候选特征,y为预处理后的待处理基准数据集对应的类标签,xselect为预处理后的待处理基准数据集对应的第一最优特征,I(xi;y|xselect)为给定第一最优特征时第i个候选特征与类标签之间的条件互信息,I(xselect;y|xi)为给定第i个候选特征时第一最优特征与类标签之间的条件互信息,I(xi;xselect)为第i个候选特征与第一最优特征之间的互信息,I()为求互信息函数,H(y)为预处理后的待处理基准数据集对应的类标签的信息熵,H(xi)为第一完整特征集中的第i个候选特征的信息熵,H(xselect)为预处理后的待处理基准数据集对应的第一最优特征的信息熵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南大学,未经河南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210643197.5/1.html,转载请声明来源钻瓜专利网。