[发明专利]基于条件互信息的特征选择方法、装置、设备和存储介质在审

专利信息
申请号: 202111021982.9 申请日: 2021-09-01
公开(公告)号: CN113761026A 公开(公告)日: 2021-12-07
发明(设计)人: 马晓忱;孙博;吕闫;李理;石上丘;罗雅迪;程文帅;郑乐;冷喜武;常乃超;吴迪;章昊;王吉文;李端超;叶海峰;刘辉;马金辉;胡海琴;陈伟;李智;李顺;朱刚刚;王维坤;樊锐轶;高志;张秀丽;刘志良;刘国瑞;杨旋;余志国;李英;孙珂;周明;李杨月;汪春燕 申请(专利权)人: 中国电力科学研究院有限公司;国家电网有限公司;国网安徽省电力有限公司;国网河北省电力有限公司;国网山西省电力公司;国网湖北省电力有限公司
主分类号: G06F16/2458 分类号: G06F16/2458;G06F16/28;G06F16/2453;G06K9/62
代理公司: 北京中巡通大知识产权代理有限公司 11703 代理人: 李宏德
地址: 100192 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 条件 互信 特征 选择 方法 装置 设备 存储 介质
【说明书】:

发明属于数据挖掘技术领域,公开一种基于条件互信息的特征选择方法、装置、设备和存储介质,所述方法包括:获取数据集合形成候选特征集F;计算候选特征集F中每个候选特征与类别属性C的互信息,将选择的特征放入特征集合S;设定阈值,进入循环,直到满足阈值;将选出的特征集合S通过分类器训练模型,并用训练好的模型预测类别,计算预测准确率;更改权重系数,重复筛选特征集合S并计算预测准确率,选出准确率最高的特征集合S作为最终的输出特征集。本发明能够更高效,更快速的进行特征选择,提高数据挖掘的精度和效率。

技术领域

本发明属于数据挖掘(data mining)中的特征选择(feature selection)技术领域,特别涉及一种基于条件互信息的特征选择方法、装置、设备和存储介质。

背景技术

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。生产生活中存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。数据挖掘则是通过分析大量数据,从中寻找其规律,从而获取需要的信息和知识。其在电力系统中有很多应用,如暂态稳定评估,故障诊断,负荷预测等。数据挖掘过程主要有数据准备与预处理,数据挖掘和结果表达与解释三个阶段组成。特征选择是数据挖掘非常重要的数据预处理阶段,从大量特征中选择少量主要属性,作为下一阶段数据挖掘中的输入属性,可以有效提高数据挖掘的精度和效率。

特征提取的原理:给定n个样本,每个样本都有A个特征,并且每个样本都有对应的标签或所属的类别(类别属性C),特征选择就是从这A个特征中,选出a个有助于确定样本类别的特征。选出的特征数量a和a个特征的构成方式对数据挖掘的结果有直接影响。按照特征数量来说,如果选出的特征数量过少,不能包含足够的有用信息,无法达到足够高的准确度。若选出的特征过多,除了影响计算速度,还有可能引入弱相关甚至不相关的特征,在数据挖掘过程中引入过多噪声,降低所得规律的泛化能力。在数量a已经确定的情况下,只有选出的特征集合能够最大程度的提供样本所属的类别信息时,这个特征集合才是最优的。

如何选出最优的a个特征是特征选择的核心问题。特征选择有很多方法,基于信息论的特征选择方法就是其中一种。基于信息论的特征选择方法,一般把每个特征都当作一个随机变量,再通过算法进行特征的选择。

热力学中的“熵”用于描述分子状态的混乱程度,混乱程度越高,则熵值越高;混乱程度越低,熵值越低。而“信息熵”(Entropy)用于刻画随机变量的不确定性,该随机变量的不确定性越大,越需要更多的信息来确定它。

已有的基于互信息的特征选择方法仍有一定局限性。

为了适应在大数据环境下,数据多样性和高维性的特点,并提高集合整体数据的质量,就成为目前在特征选择领域中需要研究的一个问题。

发明内容

本发明的目的在于提供一种基于条件互信息的特征选择方法、装置、设备和存储介质,以解决如何在不降低特征选择精度的情况下减少计算复杂度,以适应在大数据环境下,数据多样性和高维性的特点,并提高集合整体数据的质量的技术问题;本发明方法考虑了平衡已选特征集和候选特征集合之间的重要程度,以及高效去除数据冗余。本发明能够更高效,更快速的进行特征选择,提高数据挖掘的精度和效率。

为了实现上述目的,本发明采用如下技术方案:

第一方面,本发明提供一种基于条件互信息的特征选择方法,包括以下步骤:

获取输入的数据集合形成候选特征集F;

将初始选择的特征放入特征集合S,并将选择的特征从候选特征集F中删去;

计算条件互信息,基于条件互信息和权重系数α计算评估标准J;基于评估标准J筛选选择特征放入特征集合S,并将选择特征从候选特征集F中删去;重复筛选选择特征直到满足阈值;

将选出的特征集合S通过分类器训练模型,并用训练好的模型预测类别,计算预测准确率;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电力科学研究院有限公司;国家电网有限公司;国网安徽省电力有限公司;国网河北省电力有限公司;国网山西省电力公司;国网湖北省电力有限公司,未经中国电力科学研究院有限公司;国家电网有限公司;国网安徽省电力有限公司;国网河北省电力有限公司;国网山西省电力公司;国网湖北省电力有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111021982.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top