[发明专利]基于条件互信息的特征选择方法、装置、设备和存储介质在审
申请号: | 202111021982.9 | 申请日: | 2021-09-01 |
公开(公告)号: | CN113761026A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 马晓忱;孙博;吕闫;李理;石上丘;罗雅迪;程文帅;郑乐;冷喜武;常乃超;吴迪;章昊;王吉文;李端超;叶海峰;刘辉;马金辉;胡海琴;陈伟;李智;李顺;朱刚刚;王维坤;樊锐轶;高志;张秀丽;刘志良;刘国瑞;杨旋;余志国;李英;孙珂;周明;李杨月;汪春燕 | 申请(专利权)人: | 中国电力科学研究院有限公司;国家电网有限公司;国网安徽省电力有限公司;国网河北省电力有限公司;国网山西省电力公司;国网湖北省电力有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28;G06F16/2453;G06K9/62 |
代理公司: | 北京中巡通大知识产权代理有限公司 11703 | 代理人: | 李宏德 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 条件 互信 特征 选择 方法 装置 设备 存储 介质 | ||
本发明属于数据挖掘技术领域,公开一种基于条件互信息的特征选择方法、装置、设备和存储介质,所述方法包括:获取数据集合形成候选特征集F;计算候选特征集F中每个候选特征与类别属性C的互信息,将选择的特征放入特征集合S;设定阈值,进入循环,直到满足阈值;将选出的特征集合S通过分类器训练模型,并用训练好的模型预测类别,计算预测准确率;更改权重系数,重复筛选特征集合S并计算预测准确率,选出准确率最高的特征集合S作为最终的输出特征集。本发明能够更高效,更快速的进行特征选择,提高数据挖掘的精度和效率。
技术领域
本发明属于数据挖掘(data mining)中的特征选择(feature selection)技术领域,特别涉及一种基于条件互信息的特征选择方法、装置、设备和存储介质。
背景技术
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。生产生活中存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。数据挖掘则是通过分析大量数据,从中寻找其规律,从而获取需要的信息和知识。其在电力系统中有很多应用,如暂态稳定评估,故障诊断,负荷预测等。数据挖掘过程主要有数据准备与预处理,数据挖掘和结果表达与解释三个阶段组成。特征选择是数据挖掘非常重要的数据预处理阶段,从大量特征中选择少量主要属性,作为下一阶段数据挖掘中的输入属性,可以有效提高数据挖掘的精度和效率。
特征提取的原理:给定n个样本,每个样本都有A个特征,并且每个样本都有对应的标签或所属的类别(类别属性C),特征选择就是从这A个特征中,选出a个有助于确定样本类别的特征。选出的特征数量a和a个特征的构成方式对数据挖掘的结果有直接影响。按照特征数量来说,如果选出的特征数量过少,不能包含足够的有用信息,无法达到足够高的准确度。若选出的特征过多,除了影响计算速度,还有可能引入弱相关甚至不相关的特征,在数据挖掘过程中引入过多噪声,降低所得规律的泛化能力。在数量a已经确定的情况下,只有选出的特征集合能够最大程度的提供样本所属的类别信息时,这个特征集合才是最优的。
如何选出最优的a个特征是特征选择的核心问题。特征选择有很多方法,基于信息论的特征选择方法就是其中一种。基于信息论的特征选择方法,一般把每个特征都当作一个随机变量,再通过算法进行特征的选择。
热力学中的“熵”用于描述分子状态的混乱程度,混乱程度越高,则熵值越高;混乱程度越低,熵值越低。而“信息熵”(Entropy)用于刻画随机变量的不确定性,该随机变量的不确定性越大,越需要更多的信息来确定它。
已有的基于互信息的特征选择方法仍有一定局限性。
为了适应在大数据环境下,数据多样性和高维性的特点,并提高集合整体数据的质量,就成为目前在特征选择领域中需要研究的一个问题。
发明内容
本发明的目的在于提供一种基于条件互信息的特征选择方法、装置、设备和存储介质,以解决如何在不降低特征选择精度的情况下减少计算复杂度,以适应在大数据环境下,数据多样性和高维性的特点,并提高集合整体数据的质量的技术问题;本发明方法考虑了平衡已选特征集和候选特征集合之间的重要程度,以及高效去除数据冗余。本发明能够更高效,更快速的进行特征选择,提高数据挖掘的精度和效率。
为了实现上述目的,本发明采用如下技术方案:
第一方面,本发明提供一种基于条件互信息的特征选择方法,包括以下步骤:
获取输入的数据集合形成候选特征集F;
将初始选择的特征放入特征集合S,并将选择的特征从候选特征集F中删去;
计算条件互信息,基于条件互信息和权重系数α计算评估标准J;基于评估标准J筛选选择特征放入特征集合S,并将选择特征从候选特征集F中删去;重复筛选选择特征直到满足阈值;
将选出的特征集合S通过分类器训练模型,并用训练好的模型预测类别,计算预测准确率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电力科学研究院有限公司;国家电网有限公司;国网安徽省电力有限公司;国网河北省电力有限公司;国网山西省电力公司;国网湖北省电力有限公司,未经中国电力科学研究院有限公司;国家电网有限公司;国网安徽省电力有限公司;国网河北省电力有限公司;国网山西省电力公司;国网湖北省电力有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111021982.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:长输油气管道巡检仿生蛇机器人
- 下一篇:一种基于智慧城市的气泡净化系统及方法