[发明专利]基于条件互信息的特征选择方法、装置、设备和存储介质在审

申请号：	202111021982.9	申请日：	2021-09-01
公开（公告）号：	CN113761026A	公开（公告）日：	2021-12-07
发明（设计）人：	马晓忱;孙博;吕闫;李理;石上丘;罗雅迪;程文帅;郑乐;冷喜武;常乃超;吴迪;章昊;王吉文;李端超;叶海峰;刘辉;马金辉;胡海琴;陈伟;李智;李顺;朱刚刚;王维坤;樊锐轶;高志;张秀丽;刘志良;刘国瑞;杨旋;余志国;李英;孙珂;周明;李杨月;汪春燕	申请（专利权）人：	中国电力科学研究院有限公司;国家电网有限公司;国网安徽省电力有限公司;国网河北省电力有限公司;国网山西省电力公司;国网湖北省电力有限公司
主分类号：	G06F16/2458	分类号：	G06F16/2458;G06F16/28;G06F16/2453;G06K9/62
代理公司：	北京中巡通大知识产权代理有限公司 11703	代理人：	李宏德
地址：	100192 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于条件互信特征选择方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于数据挖掘技术领域，公开一种基于条件互信息的特征选择方法、装置、设备和存储介质，所述方法包括：获取数据集合形成候选特征集F；计算候选特征集F中每个候选特征与类别属性C的互信息，将选择的特征放入特征集合S；设定阈值，进入循环，直到满足阈值；将选出的特征集合S通过分类器训练模型，并用训练好的模型预测类别，计算预测准确率；更改权重系数，重复筛选特征集合S并计算预测准确率，选出准确率最高的特征集合S作为最终的输出特征集。本发明能够更高效，更快速的进行特征选择，提高数据挖掘的精度和效率。

技术领域

本发明属于数据挖掘(data mining)中的特征选择(feature selection)技术领域，特别涉及一种基于条件互信息的特征选择方法、装置、设备和存储介质。

背景技术

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。生产生活中存在大量数据，可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识。数据挖掘则是通过分析大量数据，从中寻找其规律，从而获取需要的信息和知识。其在电力系统中有很多应用，如暂态稳定评估，故障诊断，负荷预测等。数据挖掘过程主要有数据准备与预处理，数据挖掘和结果表达与解释三个阶段组成。特征选择是数据挖掘非常重要的数据预处理阶段，从大量特征中选择少量主要属性，作为下一阶段数据挖掘中的输入属性，可以有效提高数据挖掘的精度和效率。

特征提取的原理：给定n个样本，每个样本都有A个特征，并且每个样本都有对应的标签或所属的类别(类别属性C)，特征选择就是从这A个特征中，选出a个有助于确定样本类别的特征。选出的特征数量a和a个特征的构成方式对数据挖掘的结果有直接影响。按照特征数量来说，如果选出的特征数量过少，不能包含足够的有用信息，无法达到足够高的准确度。若选出的特征过多，除了影响计算速度，还有可能引入弱相关甚至不相关的特征，在数据挖掘过程中引入过多噪声，降低所得规律的泛化能力。在数量a已经确定的情况下，只有选出的特征集合能够最大程度的提供样本所属的类别信息时，这个特征集合才是最优的。

如何选出最优的a个特征是特征选择的核心问题。特征选择有很多方法，基于信息论的特征选择方法就是其中一种。基于信息论的特征选择方法，一般把每个特征都当作一个随机变量，再通过算法进行特征的选择。

热力学中的“熵”用于描述分子状态的混乱程度，混乱程度越高，则熵值越高；混乱程度越低，熵值越低。而“信息熵”(Entropy)用于刻画随机变量的不确定性，该随机变量的不确定性越大，越需要更多的信息来确定它。

已有的基于互信息的特征选择方法仍有一定局限性。

为了适应在大数据环境下，数据多样性和高维性的特点，并提高集合整体数据的质量，就成为目前在特征选择领域中需要研究的一个问题。

发明内容

本发明的目的在于提供一种基于条件互信息的特征选择方法、装置、设备和存储介质，以解决如何在不降低特征选择精度的情况下减少计算复杂度，以适应在大数据环境下，数据多样性和高维性的特点，并提高集合整体数据的质量的技术问题；本发明方法考虑了平衡已选特征集和候选特征集合之间的重要程度，以及高效去除数据冗余。本发明能够更高效，更快速的进行特征选择，提高数据挖掘的精度和效率。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种基于条件互信息的特征选择方法，包括以下步骤：

获取输入的数据集合形成候选特征集F；

将初始选择的特征放入特征集合S，并将选择的特征从候选特征集F中删去；

计算条件互信息，基于条件互信息和权重系数α计算评估标准J；基于评估标准J筛选选择特征放入特征集合S，并将选择特征从候选特征集F中删去；重复筛选选择特征直到满足阈值；

将选出的特征集合S通过分类器训练模型，并用训练好的模型预测类别，计算预测准确率；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国电力科学研究院有限公司;国家电网有限公司;国网安徽省电力有限公司;国网河北省电力有限公司;国网山西省电力公司;国网湖北省电力有限公司，未经中国电力科学研究院有限公司;国家电网有限公司;国网安徽省电力有限公司;国网河北省电力有限公司;国网山西省电力公司;国网湖北省电力有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111021982.9/2.html，转载请声明来源钻瓜专利网。

上一篇：长输油气管道巡检仿生蛇机器人
下一篇：一种基于智慧城市的气泡净化系统及方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于条件互信息的特征选择方法、装置、设备和存储介质在审

专利文献下载