[发明专利]基于采样与特征简约的非平衡数据集转换方法及系统在审
申请号: | 201910508530.X | 申请日: | 2019-06-13 |
公开(公告)号: | CN110348486A | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 龙春;魏金侠;万巍;赵静;杨帆 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京知舟专利事务所(普通合伙) 11550 | 代理人: | 郭韫 |
地址: | 100083 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 非平衡数据 采样 样本 一维特征 转换 删除 多分类SVM 类别标签 目标特征 随机森林 特征维度 样本数据 维度 约简 排序 分类 平衡 | ||
本发明提供一种基于采样与特征简约的非平衡数据集转换方法及系统,该方法利用采样方法对非平衡数据集中的样本进行采样,使少数类样本数目达到与多数类样本数目接近平衡;然后利用特征与类别标签之间的相关性对特征进行从大到小的排序;再从特征的最后一维开始按照顺序依次删除一维特征,每删除一维特征就将减少一维特征的样本数据集输入随机森林模型,计算这些样本对应的ACC值,比较所有ACC值,选取最大ACC值对应的特征维度作为特征约简的目标特征维度。通过以上转换方法获得的新的非平衡数据输入到多分类SVM进行训练,可显著提高分类的准确性。
技术领域
本发明属于非平衡数据转换技术领域,特别涉及一种基于采样与特征简约的非平衡数据集转换方法及系统。
背景技术
非平衡数据集转换方法是对非平衡数据集进行分类时,从数据层面对数据集进行重构,以降低非平衡度,提高分类准确度的方法。非平衡数据集分类是指各类样本数据不相等的情况下的分类问题。以二分类问题为例,即某一类数据样本所占比例明显超过其他类别的数据样本。其中,比例多的样本组成多数类样本集,比例少的样本组成少数类样本集。非平衡数据在现实生活中应用非常广泛,比如风险入侵检测、罕见病预测、金融诈骗等领域。
数据层面中最常用的方法为对少数类样本集进行过采样处理,通过增加少数类样本使数据集分布相对平衡。
1.现有的对少数类样本集进行过采样的方法对所有的少数类样本集一视同仁,未考虑不同少数类样本集分类器的不同重要度;2.数据集的特征对分类器的性能具有很重要的影响,如果特征中包含较多对分类结果没有作用的字段,会给分类器的训练过程带来较大的复杂度。
发明内容
为了解决现有技术中存在的问题,本发明提供一种基于采样与特征简约的非平衡数据集转换方法。
为达到上述目的,本发明采用如下技术方案:
本发明提供一种基于采样与特征简约的非平衡数据集转换方法,该方法包括:
获取非平衡数据集,所述非平衡数据集包括多数类样本集和少数类样本集;
对非平衡数据集进行采样处理,获得新的非平衡数据集;
对新的非平衡数据集进行降维处理,转换成特征简约的新的非平衡数据集。
优选的技术方案,所述对非平衡数据集进行采样处理包括对少数类样本集进行过采样,包括利用S-NKSMOTE算法对少数类样本集进行过采样,具体为:
获得少数类样本集内样本x的k个近邻样本;
将k个近邻样本中的少数类样本个数与多数类样本个数进行比较,当少数类样本的个数多于多数类样本的个数时,标记x为安全样本,当少数类样本的个数少于多数类样本的个数,且存在少数类样本,标记x为危险样本,当k个近邻样本全是多数类样本,标记x为噪声样本;
当x为噪声样本时,在少数类样本集中随机选择一个样本x’,依照以下方式生成靠近少数类样本的新样本Xnew,所有新样本形成了新的少数类样本集;
Xnew=x+rand(0.5,1)·(x’-x)
当x不是噪声样本时,从其k个近邻样本中随机选择1个样本x’,如果x’属于多数类样本,则依照以下方式生成靠近x的新样本Xnew,所有新样本形成了新的少数类样本集;
Xnew=x+rand(0,0.5)·(x’-x)
如果x’属于少数类样本,则依照下列公式生成靠近x的新样本Xnew,所有新样本形成了新的少数类样本集:
Xnew=x+rand(0,1)·(x’-x)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910508530.X/2.html,转载请声明来源钻瓜专利网。