[发明专利]基于采样与特征简约的非平衡数据集转换方法及系统在审
申请号: | 201910508530.X | 申请日: | 2019-06-13 |
公开(公告)号: | CN110348486A | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 龙春;魏金侠;万巍;赵静;杨帆 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京知舟专利事务所(普通合伙) 11550 | 代理人: | 郭韫 |
地址: | 100083 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 非平衡数据 采样 样本 一维特征 转换 删除 多分类SVM 类别标签 目标特征 随机森林 特征维度 样本数据 维度 约简 排序 分类 平衡 | ||
1.一种基于采样与特征简约的非平衡数据集转换方法,其特征在于,所述方法包括:
获取非平衡数据集,所述非平衡数据集包括多数类样本集和少数类样本集;
对非平衡数据集进行采样处理,获得新的非平衡数据集;
对新的非平衡数据集进行降维处理,转换成特征简约的新的非平衡数据集。
2.根据权利要求1所述的基于采样与特征简约的非平衡数据集转换方法,其特征在于,所述对非平衡数据集进行采样处理包括对少数类样本集进行过采样,包括利用S-NKSMOTE算法对少数类样本集进行过采样,具体为:
获得少数类样本集内样本x的k个近邻样本;
将k个近邻样本中的少数类样本个数与多数类样本个数进行比较,当少数类样本的个数多于多数类样本的个数时,标记x为安全样本,当少数类样本的个数少于多数类样本的个数,且存在少数类样本,标记x为危险样本,当k个近邻样本全是多数类样本,标记x为噪声样本;
当x为噪声样本时,在少数类样本集中随机选择一个样本x’,依照以下方式生成靠近少数类样本的新样本Xnew,所有新样本形成了新的少数类样本集;
Xnew=x+rand(0.5,1)·(x’-x)
当x不是噪声样本时,从其k个近邻样本中随机选择1个样本x’,如果x’属于多数类样本,则依照以下方式生成靠近x的新样本Xnew,所有新样本形成了新的少数类样本集;
Xnew=x+rand(0,0.5)·(x’-x)
如果x’属于少数类样本,则依照下列公式生成靠近x的新样本Xnew,所有新样本形成了新的少数类样本集:
Xnew=x+rand(0,1)·(x’-x)。
3.根据权利要求1所述的基于采样与特征简约的非平衡数据集转换方法,其特征在于,所述对新的非平衡数据集进行降维处理的具体方法为:
分析新的非平衡数据集内每一类样本的特征与对应类别标签的相关性,并将特征按照与类别标签的相关性从大到小进行排序;
从特征的最后一维开始按照顺序依次删除一维特征,每删除一维特征将减少一维特征后的新的非平衡数据集输入到随机森林模型中,并计算出每减少一维特征后的新的非平衡数据集对应的ACC值;
比较所有ACC值,选取最大ACC值对应的特征维度,即为特征简约后的特征维度。
4.根据权利要求2所述的基于采样与特征简约的非平衡数据集转换方法,其特征在于,所述对非平衡数据集进行采样处理还包括对多数类样本集进行欠采样,具体为:
获取多数类样本集和少数类样本集的边界样本集;
获取边界样本集的中心样本;
计算多数类样本集内每一多数类样本距离中心样本的距离,并根据计算的距离对多数类样本集进行欠采样,获得新的多数类样本集,新的多数类样本集和新的少数类样本集合成了新的非平衡数据集。
5.根据权利要求4所述的基于采样与特征简约的非平衡数据集转换方法,其特征在于,获取多数类样本集和少数类样本集的边界样本集的具体方法为:
分别计算多数类样本集中每一多数类样本与其最近的少数类样本的距离;
分别计算少数类样本集中每一少数类样本与其最近的多数类样本的距离;
挑选出最小距离对应的多数类样本和少数类样本;
获得多数类样本的m个近邻样本和少数类样本的n个近邻样本;
获得边界样本集D,D=m∩n。
6.根据权利要求4所述的基于采样与特征简约的非平衡数据集转换方法,其特征在于,获取边界样本集的中心样本的具体方法为:
分别求取边界样本集内每一样本距离边界样本集内所有其他样本的距离;
分别计算各样本对应距离的方差SD和距离总和E;
计算分散度B,B=SD*E;
挑选出分散度最小的样本作为中心样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910508530.X/1.html,转载请声明来源钻瓜专利网。