[发明专利]基于采样与特征简约的非平衡数据集转换方法及系统在审
申请号: | 201910508530.X | 申请日: | 2019-06-13 |
公开(公告)号: | CN110348486A | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 龙春;魏金侠;万巍;赵静;杨帆 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京知舟专利事务所(普通合伙) 11550 | 代理人: | 郭韫 |
地址: | 100083 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于采样与特征简约的非平衡数据集转换方法及系统,该方法利用采样方法对非平衡数据集中的样本进行采样,使少数类样本数目达到与多数类样本数目接近平衡;然后利用特征与类别标签之间的相关性对特征进行从大到小的排序;再从特征的最后一维开始按照顺序依次删除一维特征,每删除一维特征就将减少一维特征的样本数据集输入随机森林模型,计算这些样本对应的ACC值,比较所有ACC值,选取最大ACC值对应的特征维度作为特征约简的目标特征维度。通过以上转换方法获得的新的非平衡数据输入到多分类SVM进行训练,可显著提高分类的准确性。 | ||
搜索关键词: | 非平衡数据 采样 样本 一维特征 转换 删除 多分类SVM 类别标签 目标特征 随机森林 特征维度 样本数据 维度 约简 排序 分类 平衡 | ||
【主权项】:
1.一种基于采样与特征简约的非平衡数据集转换方法,其特征在于,所述方法包括:获取非平衡数据集,所述非平衡数据集包括多数类样本集和少数类样本集;对非平衡数据集进行采样处理,获得新的非平衡数据集;对新的非平衡数据集进行降维处理,转换成特征简约的新的非平衡数据集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910508530.X/,转载请声明来源钻瓜专利网。