[发明专利]基于Spark大数据平台的邻域密度不平衡数据混合采样方法在审
申请号: | 201811353720.0 | 申请日: | 2018-11-14 |
公开(公告)号: | CN109582706A | 公开(公告)日: | 2019-04-05 |
发明(设计)人: | 胡峰;余春霖;代劲;刘柯;于洪;张清华 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红;陈栋梁 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明请求保护一种基于Spark大数据平台的邻域密度不平衡数据混合采样方法,涉及计算机信息获取和处理技术。本发明通过Spark将数据存储到RDD中,经过归一化处理后,依据邻域密度,结合三支决策理论,将RDD划分到正域空间,负域空间和边界域空间,再对边界域的数据采用SMOTE算法采样,对负域的数据采用混合采样算法进行采样,最后将三个域中的数据合并得到最终的数据集。通过将每个数据划分到不同的域,并针对不同域的特性进行处理,可以适当的增加少数类数据,同时适当减少多数类数据。最后调用MLLib算法库,使用机器学习分类器评估效果。该方法可以有效的减缓不平衡数据的类间比例不平衡问题,提升算法的精度。 | ||
搜索关键词: | 采样 邻域 数据采用 数据混合 边界域 大数据 负域 算法 归一化处理 计算机信息 学习分类器 采样算法 决策理论 评估效果 使用机器 数据存储 数据合并 数据集 算法库 正域 调用 | ||
【主权项】:
1.一种基于Spark大数据平台的邻域密度不平衡数据混合采样方法,其特征在于,包括以下步骤:101、数据初始化步骤:获取数据并进行归一化处理,统一通过Spark的TextFile方法保存为RDD弹性分布式数据,再转化为LabelPoint对象的数据集,并将LabelPoint划分为训练集和测试集;102、三支决策划分步骤:使用Spark算子对RDD进行计算,获取数据集的距离矩阵和邻域半径,再计算邻域密度,结合三支决策理论,将RDD中的数据集划分至正域空间,负域空间和边界域空间;103、数据采样步骤:使用Spark计算每个边界域空间中少数类数据的K近邻集合,结合插值采样方法,生成若干个少数类数据;在负域空间中,对其中的少数类数据采用过采样的方式处理,扩大邻域半径,区分有效少数类数据和噪音数据,并对有效少数类数据进行插值采样处理和删除噪音数据,对其中的多数类数据采用欠采样的方式处理,通过对多数类数据进行排序,确定轮询周期,保留一部分多数类数据;104、模型评估步骤:调用Spark的MLLib中的分类器算法进行评估,对比未采样和采样后的结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811353720.0/,转载请声明来源钻瓜专利网。
- 上一篇:多源序列的监测方法及装置
- 下一篇:个人信息的建立方法