[发明专利]基于Spark大数据平台的邻域密度不平衡数据混合采样方法在审

申请号：	201811353720.0	申请日：	2018-11-14
公开（公告）号：	CN109582706A	公开（公告）日：	2019-04-05
发明（设计）人：	胡峰;余春霖;代劲;刘柯;于洪;张清华	申请（专利权）人：	重庆邮电大学
主分类号：	G06F16/2458	分类号：	G06F16/2458
代理公司：	重庆市恒信知识产权代理有限公司 50102	代理人：	刘小红;陈栋梁
地址：	400065 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明请求保护一种基于Spark大数据平台的邻域密度不平衡数据混合采样方法，涉及计算机信息获取和处理技术。本发明通过Spark将数据存储到RDD中，经过归一化处理后，依据邻域密度，结合三支决策理论，将RDD划分到正域空间，负域空间和边界域空间，再对边界域的数据采用SMOTE算法采样，对负域的数据采用混合采样算法进行采样,最后将三个域中的数据合并得到最终的数据集。通过将每个数据划分到不同的域，并针对不同域的特性进行处理，可以适当的增加少数类数据，同时适当减少多数类数据。最后调用MLLib算法库，使用机器学习分类器评估效果。该方法可以有效的减缓不平衡数据的类间比例不平衡问题，提升算法的精度。
搜索关键词：	采样邻域数据采用数据混合边界域大数据负域算法归一化处理计算机信息学习分类器采样算法决策理论评估效果使用机器数据存储数据合并数据集算法库正域调用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于Spark大数据平台的邻域密度不平衡数据混合采样方法，其特征在于，包括以下步骤：101、数据初始化步骤：获取数据并进行归一化处理，统一通过Spark的TextFile方法保存为RDD弹性分布式数据，再转化为LabelPoint对象的数据集，并将LabelPoint划分为训练集和测试集；102、三支决策划分步骤：使用Spark算子对RDD进行计算，获取数据集的距离矩阵和邻域半径，再计算邻域密度，结合三支决策理论，将RDD中的数据集划分至正域空间，负域空间和边界域空间；103、数据采样步骤：使用Spark计算每个边界域空间中少数类数据的K近邻集合，结合插值采样方法，生成若干个少数类数据；在负域空间中，对其中的少数类数据采用过采样的方式处理，扩大邻域半径，区分有效少数类数据和噪音数据，并对有效少数类数据进行插值采样处理和删除噪音数据，对其中的多数类数据采用欠采样的方式处理，通过对多数类数据进行排序，确定轮询周期，保留一部分多数类数据；104、模型评估步骤：调用Spark的MLLib中的分类器算法进行评估，对比未采样和采样后的结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆邮电大学，未经重庆邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811353720.0/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于Spark大数据平台的邻域密度不平衡数据混合采样方法在审

专利文献下载