[发明专利]基于Spark大数据平台的邻域密度不平衡数据混合采样方法在审

专利信息
申请号: 201811353720.0 申请日: 2018-11-14
公开(公告)号: CN109582706A 公开(公告)日: 2019-04-05
发明(设计)人: 胡峰;余春霖;代劲;刘柯;于洪;张清华 申请(专利权)人: 重庆邮电大学
主分类号: G06F16/2458 分类号: G06F16/2458
代理公司: 重庆市恒信知识产权代理有限公司 50102 代理人: 刘小红;陈栋梁
地址: 400065 重*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明请求保护一种基于Spark大数据平台的邻域密度不平衡数据混合采样方法,涉及计算机信息获取和处理技术。本发明通过Spark将数据存储到RDD中,经过归一化处理后,依据邻域密度,结合三支决策理论,将RDD划分到正域空间,负域空间和边界域空间,再对边界域的数据采用SMOTE算法采样,对负域的数据采用混合采样算法进行采样,最后将三个域中的数据合并得到最终的数据集。通过将每个数据划分到不同的域,并针对不同域的特性进行处理,可以适当的增加少数类数据,同时适当减少多数类数据。最后调用MLLib算法库,使用机器学习分类器评估效果。该方法可以有效的减缓不平衡数据的类间比例不平衡问题,提升算法的精度。
搜索关键词: 采样 邻域 数据采用 数据混合 边界域 大数据 负域 算法 归一化处理 计算机信息 学习分类器 采样算法 决策理论 评估效果 使用机器 数据存储 数据合并 数据集 算法库 正域 调用
【主权项】:
1.一种基于Spark大数据平台的邻域密度不平衡数据混合采样方法,其特征在于,包括以下步骤:101、数据初始化步骤:获取数据并进行归一化处理,统一通过Spark的TextFile方法保存为RDD弹性分布式数据,再转化为LabelPoint对象的数据集,并将LabelPoint划分为训练集和测试集;102、三支决策划分步骤:使用Spark算子对RDD进行计算,获取数据集的距离矩阵和邻域半径,再计算邻域密度,结合三支决策理论,将RDD中的数据集划分至正域空间,负域空间和边界域空间;103、数据采样步骤:使用Spark计算每个边界域空间中少数类数据的K近邻集合,结合插值采样方法,生成若干个少数类数据;在负域空间中,对其中的少数类数据采用过采样的方式处理,扩大邻域半径,区分有效少数类数据和噪音数据,并对有效少数类数据进行插值采样处理和删除噪音数据,对其中的多数类数据采用欠采样的方式处理,通过对多数类数据进行排序,确定轮询周期,保留一部分多数类数据;104、模型评估步骤:调用Spark的MLLib中的分类器算法进行评估,对比未采样和采样后的结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811353720.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top