[发明专利]数据处理方法和装置在审
申请号: | 201610057344.5 | 申请日: | 2016-01-27 |
公开(公告)号: | CN107015989A | 公开(公告)日: | 2017-08-04 |
发明(设计)人: | 郑壮杰 | 申请(专利权)人: | 博雅网络游戏开发(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州华进联合专利商标代理有限公司44224 | 代理人: | 方高明 |
地址: | 518057 广东省深圳市南山区中山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
1.一种数据处理方法,其特征在于,包括以下步骤:
对内存分布式文件系统及Spark集群进行配置,将所述内存分布式文件系统及所述Spark集群进行关联;
启动所述Spark集群,并对所述Spark集群初始化;
从所述内存分布式文件系统中读取源数据;
对所述源数据进行预处理,得到预处理后的数据;
将所述预处理后的数据进行分析得到数据分析结果;
将所述数据分析结果存储到所述内存分布式文件系统中。
2.根据权利要求1所述的数据处理方法,其特征在于,还包括:
当Spark出现故障时,重启Spark,从所述内存分布式文件系统中读取缓存的源数据及数据分析结果。
3.根据权利要求1所述的数据处理方法,其特征在于,所述对所述源数据进行预处理,得到预处理后的数据的步骤包括:
将所述源数据转换为预定格式的数据;
将所述预定格式的数据进行过滤;
将过滤后的数据注册成具有相同结构模式的临时表;
所述将所述预处理后的数据进行分析得到数据分析结果的步骤包括:
通过SQL将所述临时表映射的框架数据进行分析得到数据分析结果。
4.根据权利要求1所述的数据处理方法,其特征在于,对内存分布式文件系统及Spark集群进行配置,将所述内存分布式文件系统及所述Spark集群进行关联的步骤包括:
指定内存分布式文件系统底层使用的文件系统及文件系统的实现类;
设置内存分布式文件系统的主节点的IP、访问端口和缓存路径,及设置内存分布式文件系统的从节点的端口、数据服务端口和数据存储路径;
指定Spark集群启动参数,指定内存分布式文件系统所依赖包路径,配置内存文件系统运行在底层使用的文件系统之上以及内存文件系统的容错功能;
对所述Spark集群初始化的步骤包括:
初始化上下文全局对象;
初始化执行类型。
5.根据权利要求1所述的数据处理方法,其特征在于,在启动所述Spark集群,并对所述Spark集群初始化的步骤之后,所述数据处理方法还包括:
接收数据;
对所述数据进行处理得到源数据;
将所述源数据存入所述内存分布式文件系统。
6.一种数据处理装置,其特征在于,包括:
配置模块,用于对内存分布式文件系统及Spark集群进行配置,将所述内存分布式文件系统及所述Spark集群进行关联;
初始化模块,用于启动所述Spark集群,并对所述Spark集群初始化;
读取模块,用于从所述内存分布式文件系统中读取源数据;
预处理模块,用于对所述源数据进行预处理,得到预处理后的数据;
分析模块,用于将所述预处理后的数据进行分析得到数据分析结果;
存储模块,用于将所述数据分析结果存储到所述内存分布式文件系统中。
7.根据权利要求6所述的数据处理装置,其特征在于,所述读取模块还用于当Spark出现故障时,重启Spark,从所述内存分布式文件系统中读取缓存的源数据及数据分析结果。
8.根据权利要求6所述的数据处理装置,其特征在于,所述预处理模块包括:
转换单元,用于将所述源数据转换为预定格式的数据;
过滤单元,用于将所述预定格式的数据进行过滤;
注册单元,用于将过滤后的数据注册成具有相同结构模式的临时表;
所述分析模块还用于通过SQL将所述临时表映射的框架数据进行分析得到数据分析结果。
9.根据权利要求6所述的数据处理装置,其特征在于,所述配置模块还用于指定内存分布式文件系统底层使用的文件系统及文件系统的实现类;
设置内存分布式文件系统的主节点的IP、访问端口和缓存路径,及设置内 存分布式文件系统的从节点的端口、数据服务端口和数据存储路径;以及
指定Spark集群启动参数,指定内存分布式文件系统所依赖包路径,配置内存文件系统运行在底层使用的文件系统之上以及内存文件系统的容错功能;
所述初始化模块还用于初始化上下文全局对象,以及初始化执行类型。
10.根据权利要求6所述的数据处理装置,其特征在于,所述数据处理装置还包括:
接收模块,用于在初始化模块启动所述Spark集群,并对所述Spark集群初始化之后,接收数据;
处理模块,用于对所述数据进行处理得到源数据;
所述存储模块还用于将所述源数据存入所述内存分布式文件系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于博雅网络游戏开发(深圳)有限公司,未经博雅网络游戏开发(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610057344.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:充电锁组件
- 下一篇:一种基于物联网控制的智能家居