[发明专利]数据处理方法和装置在审
申请号: | 201610057344.5 | 申请日: | 2016-01-27 |
公开(公告)号: | CN107015989A | 公开(公告)日: | 2017-08-04 |
发明(设计)人: | 郑壮杰 | 申请(专利权)人: | 博雅网络游戏开发(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州华进联合专利商标代理有限公司44224 | 代理人: | 方高明 |
地址: | 518057 广东省深圳市南山区中山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
技术领域
本发明涉及数据处理领域,特别是涉及一种数据处理方法和装置。
背景技术
随着计算机和网络技术的发展,电子设备的普及,越来越多的用户使用网络,为此产生了大量的数据,为了快速从海量数据中获得真正的业务价值,需要构建一种性能高的数据分析应用系统。
Spark是一种基于内存的迭代处理框架,它具有高吞吐量和强容错性的特点,由于其内部优秀的调度机制、快速的分布式计算能力,能够用极快的速度进行迭代计算,在某些特定业务可以实现准实时的分析处理。但是,Spark在对数据进行处理时,如果源数据保存在磁盘上,需要从磁盘加载数据,耗时较长。
发明内容
基于此,有必要针对Spark从磁盘加载数据耗时长的问题,提供一种数据处理方法,能提高加载数据的效率。
此外,还有必要提供一种数据处理装置,能提高加载数据的效率。
一种数据处理方法,包括以下步骤:
对内存分布式文件系统及Spark集群进行配置,将所述内存分布式文件系统及所述Spark集群进行关联;
启动所述Spark集群,并对所述Spark集群初始化;
从所述内存分布式文件系统中读取源数据;
对所述源数据进行预处理,得到预处理后的数据;
将所述预处理后的数据进行分析得到数据分析结果;
将所述数据分析结果存储到所述内存分布式文件系统中。
在其中一个实施例中,还包括:
当Spark出现故障时,重启Spark,从所述内存分布式文件系统中读取缓存 的源数据及数据分析结果。
在其中一个实施例中,所述对所述源数据进行预处理,得到预处理后的数据的步骤包括:
将所述源数据转换为预定格式的数据;
将所述预定格式的数据进行过滤;
将过滤后的数据注册成具有相同结构模式的临时表;
所述将所述预处理后的数据进行分析得到数据分析结果的步骤包括:
通过SQL将所述临时表映射的框架数据进行分析得到数据分析结果。
在其中一个实施例中,对内存分布式文件系统及Spark集群进行配置,将所述内存分布式文件系统及所述Spark集群进行关联的步骤包括:
指定内存分布式文件系统底层使用的文件系统及文件系统的实现类;
设置内存分布式文件系统的主节点的IP、访问端口及缓存路径,内存分布式文件系统的从节点的端口、数据服务端口和数据存储路径;
指定Spark集群启动参数,指定内存分布式文件系统所依赖包路径,配置内存文件系统运行在底层使用的文件系统之上以及内存文件系统的容错功能;
对所述Spark集群初始化的步骤包括:
初始化上下文全局对象;
初始化执行类型。
在其中一个实施例中,在启动所述Spark集群,并对所述Spark集群初始化的步骤之后,所述数据处理方法还包括:
接收数据;
对所述数据进行处理得到源数据;
将所述源数据存入内存分布式文件系统。
一种数据处理装置,包括:
配置模块,用于对内存分布式文件系统及Spark集群进行配置,将所述内存分布式文件系统及所述Spark集群进行关联;
初始化模块,用于启动所述Spark集群,并对所述Spark集群初始化;
读取模块,用于从所述内存分布式文件系统中读取源数据;
预处理模块,用于对所述源数据进行预处理,得到预处理后的数据;
分析模块,用于将所述预处理后的数据进行分析得到数据分析结果;
存储模块,用于将所述数据分析结果存储到所述内存分布式文件系统中。
在其中一个实施例中,所述读取模块还用于当Spark出现故障时,重启Spark,从内存分布式文件系统中读取缓存的源数据及数据分析结果。
在其中一个实施例中,所述预处理模块包括:
转换单元,用于将所述源数据转换为预定格式的数据;
过滤单元,用于将所述预定格式的数据进行过滤;
注册单元,用于将过滤后的数据注册成具有相同结构模式的临时表;
所述分析模块还用于通过SQL将所述临时表映射的框架数据进行分析得到数据分析结果。
在其中一个实施例中,所述配置模块还用于指定内存分布式文件系统底层使用的文件系统及文件系统的实现类;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于博雅网络游戏开发(深圳)有限公司,未经博雅网络游戏开发(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610057344.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:充电锁组件
- 下一篇:一种基于物联网控制的智能家居