[发明专利]基于海量数据的文件生成方法及系统在审
申请号: | 201811250926.0 | 申请日: | 2018-10-25 |
公开(公告)号: | CN109309726A | 公开(公告)日: | 2019-02-05 |
发明(设计)人: | 安栋;王斌;宋先优;郭锦玉 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;G06F9/50 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 官建红 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于海量数据的文件生成方法及系统,包括:客户端向第一管理节点发送第一请求消息,携带N个数据块的存储路径和每个数据块所对应的任务类型,包括CPU密集型任务和I/O密集型任务;第一管理节点依次获取每个计算节点处理两类任务的处理能力,根据N个数据块的任务类型,向N个计算节点分别分配一个子任务,计算节点读取该数据块中的数据并对数据进行处理;客户端根据N个计算节点的数据处理结果,生成数据所对应的文件。通过spark集群中的多个计算节点对海量数据并行处理生成文件,且spark集群中的管理节点根据数据库所对应的任务类型将该数据块分配给处理该类型任务能力强的计算节点,在达到负载均衡的基础上提高了数据处理的速度。 | ||
搜索关键词: | 计算节点 数据块 管理节点 海量数据 任务类型 文件生成 客户端 集群 读取 数据处理结果 数据块分配 并行处理 存储路径 负载均衡 请求消息 任务能力 生成数据 生成文件 数据处理 数据库 发送 携带 分配 | ||
【主权项】:
1.一种基于海量数据的文件生成方法,其特征在于,该方法应用于计算引擎spark集群,spark集群中包括第一管理节点和多个计算节点,该方法包括:客户端向所述第一管理节点发送第一请求消息,所述第一请求消息用于请求将待处理的数据进行处理生成文件,所述数据由N个数据块组成,所述第一请求消息中携带所述N个数据块中每个数据块的存储路径信息和每个数据块所对应的任务类型,所述任务类型包括中央处理器CPU密集型任务和输入输出I/O密集型任务,N为大于等于2的正整数;所述第一管理节点依次获取每个计算节点处理CPU密集型任务的处理能力和处理I/O密集型任务的处理能力;所述第一管理节点根据每个计算节点处理CPU密集型任务的处理能力和处理I/O密集型任务的处理能力,以及所述N个数据块所对应的任务类型,向N个计算节点分别分配一个子任务,每个子任务用于对一个数据块进行处理,每个子任务携带有一个数据块的路径信息,以使得所述计算节点根据接收到的子任务中的数据块的路径信息读取该数据块中的数据并对数据进行处理;所述客户端根据所述N个计算节点的数据处理结果,生成所述数据所对应的文件。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811250926.0/,转载请声明来源钻瓜专利网。