[发明专利]大数据文件的处理方法、装置、设备及存储介质在审
申请号: | 202111440255.6 | 申请日: | 2021-11-30 |
公开(公告)号: | CN114116803A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 辜坤 | 申请(专利权)人: | 中国建设银行股份有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/23;G06F9/50;G06F9/54 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张娜;黄健 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据文件 处理 方法 装置 设备 存储 介质 | ||
1.一种大数据文件的处理方法,其特征在于,包括:
接收数据处理任务和数据配置文件,所述数据处理任务用于处理大数据文本文件,所述数据配置文件用于指示对所述大数据文本文件进行分块处理、记录以及更新的方法;
根据所述数据配置文件读取并执行所述大数据文本文件的待处理数据,同时记录数据处理状态,直至所述大数据文本文件中的所有待处理数据均处理成功。
2.根据权利要求1所述的方法,其特征在于,所述根据所述数据配置文件读取所述大数据文本文件的待处理数据,包括:
根据所述数据配置文件从redis中间件读取所述大数据文本文件的待处理数据。
3.根据权利要求1或2所述的方法,其特征在于,所述数据配置文件包括对所述大数据文本文件进行单次处理行数的配置信息;所述根据所述数据配置文件读取并执行所述大数据文本文件的待处理数据,同时记录数据处理状态,直至所述大数据文本文件中的所有待处理数据均处理成功,包括:
根据所述单次处理行数对所述大数据文本文件的待处理数据进行切分,得到多个待处理数据单元,每个待处理数据单元包括M行待处理数据,M为正整数;
依次读取并执行所述多个待处理数据单元,同时记录每个待处理数据单元的数据处理状态,直至所有待处理数据单元均处理成功。
4.根据权利要求3所述的方法,其特征在于,所述数据配置文件包括记录单次处理状态的配置信息;所述方法还包括:
根据所述记录单次处理状态的配置信息,获取每个待处理数据单元对应的初始数据处理标记键值对,每个待处理数据单元对应的初始数据处理标记键值对均指示所述待处理数据单元的处理状态为未处理;
将所述多个待处理数据单元对应的初始数据处理标记键值对存储至数据库。
5.根据权利要求3所述的方法,其特征在于,所述依次读取并执行所述多个待处理数据单元,包括:
从redis中间件中读取第一待处理数据单元对应的数据处理标记键值对,若所述数据处理标记键值对指示所述第一待处理数据单元的处理状态为处理失败或未处理,获取并执行所述第一待处理数据单元中的待处理数据;
所述第一待处理数据单元为所述多个待处理数据单元中的任意一项。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
若所述第一待处理数据单元对应的数据处理标记键值对指示所述第一待处理数据单元的处理状态为处理成功,跳过所述第一待处理数据单元,读取下一个待处理数据单元的数据处理标记键值对。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
若所述第一待处理数据单元处理成功,更新所述第一待处理数据单元对应的数据处理标记键值对,更新后的所述第一待处理数据单元对应的数据处理标记键值对指示所述第一待处理数据单元的处理状态为处理成功。
8.根据权利要求4所述的方法,其特征在于,所述将所述多个待处理数据单元对应的初始数据处理标记键值对存储至数据库,包括:
以所述大数据文本文件的文件名为键,以所述多个待处理数据单元对应的初始数据处理标记键值对为值,将所述多个待处理数据单元对应的初始数据处理标记键值对存储至redis中间件。
9.一种大数据文件的处理装置,其特征在于,包括:
接收模块,用于接收数据处理任务和数据配置文件,所述数据处理任务用于处理大数据文本文件,所述数据配置文件用于指示对所述大数据文本文件进行处理、记录以及更新的方法;
处理模块,用于根据所述数据配置文件读取并执行所述大数据文本文件的待处理数据,同时记录数据处理状态,直至所述大数据文本文件中的所有待处理数据均处理成功。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司,未经中国建设银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111440255.6/1.html,转载请声明来源钻瓜专利网。