[发明专利]大数据文件的处理方法、装置、设备及存储介质在审
申请号: | 202111440255.6 | 申请日: | 2021-11-30 |
公开(公告)号: | CN114116803A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 辜坤 | 申请(专利权)人: | 中国建设银行股份有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/23;G06F9/50;G06F9/54 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张娜;黄健 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据文件 处理 方法 装置 设备 存储 介质 | ||
本申请提供一种大数据文件的处理方法、装置、设备及存储介质,该方法涉及数据存储领域,可应用于任一应用服务器,以提高应用服务器对大数据文件的数据处理能力。该方法包括:接收数据处理任务和数据配置文件,数据处理任务用于处理大数据文本文件,数据配置文件用于定义对大数据文本文件进行分块处理、状态记录以及更新的规则。数据处理任务根据数据配置文件规则读取并执行大数据文本文件的待处理数据,同时记录数据处理状态,直至大数据文本文件中所有待处理数据均处理成功。上述方案基于数据配置文件依次对大数据文本文件的待处理数据进行分块处理和状态记录,可提升服务器处理文件的灵活性和效率。
技术领域
本申请涉及数据存储领域,尤其涉及一种大数据文件的处理方法、装置、设备及存储介质。
背景技术
随着网络信息技术的加速发展和应用,物联网、移动互联、社交网络等大大拓展了互联网的应用领域,互联网时代的数据正在迅速膨胀,大数据成为信息技术发展的新热点。
大数据环境下的数据来源丰富且数据类型多样,存储和分析挖掘的数据量庞大,对数据展现的要求较高。传统的数据处理方法是以处理器为中心,而大数据环境下,需要采取以数据为中心的模式,减少数据移动带来的开销。因此,传统的数据处理方法,已不能适应大数据的需求。
发明内容
本申请实施例提供一种大数据文件的处理方法、装置、设备及存储介质,以提高应用服务器对大数据文件的数据处理能力。
本申请实施例的第一方面提供一种大数据文件的处理方法,包括:
接收数据处理任务和数据配置文件,所述数据处理任务用于处理大数据文本文件,所述数据配置文件用于指示对所述大数据文本文件进行分块处理、记录以及更新的方法;
根据所述数据配置文件读取并执行所述大数据文本文件的待处理数据,同时记录数据处理状态,直至所述大数据文本文件中的所有待处理数据均处理成功。
在本申请第一方面的一个可选实施例中,所述根据所述数据配置文件读取所述大数据文本文件的待处理数据,包括:
根据所述数据配置文件从redis中间件读取所述大数据文本文件的待处理数据。
在本申请第一方面的一个可选实施例中,所述数据配置文件包括对所述大数据文本文件进行单次处理行数的配置信息;所述根据所述数据配置文件读取并执行所述大数据文本文件的待处理数据,同时记录数据处理状态,直至所述大数据文本文件中的所有待处理数据均处理成功,包括:
根据所述单次处理行数对所述大数据文本文件的待处理数据进行切分,得到多个待处理数据单元,每个待处理数据单元包括M行待处理数据,M为正整数;
依次读取并执行所述多个待处理数据单元,同时记录每个待处理数据单元的数据处理状态,直至所有待处理数据单元均处理成功。
在本申请第一方面的一个可选实施例中,所述数据配置文件包括记录单次处理状态的配置信息;所述方法还包括:
根据所述记录单次处理状态的配置信息,获取每个待处理数据单元对应的初始数据处理标记键值对,每个待处理数据单元对应的初始数据处理标记键值对均指示所述待处理数据单元的处理状态为未处理;
将所述多个待处理数据单元对应的初始数据处理标记键值对存储至数据库。
在本申请第一方面的一个可选实施例中,所述依次读取并执行所述多个待处理数据单元,包括:
从redis中间件中读取第一待处理数据单元对应的数据处理标记键值对,若所述数据处理标记键值对指示所述第一待处理数据单元的处理状态为处理失败或未处理,获取并执行所述第一待处理数据单元中的待处理数据;
所述第一待处理数据单元为所述多个待处理数据单元中的任意一项。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司,未经中国建设银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111440255.6/2.html,转载请声明来源钻瓜专利网。