[发明专利]数据处理方法、设备及计算机可读存储介质在审

专利信息
申请号: 202210567020.1 申请日: 2022-05-23
公开(公告)号: CN114912051A 公开(公告)日: 2022-08-16
发明(设计)人: 黄勇 申请(专利权)人: 招商银行股份有限公司
主分类号: G06F16/957 分类号: G06F16/957;G06F40/151;G06Q40/02
代理公司: 深圳市世纪恒程知识产权代理事务所 44287 代理人: 刘锡滨
地址: 518000 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据处理 方法 设备 计算机 可读 存储 介质
【说明书】:

发明公开了一种数据处理方法、设备及计算机可读存储介质,其中,方法包括:在HTML文档的HTML元素中,确定银行流水文档中各个表头名称对应的表头HTML元素以及各个表文文本对应的表文HTML元素;基于表头HTML元素以及表文HTML元素,确定各个表头名称和各个表文文本在银行流水文档中的位置信息;基于所述HTML文档中各个所述表文HTML元素的顺序,遍历各个表文HTML元素,并基于位置信息生成各个当前遍历的表文HTML元素对应的键值对;基于所述键值对确定银行流水文档对应的流水记录信息,在各个表文HTML元素遍历完成时,输出流水记录信息。本发明通过对文档的解析将银行流水信息转变为结构化的流水数据,确保了银行流水信息解析结果的准确性、有效性。

技术领域

本发明涉及数据处理领域,尤其涉及一种数据处理方法、设备及计算机可读存储介质。

背景技术

银行流水,是指银行账户的交易明细。在现代社会中,银行流水的作用越来越大,人们在进行办理住房贷款、车贷、申请信用卡等操作时,都需要提供银行流水。对银行流水的各类收入、支出等进行分类汇算,可以综合分析评估账户所有人的资金实力、偿债能力等。但由于每家银行的系统不一致,所以获取到的不同银行的银行流水PDF文档之间存在较大的差异,为了将不同银行的银行流水信息统合为同一种信息,需要寻求能够对多家主流银行的银行流水文档进行解析的统一方法。

在相关技术中,为了识别与解析银行流水文档,一般是应用OCR技术对流水文档进行快速扫描并获得相关信息,但是由于OCR技术容易受到图像明暗、字体大小、颜色不同等影响,导致解析出来的银行流水信息准确性不高。

发明内容

本发明的主要目的在于提供一种数据处理方法、设备及计算机可读存储介质,旨在解决银行流水信息解析结果的准确性不高的技术问题。

为实现上述目的,本发明提供一种数据处理方法,所述数据处理方法包括以下步骤:

将银行流水文档转换为HTML文档,并在所述HTML文档的HTML元素中,确定所述银行流水文档中各个表头名称对应的表头HTML元素以及各个表文文本对应的表文HTML元素;

基于所述表头HTML元素以及所述表文HTML元素,确定各个所述表头名称和各个所述表文文本在所述银行流水文档中的位置信息;

基于所述HTML文档中各个所述表文HTML元素的顺序,遍历各个所述表文HTML元素,并基于所述位置信息生成各个当前遍历的表文HTML元素对应的键值对,其中,所述键值对的value数据为当前遍历的表文HTML元素对应的当前表文文本,所述键值对的key数据为所述当前表文文本对应的表头名称;

基于所述键值对确定所述银行流水文档对应的流水记录信息,在各个所述表文HTML元素遍历完成时,输出所述流水记录信息。

优选地,所述基于所述HTML文档中各个所述表文HTML元素的顺序,遍历各个所述表文HTML元素,并基于所述位置信息生成各个当前遍历的表文HTML元素对应的键值对的步骤包括:

将当前遍历的表文HTML元素对应的表文文本作为待处理表文文本,基于所述位置信息,获取所述待处理表文文本对应的表文范围,其中,所述表文范围为所述待处理表文文本的横坐标范围,所述位置信息包括各个所述表头名称对应的表头起始坐标、表头像素宽度以及各个所述表文文本对应的表文起始坐标、表文像素宽度;

基于所述位置信息以及第一预设范围系数,获取各个所述表头名称对应的表头范围,其中,所述表头范围为各个所述表头名称对应的横坐标范围;

基于所述表文范围对各个所述表头范围进行对比,在各个所述表头范围中,确定是否存在覆盖所述表文范围的目标表头范围;

若存在,则基于所述待处理表文文本以及所述目标表头范围对应的表头名称,生成所述键值对。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于招商银行股份有限公司,未经招商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210567020.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top