[发明专利]文档图像分类方法、装置、存储介质及计算机设备在审

专利信息
申请号: 202211274774.4 申请日: 2022-10-18
公开(公告)号: CN115496952A 公开(公告)日: 2022-12-20
发明(设计)人: 卞晓瑜;肖鸣林;周浩然 申请(专利权)人: 壹沓科技(上海)有限公司
主分类号: G06V10/764 分类号: G06V10/764;G06V10/74;G06V10/82
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 郑华丽
地址: 200040 上海市静*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文档 图像 分类 方法 装置 存储 介质 计算机 设备
【说明书】:

本申请提供的文档图像分类方法、装置、存储介质及计算机设备,所述方法包括:接收多个待分类文档图像;获取每个所述待分类文档图像的文本信息;利用已设置的文本二分类模型,识别并标记每个所述文本信息中的各个目标关键词;确定每个所述文本信息中任意两个所述目标关键词在该文本信息所属待分类文档图像中的空间关系;依据各个所述目标关键词以及各个所述空间关系,确定与各个所述待分类文档图像对应的二维关键词序列;依据所述二维关键词序列对各个所述待分类文档图像进行分类,得到分类结果。应用本申请提供的方法,在同类文档图像经过已设置的模型后可以提取出相同的二维关键词序列,从而能够针对文字密集的文档图像做出较好的分类结果。

技术领域

本申请涉及计算机技术领域,尤其涉及一种文档图像分类方法、装置、存储介质及计算机设备。

背景技术

随着计算机技术的不断发展,办公电子化在各行各业得到了广泛应用,为了方便保存与查阅,纸质版的文档资料逐渐转化为图像。面对众多的图像,分类技术应运而生。现有的图像分类方法有很多种,如果是简单的图像可以直接编写特征分类算法,或者使用传统机器学习算法进行快速建模实验,如果是复杂的图像则需要使用深度学习算法。

发明人经过研究发现,现有的图像分类方法在自然场景应用广泛,但因为不同类别的文档图像之间的图像特征差异可能非常微小,不像自然场景下不同物体之间的特征差异那么显著,所以若将现有的图像分类方法应用到文字密集的文档图像中,无法得到较好的分类效果。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一,特别是现有技术中无法针对文字密集的文档图像做出较好分类结果的技术缺陷。

第一方面,本申请实施例提供了一种文档图像分类方法,所述方法包括:

接收多个待分类文档图像;

获取每个所述待分类文档图像的文本信息;

利用已设置的文本二分类模型,识别并标记每个所述文本信息中的各个目标关键词;

确定每个所述文本信息中任意两个所述目标关键词在该文本信息所属待分类文档图像中的空间关系;

依据各个所述目标关键词以及各个所述空间关系,确定与各个所述待分类文档图像对应的二维关键词序列;

依据所述二维关键词序列对各个所述待分类文档图像进行分类,得到分类结果。

在其中一个实施例中,所述获取每个所述待分类文档图像的文本信息的步骤,包括:

扫描每个所述待分类文档图像,确定每个所述待分类文档图像中包含的各个字符;

对各个所述字符进行初始化,以校正各个所述字符的字符格式;

依据经过初始化的各个字符,确定每个所述待分类文档图像的文本信息。

在其中一个实施例中,所述确定每个所述文本信息中任意两个所述目标关键词在该文本信息所属待分类文档图像中的空间关系的步骤,包括:

在每个所述待分类文档图像中,确定每两个所述目标关键词的X方向距离值和Y方向距离值;

确定第一距离值与第二距离值,所述第一距离值为各个所述X方向距离值中数值最大的X方向距离值,所述第二距离值为各个所述Y方向距离值中数值最大的Y方向距离值;

计算每两个所述目标关键词的X方向距离与所述第一距离值的第一距离比例,以及每两个所述目标关键词的Y方向距离与所述第二距离值的第二距离比例;

依据所述第一距离比例与所述第二距离比例确定每两个所述目标关键词之间的空间关系。

在其中一个实施例中,所述依据各个所述目标关键词以及各个所述空间关系,确定与各个所述待分类文档图像对应的二维关键词序列的步骤,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于壹沓科技(上海)有限公司,未经壹沓科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211274774.4/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top