[发明专利]文档图像分类方法、装置、存储介质及计算机设备在审
申请号: | 202211274774.4 | 申请日: | 2022-10-18 |
公开(公告)号: | CN115496952A | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 卞晓瑜;肖鸣林;周浩然 | 申请(专利权)人: | 壹沓科技(上海)有限公司 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/74;G06V10/82 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 郑华丽 |
地址: | 200040 上海市静*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 图像 分类 方法 装置 存储 介质 计算机 设备 | ||
1.一种文档图像分类方法,其特征在于,所述方法包括:
接收多个待分类文档图像;
获取每个所述待分类文档图像的文本信息;
利用已设置的文本二分类模型,识别并标记每个所述文本信息中的各个目标关键词;
确定每个所述文本信息中任意两个所述目标关键词在该文本信息所属待分类文档图像中的空间关系;
依据各个所述目标关键词以及各个所述空间关系,确定与各个所述待分类文档图像对应的二维关键词序列;
依据所述二维关键词序列对各个所述待分类文档图像进行分类,得到分类结果。
2.根据权利要求1所述的文档图像分类方法,其特征在于,所述获取每个所述待分类文档图像的文本信息的步骤,包括:
扫描每个所述待分类文档图像,确定每个所述待分类文档图像中包含的各个字符;
对各个所述字符进行初始化,以校正各个所述字符的字符格式;
依据经过初始化的各个字符,确定每个所述待分类文档图像的文本信息。
3.根据权利要求1所述的文档图像分类方法,其特征在于,所述确定每个所述文本信息中任意两个所述目标关键词在该文本信息所属待分类文档图像中的空间关系的步骤,包括:
在每个所述待分类文档图像中,确定每两个所述目标关键词的X方向距离值和Y方向距离值;
确定第一距离值与第二距离值,所述第一距离值为各个所述X方向距离值中数值最大的X方向距离值,所述第二距离值为各个所述Y方向距离值中数值最大的Y方向距离值;
计算每两个所述目标关键词的X方向距离与所述第一距离值的第一距离比例,以及每两个所述目标关键词的Y方向距离与所述第二距离值的第二距离比例;
依据所述第一距离比例与所述第二距离比例确定每两个所述目标关键词之间的空间关系。
4.根据权利要求1所述的文档图像分类方法,其特征在于,所述依据各个所述目标关键词以及各个所述空间关系,确定与各个所述待分类文档图像对应的二维关键词序列的步骤,包括:
在每个所述待分类文档图像中,依据各个所述目标关键词的文本信息,以及每两个所述目标关键词之间的所述空间关系,得到每两个所述目标关键词对应的子序列;
由各个所述子序列组成各个所述待分类文档图像对应的二维关键词序列。
5.根据权利要求1所述的文档图像分类方法,其特征在于,在属于同一类的各个所述待文档图像中,每两个所述待分类文档图像对应的二维关键词序列之间的相似度大于预设阈值。
6.一种文档图像分类装置,其特征在于,包括:
文档图像接收模块,用于接收多个待分类文档图像;
文本信息获取模块,用于获取每个所述待分类文档图像的文本信息;
目标关键词标记模块,用于利用已设置的文本二分类模型,识别并标记每个所述文本信息中的各个目标关键词;
空间关系确定模块,用于确定每个所述文本信息中任意两个所述目标关键词在该文本信息所属待分类文档图像中的空间关系;
二维关键词序列确定模块,用于依据各个所述目标关键词以及各个所述空间关系,确定与各个所述待分类文档图像对应的二维关键词序列;
文档图像分类模块,用于依据所述二维关键词序列对各个所述待分类文档图像进行分类,得到分类结果。
7.根据权利要求6所述的文档图像分类装置,其特征在于,所述文本信息获取模块包括:
文档图像扫描单元,用于扫描每个所述待分类文档图像,确定每个所述待分类文档图像中包含的各个字符;
字符初始化单元,用于对各个所述字符进行初始化,以校正各个所述字符的字符格式;
文本信息确定单元,用于依据经过初始化的各个字符,确定每个所述待分类文档图像的文本信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于壹沓科技(上海)有限公司,未经壹沓科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211274774.4/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序