[发明专利]一种文本图像的结构化处理方法及装置在审
申请号: | 202111230230.3 | 申请日: | 2021-10-21 |
公开(公告)号: | CN114120340A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 王亚领;马文伟;付晓;刘设伟 | 申请(专利权)人: | 泰康保险集团股份有限公司;泰康在线财产保险股份有限公司 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V30/42;G06V30/10;G06V30/146;G06V10/22;G06Q40/08 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100031 北京市西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 图像 结构 处理 方法 装置 | ||
1.一种文本图像的结构化处理方法,其特征在于,所述方法包括:
确定文本图像中的文本框,以及所有文本框中的项目文本框;
确定所有文本框中的表头文本框,以及属性名称文本框;
根据所述表头文本框、所述项目文本框和所述属性名称文本框之间的方位关系,从所有文本框中确定分别与所述项目文本框和所述属性名称文本框对应的属性值文本框,以及确定所有项目文本框中的多行打印项目文本框;
在根据所述项目文本框、所述属性名称文本框、所述属性值文本框的对应关系,建立所述文本图像的结构化关系时,将所述多行打印项目文本框与相邻行的文本框进行合并。
2.根据权利要求1所述的方法,其特征在于,所述确定文本图像中的文本框,以及所有文本框中的项目文本框,包括:
确定所述文本图像中的文本框,以及所述文本框所包含的文本内容;
将所述文本框的文本内容输入文本分类模型,得到类型为项目名称的项目文本内容,以及确定所述项目文本内容对应的项目文本框。
3.根据权利要求1所述的方法,其特征在于,所述确定所有文本框中的表头文本框,以及属性名称文本框,包括:
通过预设的关键字与所述文本框的文本内容进行匹配,确定所述表头文本框,以及所述属性名称文本框。
4.根据权利要求1所述的方法,其特征在于,所述根据所述表头文本框、所述项目文本框和所述属性名称文本框之间的方位关系,从所有文本框中确定与所述属性名称文本框对应的属性值文本框,包括:
根据由所述表头文本框到所述属性名称文本框所构成的第一直线的水平斜率,确定纵向斜率;
根据所述纵向斜率,在所述属性名称文本框的两侧分别设置纵向的第二直线;
将与所述第二直线重叠的项目框,确定为所述属性名称文本框对应的属性值文本框。
5.根据权利要求4所述的方法,其特征在于,所述根据所述表头文本框、所述项目文本框和所述属性名称文本框之间的方位关系,确定所有项目文本框中的多行打印项目文本框,包括:
根据所述水平斜率,以所述项目文本框为起点构建水平的第三直线;
在所述第三直线与所述属性值文本框不重叠的情况下,确定所述第三直线对应的项目文本框为所述多行打印项目文本框。
6.根据权利要求5所述的方法,其特征在于,所述根据所述表头文本框、所述项目文本框和所述属性名称文本框之间的方位关系,确定及与所述项目文本框对应的属性值文本框包括:
将与所述第三直线重叠的属性值文本框,确定为所述第三直线对应的项目文本框所对应的属性值文本框。
7.根据权利要求4所述的方法,其特征在于,所述第一直线为:由所述表头文本框的中心点到所述属性名称文本框的中心点所构成的直线。
8.一种文本图像的结构化处理装置,其特征在于,所述装置包括:
识别模块,用于确定文本图像中的文本框,以及所有文本框中的项目文本框;
第一确定模块,用于确定所有文本框中的表头文本框,以及属性名称文本框;
第二确定模块,用于根据所述表头文本框、所述项目文本框和所述属性名称文本框之间的方位关系,从所有文本框中确定分别与所述项目文本框和所述属性名称文本框对应的属性值文本框,以及确定所有项目文本框中的多行打印项目文本框;
合并模块,用于在根据所述项目文本框、所述属性名称文本框、所述属性值文本框的对应关系,建立所述文本图像的结构化关系时,将所述多行打印项目文本框与相邻行的文本框进行合并。
9.一种计算机设备,其特征在于,所述计算机设备包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行权利要求1至7中任一所述的文本图像的结构化处理方法包括的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一所述的文本图像的结构化处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泰康保险集团股份有限公司;泰康在线财产保险股份有限公司,未经泰康保险集团股份有限公司;泰康在线财产保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111230230.3/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序