[发明专利]一种文本图像的结构化处理方法及装置在审
申请号: | 202111230230.3 | 申请日: | 2021-10-21 |
公开(公告)号: | CN114120340A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 王亚领;马文伟;付晓;刘设伟 | 申请(专利权)人: | 泰康保险集团股份有限公司;泰康在线财产保险股份有限公司 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V30/42;G06V30/10;G06V30/146;G06V10/22;G06Q40/08 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100031 北京市西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 图像 结构 处理 方法 装置 | ||
本发明提供了一种文本图像的结构化处理方法、装置,包括:确定文本图像中的文本框,以及所有文本框中的项目文本框;确定所有文本框中的表头文本框,以及属性名称文本框;根据表头文本框、项目文本框和属性名称文本框之间的方位关系,从所有文本框中确定分别与项目文本框和属性名称文本框对应的属性值文本框,以及确定多行打印项目文本框;在建立文本图像的结构化关系时,将多行打印项目文本框进行合并。本发明中可以在结构化输出的同时,进一步通过上述方位关系,确定所有项目文本框中的多行打印项目文本框并进行合并,从而解决了文本图像的结构化输出中的多行打印问题,另外,整个过程可以通过机器算法自动的实现,从而降低了人力成本。
技术领域
本发明属于图像识别技术领域,特别是涉及一种文本图像的结构化处理方法、装置、计算机设备及计算机可读存储介质。
背景技术
医疗影像领域中,对于发票图像的光学字符识别(OCR,Optical CharacterRecognitio)项目,主要目的是利用对图像的文字识别内容以及文字坐标信息,对医疗发票的项目名称明细字段进行格式化标准输出。
现有技术中,客户会上传多张医疗发票,医疗发票上涵盖的文字信息众多,理赔作业人员进行理赔作业时需要将费用清单上的所有关于医疗的项目名称及其对应的属性项进行全量的精准的录入。。
但是,目前的方案中,由于医疗发票的版面相对复杂,项目名称字符过长时会导致多行打印,导致很难做到数据的标准结构化输出,另外,目前方案的人工参与度较高,导致人力成本居高不下。
发明内容
有鉴于此,本发明提供一种文本图像的结构化处理方法、装置、计算机设备及计算机可读存储介质,在一定程度上解决了目前方案中项目名称字符过长时会导致多行打印,导致很难做到数据的标准结构化输出,且目前方案的人工参与度较高,导致人力成本居高不下的问题。
依据本发明的第一方面,提供了一种文本图像的结构化处理方法,包括:
确定文本图像中的文本框,以及所有文本框中的项目文本框;
确定所有文本框中的表头文本框,以及属性名称文本框;
根据所述表头文本框、所述项目文本框和所述属性名称文本框之间的方位关系,从所有文本框中确定分别与所述项目文本框和所述属性名称文本框对应的属性值文本框,以及确定所有项目文本框中的多行打印项目文本框;
在根据所述项目文本框、所述属性名称文本框、所述属性值文本框的对应关系,建立所述文本图像的结构化关系时,将所述多行打印项目文本框与相邻行的文本框进行合并。
依据本发明的第二方面,提供了一种文本图像的结构化处理装置,该装置可以包括:
识别模块,用于确定文本图像中的文本框,以及所有文本框中的项目文本框;
第一确定模块,用于确定所有文本框中的表头文本框,以及属性名称文本框;
第二确定模块,用于根据所述表头文本框、所述项目文本框和所述属性名称文本框之间的方位关系,从所有文本框中确定分别与所述项目文本框和所述属性名称文本框对应的属性值文本框,以及确定所有项目文本框中的多行打印项目文本框;
合并模块,用于在根据所述项目文本框、所述属性名称文本框、所述属性值文本框的对应关系,建立所述文本图像的结构化关系时,将所述多行打印项目文本框与相邻行的文本框进行合并。
第三方面,本发明实施例提供了一种计算机设备,所述计算机设备包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如第一方面所述的文本图像的结构化处理方法包括的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泰康保险集团股份有限公司;泰康在线财产保险股份有限公司,未经泰康保险集团股份有限公司;泰康在线财产保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111230230.3/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序