[发明专利]表格提取方法与表格提取系统在审
申请号: | 202210364491.2 | 申请日: | 2022-04-07 |
公开(公告)号: | CN114663897A | 公开(公告)日: | 2022-06-24 |
发明(设计)人: | 路浩南 | 申请(专利权)人: | 贝壳找房网(北京)信息技术有限公司 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V20/62;G06V10/26;G06V30/148;G06V30/10 |
代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 王晓晓 |
地址: | 101520 北京市密云区经济开发区兴盛南路*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 表格 提取 方法 系统 | ||
本发明涉及图像处理技术领域,公开一种表格提取方法与系统。所述方法包括:通过图像分割模型对表格图像进行分割,以获得标记有各个像素点处的线属性的掩膜图像;采用图像学方法对掩膜图像进行处理,以获取每个单元格的顶点坐标、起始行索引、起始列索引、终止行索引与终止列索引;通过文本识别模型对表格图像进行识别,以获得每个文本的最小外接矩形的顶点坐标与文本内容;根据每个单元格的顶点坐标与每个文本的最小外接矩形的顶点坐标,确定每个单元格内的文本内容;以及根据上述行索引与列索引及文本内容,生成以目标文件呈现的表格。本发明在表格印刷的不清楚或噪音干扰较大的情况下,仍可精准地提取任何版式的表格。
技术领域
本发明涉及图像处理技术领域,具体地涉及一种表格提取方法与表格提取系统。
背景技术
表格OCR(Optical Character Recognition,光学字符识别)是指对图片中表格的结构信息进行提取,并结合OCR对图像中的文字信息进行提取,并以excel等形式还原表格中的信息。
传统的表格OCR方法可以分成以下两种。一种方法是,使用OCR对表格中的文本进行检测识别,并根据文本框的空间排布信息推导出有哪些行、有哪些列、哪些单元格需合并,由此生成电子表格。对于数据表格版式并不统一的单据,采用这种方法需要编写无穷无尽的规则对识别出的文字进行结构化,且很难做到通用。另一种方法是,运用图像形态学变换并结合相应阈值等手段提取表格线,再结合OCR结果对信息进行结构化,从而生成电子表格。此种方法抗干扰性差,如果表格框线印刷的不是很清楚或者噪音干扰较大,就会影响表格框线检测结果,从而造成最终信息难以还原的结果。
发明内容
本发明的目的是提供一种表格提取方法与表格提取系统,其在表格印刷的不清楚或噪音干扰较大的情况下,仍可精准地提取任何版式的表格。
为了实现上述目的,本发明第一方面提供一种表格提取方法,所述表格提取方法包括:通过图像分割模型对表格图像进行分割,以获得标记有各个像素点处的线属性的掩膜图像;采用图像学方法对所述掩膜图像进行处理,以获取每个单元格的顶点坐标及所述每个单元格的起始行索引、起始列索引、终止行索引与终止列索引;通过文本识别模型对所述表格图像进行识别,以获得所述表格图像中的每个文本的最小外接矩形的顶点坐标与文本内容;根据所述每个单元格的顶点坐标与所述每个文本的最小外接矩形的顶点坐标,确定所述每个单元格内的文本内容;以及根据所述每个单元格的起始行索引、起始列索引、终止行索引与终止列索引及所述每个单元格内的文本内容,生成以目标文件呈现的表格。
优选地,所述采用图像学方法对所述掩膜图像进行处理包括:对所述掩膜图像进行连通域标记,得到各个连通域;根据所述各个连通域中的像素点的坐标,获取与所述各个连通域相匹配的最小外接矩形框中的四个线段的头坐标与尾坐标;根据与所述各个连通域相匹配的最小外接矩形框中的四个线段的头坐标与尾坐标,建立单元格矩阵;以及对所述单元格矩阵进行连通域标记,以获取所述每个单元格的顶点坐标。
优选地,所述获取与所述各个连通域相匹配的最小外接矩形框中的四个线段的头坐标与尾坐标包括:根据所述各个连通域中的像素点的坐标,获取与所述各个连通域相匹配的最小外接矩形框的顶点坐标;以及根据与所述各个连通域相匹配的最小外接矩形框的顶点坐标及所述最小外接矩形框中的每个线段的方向,确定所述每个线段的头坐标与尾坐标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贝壳找房网(北京)信息技术有限公司,未经贝壳找房网(北京)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210364491.2/2.html,转载请声明来源钻瓜专利网。