[发明专利]一种无线框表格图像表格结构识别方法在审
申请号: | 202111672896.4 | 申请日: | 2021-12-31 |
公开(公告)号: | CN114529922A | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 梁俊杰;曾令国;缪小勇;邹伟军;魏海波;杨词慧 | 申请(专利权)人: | 上海致宇信息技术有限公司 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V10/50;G06V10/36;G06K9/00 |
代理公司: | 上海愉腾专利代理事务所(普通合伙) 31306 | 代理人: | 唐海波 |
地址: | 200433 上海市杨*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 无线 表格 图像 结构 识别 方法 | ||
本发明公开了一种无线框表格图像表格结构识别方法,所述方法包括以下步骤:获取无线框表格图像;对图像进行处理转换为灰度图像;将灰度图像单行的像素点的像素值累加,得到灰度图像的行投影;将灰度图像单列的像素点的像素值累加,得到灰度图像的列投影;对行投影进行扫描获得行波峰和行波谷;对列投影进行扫描获得列波峰和列波谷;根据行波谷和列波谷计算表格线位置得到表格结构;能够有效地对无线框表格图像进行检测识别生成含有框线的表格结构,对于后期的文档图像版面分析与识别工作有着重要的意义;提升了表格识别效率和准确性。
技术领域
本发明涉及图像表格识别技术领域,尤其涉及一种无线框表格图像表格结构识别方法。
背景技术
随着计算机技术的快速发展,电子文档的使用越来越普及,而且由于纸质文档易损毁、不易保存等问题,经常需要将纸质文档转化为数字形式,并存储在计算机中。例如,可以通过拍照或扫描等技术,将纸质文档转变为数字图像,再利用图像处理与光学字符识别(OpticalCharacterRecognition,OCR)等技术,识别数字图像中的文字,以进行进一步的编辑或其它应用。在这些的纸质文档资料中,有一类特殊的资料文档——表格文档,例如银行流水单,增值税发票,公司报表等等,其在我们的日常生活工作有着非常广泛的应用。文档表格线将整个文档划分为不同区域,是文档版面分析与识别信息结构化处理的重要的依据,因此对文档图像表格线的检测与去除的研究具有重要意义。
然而,现在很多的情况下,一些表格文档资料虽然是根据表格生成的,却没有生成表格框线,这些文档资料需要转到电子文档时,无法准确识别并生成表格进行表述,也就是因为没有框线无法识别并生成准确的电子表格。
发明内容
鉴于目前表格识别技术领域存在的无法识别无线框的表格图像生成表格的问题,本发明提供一种无线框表格图像表格结构识别方法,通过像素行、列投影获得行、列波谷进行表格结构的计算生成。
为达到上述目的,本发明的实施例采用如下技术方案:
一种无线框表格图像表格结构识别方法,所述方法包括以下步骤:
获取无线框表格图像;
对图像进行处理转换为灰度图像;
将灰度图像单行的像素点的像素值累加,得到灰度图像的行投影;
将灰度图像单列的像素点的像素值累加,得到灰度图像的列投影;
对行投影进行扫描获得行波峰和行波谷;
对列投影进行扫描获得列波峰和列波谷;
根据行波谷和列波谷计算表格线位置得到表格结构。
依照本发明的一个方面,所述根据行波谷和列波谷计算表格线位置得到表格结构包括以下步骤:
过行波谷的中点画水平线,过列波谷的中点画垂直线;所有水平线的集合形成水平线集,所有垂直线的集合形成垂直线集;
每一条水平线与每一条垂直线相交得到一个交点,设置一个点集,包含所有交点;
将水平线集第一条线段和垂直线集第一条线段的交点作为左上角,将水平线集第一条线段和垂直线集最后一条线段的交点作为右上角,将水平线集最后一条线段和垂直线集第一条线段的交点作为左下角,将水平线集最后一条线段和垂直线集最后一条线段的交点作为右下角,生成表格结构。
依照本发明的一个方面,所述对行投影进行扫描获得行波峰和行波谷包括:对行投影逐行进行扫描,根据行投影值的大小,将行投影值小于第一阈值的连续区间作为行波谷,除了行波谷的其他区域作为行波峰。
依照本发明的一个方面,所述对列投影进行扫描获得列波峰和列波谷包括:对列投影逐列进行扫描,根据列投影值的大小,将列投影值小于第二阈值的连续区间作为列波谷,除了列波谷的其他区域作为列波峰。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海致宇信息技术有限公司,未经上海致宇信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111672896.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动化细胞制备装置
- 下一篇:一种表格合并单元格检测方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序