[发明专利]一种表格合并单元格检测方法在审
申请号: | 202111672901.1 | 申请日: | 2021-12-31 |
公开(公告)号: | CN114529923A | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 曾令国;梁俊杰;李华盛;肖浪;杨词慧 | 申请(专利权)人: | 上海致宇信息技术有限公司 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V30/148;G06F40/174 |
代理公司: | 上海愉腾专利代理事务所(普通合伙) 31306 | 代理人: | 唐海波 |
地址: | 200433 上海市杨*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 表格 合并 单元格 检测 方法 | ||
本发明公开了一种表格合并单元格检测方法,所述方法包括以下步骤:获取含表格的图像;图像二值化处理获得二值图像;对二值图像进行识别获得表格结构的所有框线和交点集;通过交点集得到单元格集;在第一列中,以单元格为单位计算每个单元格的灰度值的平均值,得到第一列单元格灰度值的平均值集;计算平均值集中所有元素值的中位数;将平均值集中每一个元素的值与中位数的预定倍数进行比较,若元素值小于中位数的预定倍数,则判断该元素值所对应的行的行首没有文本,并将该行与上一行进行合并;输出合并完成的表格结构;使得表格识别更准确。
技术领域
本发明涉及图像表格识别技术领域,尤其涉及一种表格合并单元格检测方法。
背景技术
随着计算机技术的快速发展,电子文档的使用越来越普及,而且由于纸质文档易损毁、不易保存等问题,经常需要将纸质文档转化为数字形式,并存储在计算机中。例如,可以通过拍照或扫描等技术,将纸质文档转变为数字图像,再利用图像处理与光学字符识别(OpticalCharacterRecognition,OCR)等技术,识别数字图像中的文字,以进行进一步的编辑或其它应用。在这些的纸质文档资料中,有一类特殊的资料文档——表格文档,例如银行流水单,增值税发票,公司报表等等,其在我们的日常生活工作有着非常广泛的应用。文档表格线将整个文档划分为不同区域,是文档版面分析与识别信息结构化处理的重要的依据,因此对文档图像表格线的检测与去除的研究具有重要意义。
对于某些表格由于某一列过窄,而该列某个单元格内容远长于该列其他单元格,导致改单元格存在换行,需要用两行。在检测识别表格过程中,这两行理应合并,目前并没有合适的解决方法。
发明内容
鉴于目前图像表格识别技术领域存在的检测时无法合并占用两行或多行生成表格的问题,本发明提供一种表格合并单元格检测方法,能够根据检测出的某行第一列投影远低于其他行的第一列,判断该单元格不存在文字,并将其与上一行合并输出合并后的表格结构。
为达到上述目的,本发明的实施例采用如下技术方案:
一种表格合并单元格检测方法,所述方法包括以下步骤:
获取含表格的图像;
图像二值化处理获得二值图像;
对二值图像进行识别获得表格结构的所有框线和交点集;
通过交点集得到单元格集;
在第一列中,以单元格为单位计算每个单元格的灰度值的平均值,得到第一列单元格灰度值的平均值集;
计算平均值集中所有元素值的中位数;
将平均值集中每一个元素的值与中位数的预定倍数进行比较,若元素值小于中位数的预定倍数,则判断该元素值所对应的行的行首没有文本,并将该行与上一行进行合并;
输出合并完成的表格结构。
依照本发明的一个方面,所述对二值图像进行识别获得表格结构的所有框线和交点集包括:通过表格识别算法对二值图像进行识别,获得表格单元格结构,得到水平线集和垂直线集。
依照本发明的一个方面,所述对二值图像进行识别获得表格结构的所有框线和交点集包括:利用水平线集和垂直线集求出每条水平线段和每条垂直线段的交点,得到交点集。
依照本发明的一个方面,所述通过交点集得到单元格集,包括:将单元格集表述为Cell,Cell(i,j)表示第i行第j列的单元格,设共有n行m列的单元格;HCelli表示第i行所有单元格,VCellj表示第j列所有单元格,Hi表示第i行单元格的行高,Wj表示第j列单元格的列宽。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海致宇信息技术有限公司,未经上海致宇信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111672901.1/2.html,转载请声明来源钻瓜专利网。