[发明专利]一种表格文档图像中字符提取方法有效

专利信息
申请号: 201310148624.3 申请日: 2013-04-26
公开(公告)号: CN103258198A 公开(公告)日: 2013-08-21
发明(设计)人: 王俊峰;高琳;姬郁林;李虹 申请(专利权)人: 四川大学
主分类号: G06K9/20 分类号: G06K9/20;G06K9/54
代理公司: 成都信博专利代理有限责任公司 51200 代理人: 舒启龙
地址: 610065 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及图像处理、计算机视觉技术领域,具体涉及一种表格文档图像中字符提取方法,包括以下步骤:通过边缘检测与Hough变换算法提取出图像中的线段;根据线段的方向分布估计整幅图像的倾斜角度,对图像进行倾斜校正;对水平和垂直方向上的线段进行连接,定位出表格的单元格;针对每个单元格,采用最大类间方差方法进行图像二值化,分割出单元格中的整行字符,通过滑动窗口法提取出单元格中的每个字符;根据单元格框线的统计特征,对字符的笔画缺失进行恢复。本发明具有较好的灵活性,能够有效处理字符间粘连以及字符与表格线重叠的情况,大大减少粘连和重叠问题对OCR字符识别的影响。
搜索关键词: 一种 表格 文档 图像 字符 提取 方法
【主权项】:
一种表格文档图像中字符提取方法,其特征在于包括以下步骤:步骤一,将采集的彩色表格图像转化为灰度图像,对灰度图像进行高斯平滑,去除图像中的噪声;步骤二,利用边缘检测算子对图像进行卷积运算,再采用最大类间方差方法对图像进行二值化处理,然后采用Hough算法检测出边缘上的直线段;步骤三,将上一步得到的直线段按长度从大到小排序,选择最长的几个直线段,计算直线段相对于水平方向的倾斜角度;对这些倾斜角度排序,取中值作为图像的倾斜角度,通过旋转图像对其进行倾斜校正;步骤四,在倾斜校正后的图像中,保留水平方向和垂直方向上的直线段,去除其他直线段;计算不同直线段端点之间的距离,如果小于设定的阈值,则对直线段进行连接,获得表格的单元格图像;步骤五,针对每个单元格图像,分别采用最大类间方差方法进行图像分割,将单元格上像素灰度值设为背景灰度,使得区域中仅保留字符;设置滑动窗口,通过从左到右对窗口进行滑动搜索,分割出单元格中的每个字符;步骤六,针对上一步骤中提取出的单个字符,如果该字符没有与单元格框线重叠,则直接作为结果输出,否则根据字符与框线的重叠情况,对上述步骤中去除框线造成的笔画缺失进行恢复。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310148624.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top