[发明专利]基于直方图和超像素的场景图像文字检测方法及系统有效
申请号: | 201410168244.0 | 申请日: | 2014-04-24 |
公开(公告)号: | CN103942797B | 公开(公告)日: | 2017-01-25 |
发明(设计)人: | 张永铮;周宇 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06T7/00 | 分类号: | G06T7/00 |
代理公司: | 北京轻创知识产权代理有限公司11212 | 代理人: | 杨立 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 直方图 像素 场景 图像 文字 检测 方法 系统 | ||
技术领域
本发明涉及基于直方图和超像素的场景图像文字检测方法及系统,属于信息安全和计算机视觉领域。
背景技术
近年来,随着内置相机的移动设备的增加,各类在自然场景中拍摄的照片数量成爆炸性增长。很多非常有价值的应用,例如:基于文字信息的图片查询、智能驾驶辅助、视力障碍人员的阅读辅助和场景的理解等,都依赖于从图片中获取文字信息的方法。因此,自然场景中的文字提取与识别作为处理这种新数据来源的核心问题,成为近年来计算机视觉研究的热点话题。
文字检测方法包括基于连通域分析的方法和基于滑动窗口的方法。基于连通域分析的方法通过对图片中的连通域进行分析,并通过对文字空间分布约束及几何特性来过滤字符和非字符。Epshtein等[1]提出使用边缘检测算法提取出图片中的边缘,并利用梯度信息等来计算这些边缘组成区域的“笔画”宽度来做为分类依据;在Epshtein工作的基础上,黄韡林等[2]提出在计算“笔画”宽度时需要保持“笔画”的颜色一致性,以及使用协方差描述符来对检测到的文本行和字符进行过滤。另一类文字检测的算法主要是通过滑动窗口实现的,例如Cunzhao Shi等[3]提出的使用梯度直方图来构造基于部件的树结构文字检测算法;Jung等[4]提出的使用笔画滤波器来进行多尺度的文字检测。与基于滑动窗口的方法相比,基于连通域的方法计算复杂度低,但是比较依赖于边缘检测的质量,在光照复杂和图片质量较低的环境中效果略差。由于场景图像中的文字颜色和字体等的种类、变化较多,并且基于滑动窗口的方法需要在多个尺度对图像基于分析,因此,该方法计算复杂度较高,而且常常需要一个大的训练集对分类器进行训练。在基于连通域分析的方法中,基于“笔画”宽度的算法由于其简单性和有效性获得了很多关注,并且出现了一些对该算法的改进算法。然而,在文字受到部分遮挡或噪音较多的情况下,受边缘检测和梯度估算的精确度的影响,这些算法的性能依然不是十分理想。
发明内容
本发明所要解决的技术问题是,针对现有技术使用超像素修正在复杂环境中边缘检测失效的不足,提供一种提高检测算法的召回率和准确率的基于笔画宽度直方图和超像素的场景图像文字检测方法。
本发明解决上述技术问题的技术方案如下:基于直方图和超像素的场景图像文字检测方法,具体包括以下步骤:
步骤1:对目标图片中可能存在的文字宽度值进行估计得到笔画宽度值,基于笔画宽度值生成一个笔画直方图;
步骤2:将笔画直方图中的笔画宽度值设置为超像素的步长参数;对目标图片进行边缘检测,将上述设定了步长参数的超像素与边缘检测的结果进行比对和修正,得到在此笔画宽度值的情况下,边缘检测质量最高的连通域;
步骤3:对连通域进行骨架化,得到骨架像素;根据骨架像素对笔画宽度值进行估算得到高精度笔画宽度;
步骤4:根据高精度笔画宽度对目标图片进行过滤,区分字符与非字符,得到字符;
步骤5:通过连通域的空间分布利用几何约束进一步对得到的字符进行过滤,得到精准字符,并基于精准字符区分目标图片中文本行和非文本行,得到文本行;
步骤6:完成对目标图片中对精准字符和文本行的检测。
本发明的有益效果是:本发明针对文字检测问题中的文字的边缘特性提高边缘检测质量;提出一种高速和高精度的笔画宽度计算方法,以提高文字与非文字连通域过滤的精度和效率。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,还包括步骤7:统计文本行中各个精准字符之间的距离值,设定词内的字符距离阈值和词间距离阈值;
步骤8:根据字符距离阈值和词间距离阈值对文本行分割为精准字符。
采用上述进一步方案的有益效果是,根据字符距离阈值和词间距离阈值对文本行分割为字符后,可以为后续的字符识别提供便利。
进一步,所述步骤5中所述的几何约束包括笔画宽度一致性、宽高比、连通域之间的重叠性等。
进一步,步骤1具体包括以下步骤:
步骤1.1:使用Canny边缘检测算子计算得到目标图片中的多个边缘像素;使用Sobel算子计算得到目标图片的梯度值;得到目标图片中所有边缘像素的梯度值;
步骤1.2:以一个边缘像素为基准边缘像素,向基准边缘像素的梯度方向进行搜索所有存在的边缘像素;判断是否存在与基准边缘像素成对的映射边缘像素,如果存在,执行步骤1.3;否则,删除此作为基准边缘像素的边缘像素,返回执行步骤1.2;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410168244.0/2.html,转载请声明来源钻瓜专利网。