[发明专利]基于视觉结构属性的文本定位方法及系统有效
申请号: | 201410804810.2 | 申请日: | 2014-12-19 |
公开(公告)号: | CN104463138B | 公开(公告)日: | 2018-08-28 |
发明(设计)人: | 王娜;李霞;翟芳冬 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20 |
代理公司: | 深圳市恒申知识产权事务所(普通合伙) 44312 | 代理人: | 陈健 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 视觉 结构 属性 文本 定位 方法 系统 | ||
本发明属于图像识别技术领域,尤其涉及一种基于视觉结构属性的文本定位方法及系统。本发明从文本视觉属性的角度出发,通过颜色极性差异变换和边缘邻域末端粘合,检测出丰富的封闭边缘,以得到充裕的候选连通元,然后经过文字笔画属性特征和文本群落属性特征筛选,从候选连通元中提取出属于文字的连通元,然后通过多通道融合及去除重复连通元的方法定位出最终的文本。本发明所采用的方法鲁棒性强,适应文字语言类别混杂、字体风格多样、排列方向随机及背景存在干扰等多种情形,定位出的文本可直接提供给OCR软件进行识别,并可提高OCR软件识别率。本发明可应用在图像视频检索、垃圾信息拦截、辅助视觉导航、街景地图定位、工业装备自动化等诸多领域。
技术领域
本发明属于图像识别技术领域,尤其涉及一种基于视觉结构属性的文本定位方法及系统。
背景技术
图像及视频中的文本所包含的语义信息是理解图像及视频内容的重要线索,可广泛应用于图像及视频检索、辅助视觉导航、工业装备自动化等诸多领域。然而,复杂背景下文本的OCR(Optical Character Recognition,光学文字识别)识别率却不高,通用且高效的文本区域定位与文字分割方法依然是当前急需解决的技术难题。
对于复杂背景下的文本图像,必须在进行OCR识别之前对文本进行定位、文字分割及透视校正等处理,才能较好地完成文本信息的提取。这其中,文本定位技术作为OCR识别前的关键一步,顺理成章地受到了人们的广泛关注和长期研究。然而,代表了当前最高技术水平的文本定位算法也只能使OCR识别率达到约75%,远未达到人们的期望及可以广泛应用的程度。
图像分割是进行文本定位所普遍采用的方法,通过图像分割可以区分出文本区域与背景区域,以便进行文本定位。而边缘检测又是图像分割所采用的常用技术手段,在以图像分割为目的的边缘检测中,需要检测出的边缘尽可能封闭,因此,在边缘检测算子末端需要进行边缘生长、粘合等处理,使边缘尽量封闭,从而分割出整体。然而,如果边缘形状过于复杂,比如具有复杂背景的文本的边缘图像,由于复杂背景的存在,给文本的边缘图像带来了大量噪声,容易造成边缘的错误粘合,使分割出的文本与真实文本之间误差较大,并且粘合速度慢、效率低。
当前主流的文本定位方法,从处理对象的角度看,可分为基于连通元的方法(Connected Component-based Methods)、基于纹理的方法(Texture-based Methods)和基于边缘的方法(Edge-based Methods)三大类型。
基于连通元的方法是利用图像中的处于同一局部区域的文本文字具有相似的颜色、大小、宽高比等几何特征,应用颜色聚类和连通域分析等技术将可能属于同一文字的像素进行聚类合并以得到候选文本区域,最后结合处于同一语义文本文字在图像中的排列特征,定位出文本。基于连通元的方法执行时间短,并且定位精度较高,但是当背景复杂或文本区域与颜色相近的背景区域连接时,该方法的准确度就会大大降低。
基于纹理的方法是将文字看作是具有某种特殊的图像纹理,通过对图像进行一定的变换从而提取图像中的这类纹理信息,并结合分类器技术判定该窗口区域是否为文本,从而得到候选文本区域,最后对二值图像进行形态学处理,滤除噪声点以及连接断裂的文本区域。基于纹理的方法具有良好的通用性,对于不同语言、不同尺寸的文字都能获得较高的检测率,方法鲁棒性强。但是该类算法计算复杂度高,计算时间长,同时如何选取通用有效的纹理特征实现文字区域的分类是该类算法的难点,难以准确把握。
基于边缘的方法通常首先使用边缘检测技术对整幅图像进行边缘检测,常用的有梯度算子Sobel算子、Canny算子、以及一些特殊的边缘检测算子,然后根据边缘密度,结合文本行的几何结构特征,制定启发式约束条件实现文本区域的检测定位。基于边缘的方法的优点是时间复杂度低,可以满足实时应用的需要,而且受文本颜色的影响较小,但是当背景纹理复杂时误检率就会提高,比如背景中存在某些规则排列的物体时容易被误检成文字区域。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410804810.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:纺织车间智能抄表机器人
- 下一篇:双目虹膜图像检测方法和装置