[发明专利]基于视觉结构属性的文本定位方法及系统有效
申请号: | 201410804810.2 | 申请日: | 2014-12-19 |
公开(公告)号: | CN104463138B | 公开(公告)日: | 2018-08-28 |
发明(设计)人: | 王娜;李霞;翟芳冬 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20 |
代理公司: | 深圳市恒申知识产权事务所(普通合伙) 44312 | 代理人: | 陈健 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 视觉 结构 属性 文本 定位 方法 系统 | ||
1.一种基于视觉结构属性的文本定位方法,其特征在于,包括如下步骤:
RGB颜色极性差异变换:对原始图像进行RGB颜色极性差异变换,得到变换后的图像,所述RGB颜色极性差异变换是将其三个颜色通道中的最低亮度值置零,其他两个通道的亮度值各自保留其相对亮度强度;
边缘检测:将变换后的图像的两个颜色通道进行边缘检测,分别得到该两个颜色通道的边缘图像;同时,对原始图像的灰度图像进行边缘检测,得到原始图像的灰度图像的边缘图像;
构建连通元:检测每一幅边缘图像中从属于同一目标的边缘,所述同一目标的边缘指视觉上应当连通的边缘,将从属于同一目标,且未连通的边缘连通成一封闭边缘,并将所述封闭边缘所围成的区域作为一连通元,据此在每一幅边缘图像中形成若干连通元,所述连通元包括单层连通元或嵌套型连通元;
连通元笔画属性分析:对每一幅边缘图像中的各连通元进行笔画属性分析,将各连通元的笔画属性与预存的文字笔画属性进行比较,根据比较结果从每一幅边缘图像中提取出符合文字笔画属性的连通元;
连通元群落属性分析:对从每一幅边缘图像中提取出的符合文字笔画属性的连通元进行群落属性分析,将各连通元的群落属性与预存的文本群落属性进行比较,并根据比较结果从符合文字笔画属性的连通元中提取出符合文本群落属性的连通元;
图像融合及文本定位:在同一尺度下将从三幅边缘图像中提取出的符合文字笔画属性及文本群落属性的连通元融合到一幅边缘图像中,在融合的过程中去除重复的连通元,将融合后的边缘图像中的各连通元作为文本。
2.如权利要求1所述的基于视觉结构属性的文本定位方法,其特征在于,对原始图像中的每一像素,设其R、G、B三个通道的原始亮度值分别为R1、G1、B1,经过颜色极性差异变换后的亮度值分别为R2、G2、B2;则颜色极性差异变换公式为:
R2=0.5[max(0,R1-G1)+max(0,R1-B1)];
G2=0.5[max(0,G1-R1)+max(0,G1-B1)];
B2=0.5[max(0,B1-R1)+max(0,B1-G1)]。
3.如权利要求1所述的基于视觉结构属性的文本定位方法,其特征在于,检测每一幅边缘图像中从属于同一目标的边缘,将从属于同一目标,且未连通的边缘连通成一封闭边缘的方法具体为:
通过N*N大小的子窗口遍历每一幅边缘图像;N的取值以使该子窗口内所检测到的边缘从属于同一目标为原则;在子窗口移动的过程中,对子窗口内检测到的边缘缺口进行粘合。
4.如权利要求1所述的基于视觉结构属性的文本定位方法,其特征在于,所述连通元笔画属性分析的步骤包括:
分析每一幅边缘图像中各连通元的笔画属性;所述笔画属性包括:
宽高比:连通元的最小包络矩形框的宽度与高度两者之中较小值与较大值的比值;
回环笔画的嵌套深度:连通元中回环笔画的层数;
孔洞数量:连通元内所包含的子连通元的数量;
判断每一连通元的笔画属性是否同时满足以下三个条件,如果满足,则该连通元符合文字笔画属性;
该连通元的宽高比在预设的第一范围内;
该连通元的回环笔画的嵌套深度不大于预设的第一阈值;
该连通元的孔洞数量不大于预设的第二阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410804810.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:纺织车间智能抄表机器人
- 下一篇:双目虹膜图像检测方法和装置