[发明专利]一种在任意自然场景下检测行文本的方法有效
申请号: | 201610268752.5 | 申请日: | 2016-04-27 |
公开(公告)号: | CN105930813B | 公开(公告)日: | 2019-03-01 |
发明(设计)人: | 石柱国 | 申请(专利权)人: | 北京以萨技术股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32 |
代理公司: | 北京兆君联合知识产权代理事务所(普通合伙) 11333 | 代理人: | 刘俊玲 |
地址: | 100015 北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种在任意自然场景下检测行文本的方法,包括:在待检测图像中,通过比较各像素点的像素值来找出像素值极值点,然后基于所述极值点回溯扩展得到文本字符可能出现的所有区域;排除噪声区域;利用霍夫变换,基于剩余区域的中心映射在二维坐标系中的坐标点找出所有可能角度的直线,并最终通过非极大值抑制的方法确定一条最佳斜率的直线,以该直线上对应的区域作为检测到的行文本。本发明的方法通过快速分析所有像素中所有的可能构成字符的区域,并利用霍夫变换找出所有可能的角度,不依赖字符边缘,对光照和清晰度的影响较小。 | ||
搜索关键词: | 一种 任意 自然 场景 检测 行文 方法 | ||
【主权项】:
1.一种在任意自然场景下检测行文本的方法,其特征在于:在待检测图像中,通过比较各像素点的像素值来找出像素值极值点,然后基于所述极值点回溯扩展得到文本字符可能出现的所有区域;排除噪声区域;利用霍夫变换,基于剩余区域的中心映射在二维坐标系中的坐标点找出所有可能角度的直线,并最终通过非极大值抑制的方法确定一条最佳斜率的直线,以该直线上对应的区域作为检测到的行文本;所述方法具体是通过计算机程序完成以下步骤:1)定义一个region,表示可能的文本字符;同时定义一个heap和一个stack,可存放region;再定义一个与图像大小相同的access map,其中所有点的对应值为0或1;初始化所有点对应值为0;2)标记任意一个像素为当前点,将其access map对应值修改为1;3)将一个空的region压入步骤1)定义的stack;4)根据更新后的access map判断当前点周围有没有access map中对应值为0的点;根据判断结果做如下处理:4.1)有,则比较该点的像素值是否小于当前点像素值,将比较中参与过比较的点的access map中对应值改为1,并根据判定结果进一步做如下处理:4.1.1)不小于,则将该点记录在步骤1)定义的heap中,然后将该点作为新的当前点重复步骤4);或者,4.1.2)小于,则将当前点记录在步骤1)定义的heap中,跳入步骤3);或者,4.2)无,则将当前点记录在位于步骤3)所述的stack顶部的region中,记录方法如下:region记录一个矩形,x1,y1为左上角点值坐标,x2,y2为右下角点值坐标;5)步骤4)所述的记录完成后,判断步骤4)得到的heap是否为空,并根据判断结果做如下处理:5.1)否,则进一步对记录在heap中的像素点做如下处理:5.1.1)当前处理的像素点与上一个处理的像素点像素值不同,则将位于步骤4.2)所述的stack顶端的region记录的矩形作为潜在的文本字符;或者,5.1.2)当前处理的像素点与上一个处理的像素点像素值相同,则进一步根据判断当前处理的点像素值是否小于位于步骤4.2)所述的stack顶部第二位置点的像素值,并根据判断结果做如下处理:5.1.2.1)是,则将步骤4.2)所述的stack顶部两个region记录的矩形融合;或者,5.1.2.2)否,则以当前处理的像素点为当前点重复步骤4);每次在步骤4.2)所述的region记录的矩形中添加一个新的像素时,根据添加的新像素更新坐标x1,y1,x2,y2的值;同时在region中设置一个area来记录实际添加的像素点数,有新的点被添加记录时,area值+1;或者,5.2)是,则停止比较和记录过程;6)将步骤5.1.1)得到的所有可能的文本字符的矩形根据矩形的长宽,以及长宽比值,做一个过滤,把不符合字符大小的矩形过滤掉;7)定一个point map,与图像大小相同,初始化值为0;8)将步骤6)过滤后剩余的所有可能为文本字符的矩形按照如下规则影射在步骤7)定义的point map上:px=rx+rw/2py=ry+ry/2其中,(px,py)为文本字符矩形在point map上的坐标,将此坐标在point map上的值修改为255;即把每一个文本矩形的中心,映射在point map上;9)用霍夫变换在point map上的点中寻找直线;10)根据找到的直线的斜率,以及直线与x,y轴的截距,通过非极大值抑制的方法找到与预期斜率最吻合的直线;该直线上对应的文本字符矩形,即为检测到的行文本。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京以萨技术股份有限公司,未经北京以萨技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610268752.5/,转载请声明来源钻瓜专利网。
- 上一篇:基于虚拟现实设备的虹膜识别系统
- 下一篇:车辆开门预警方法