[发明专利]一种渐进层次认知的场景图像文本检测方法有效

申请号：	201310253437.1	申请日：	2013-06-24
公开（公告）号：	CN103413132A	公开（公告）日：	2016-11-09
发明（设计）人：	刘跃虎;周刚;苏远歧;翟少卓	申请（专利权）人：	西安交通大学
主分类号：	G06K9/46	分类号：	G06K9/46;G06K9/66
代理公司：	西安智大知识产权代理事务所 61215	代理人：	何会侠
地址：	710049***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种渐进层次认知场景图像文本检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及场景图像文本检测技术领域，具体涉及一种渐进层次认知的场景图像文本检测方法。

背景技术

文本检测是通过文字具有的视觉外观特征，把文本区域从图像中定位出来，为后续的文本识别提供有力支持。文本检测作为文本信息提取中的关键性技术，早已成为计算视觉领域的热点研究问题。但文本作为一种特殊的视觉目标，由于文本尺寸、字体、颜色、语种等具有不确定性，同时自然场景图像中大量的复杂背景容易与文本混淆，这些使得场景图像文本区域很难被检测出来。现有采用基于连通成分的文本检测方法的关键性步骤是根据文本连通成分同非文本连通成分的差异进行区分的，但文本连通成分的外观各异、与非文本连通成分的外观相似，使得这种连通成分区分变得困难。

因此，从连通成分的外观特征与上下文结合进行区分是一类新的技术路线。Pan方法利用近邻二元关系的上下文并考虑外观特征（参考Pan的方法：Pan YF,Hou XW,Liu CL.A Hybrid Approach to Detect and Localize Texts in Natural Scene Images[J].IEEE Transactions on Image Processing,2011,20(3):800-813）。Yi方法和Yao方法对文本连通成分在空间上形成的高阶关系分析文本行特征（参考Yi的方法：Chucai Y,YingLi T.Text string detection from natural scenes by structure-based partition and grouping[J].IEEE Transactions on Image Processing,2011,20(9):2594-2605.参考Yao的方法：Cong Y,Xiang B,Wenyu L,et al.Detecting texts of arbitrary orientations in natural images[C],2012:1083-1090）。但是综合外观特征、低阶关系、高阶关系仍然缺乏相应的理论模型，这使得特征设计以及参数学习都存在困难，模型的普适性不足。

发明内容

为了解决上述现有技术存在的问题，本发明的目的在于提供一种渐进层次认知的场景图像文本检测方法，用于车载视觉导航和场景图像语义分析等视觉智能系统，在连通成分分析方面比现有方法的查准率和查全率都有效提高。

为达到以上目的，本发明采用如下技术方案：

一种渐进层次认知的场景图像文本检测方法，借鉴人类认知的层次特点，在获得场景图像连通成分基础上，首先利用连通成分的空间相邻和排列关系组成不同的连通成分集合：单个连通成分、连通成分对和连通成分行；然后针对不同连通成分集合分别设计不同的特征，把不同连通成分集合的文本置信度作为后续连通成分集合的一种特征；通过连通成分集合的一致性认知假设和条件随机场模型监督学习每个层次的分类器参数，并依次计算连通成分的文本置信度；最终定位文本行；具体包括如下步骤：

步骤1：在第一层分析中，提取单个连通成分的外观特征，用分类器监督学习并估计单个连通成分的文本置信度；

步骤2：在第二层分析前，候选单个连通成分以空间位置关系，两两聚类形成连通成分对；

步骤3：在第二层分析中，提取连通成分对的相似性特征和平均连通成分能量特征，用分类器监督学习并估计连通成分对的文本置信度；

步骤4：在第三层分析前，候选连通成分对以相连关系和排列关系，形成连通成分行；

步骤5：在第三层分析中，提取连通成分行的外观差异特征、梯度直方图特征、所有单个连通成分的能量特征均值和连通成分对的能量特征均值，利用分类器监督学习定位文本行。

针对单个连通成分，设计的特征为外观特征，包括几何特征、线宽特征以及纹理特征。

针对连通成分对，设计的特征为相似性特征和平均连通成分能量特征。

针对连通成分行，设计的特征为外观差异特征、梯度直方图特征以及所有单个连通成分的能量特征均值和连通成分对的能量特征均值。

本发明与已有技术相比的不同点（创新点）如下：

1）本发明采用人类认知的层次特点，从三个层次对象，逐一设计对应特征，把分析结果在层次间传播，渐进滤除非文本连通成分，本发明引入分类器输出作为连通成分集合文本置信度的层次传播，能有效提高场景图像文本检测结果的查全率和查准率；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载