[发明专利]基于文本显著性的场景文本检测方法有效
申请号: | 201611137890.6 | 申请日: | 2016-12-12 |
公开(公告)号: | CN106778757B | 公开(公告)日: | 2019-06-04 |
发明(设计)人: | 邬向前;卜巍;唐有宝 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/20;G06N3/08 |
代理公司: | 哈尔滨龙科专利代理有限公司 23206 | 代理人: | 高媛 |
地址: | 150000 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 显著 场景 检测 方法 | ||
本发明公开了一种基于文本显著性的场景文本检测方法,该方法包括如下步骤:初始文本显著性检测、文本显著性细化和文本显著性区域分类。在初始文本显著性检测阶段,设计了用于文本显著性检测的CNN模型,该模型能从图像中自动学习能够表征文本内在属性的特征并得到对文本有意识的显著性图。在文本显著性细化阶段,设计了文本显著性细化CNN模型用来对粗糙的文本显著性区域进行进一步文本显著性检测。在文本显著性区域分类阶段,使用文本显著性区域分类CNN模型过滤非文本区域,并得到最终的文本检测结果。本发明通过在场景文本检测过程中引入显著性检测,能有效地检测场景中的文本区域,提高场景文本检测方法的性能。
技术领域
本发明涉及一种场景文本检测方法。
背景技术
场景文本检测是指在不同场景图像中定位文本区域所在的位置,比如路标、商店名称和警示牌等,其是端到端的场景文本识别的一个重要的步骤。有效的场景文本检测结果有助于提高大量多媒体应用的性能,比如移动视觉搜索、基于内容的图像检索和自动指示牌翻译等。近年来,一系列有关场景文本检测的国际竞赛被成功的举办,很大程度上促进了场景文本检测技术的研究。但由于自然场景环境中的很多不可控因素,比如文本大小的不同、颜色的差异和复杂的背景等,使得场景文本检测仍然是计算机视觉领域中的一个极具挑战的问题。
场景文本检测的第一个步骤是候选文本区域(candidate text region,记为CTR)的提取。传统的CTR提取方法,通常是基于滑动窗口、笔画宽度变换(stroke widthtransform,记为SWT)和最大稳定极值区域(maximally stable extremal region,记为MSER),因此它们没有充分利用文本本身固有的内在特性,从而导致提取出比真实文本区域多很多的大量非文本候选区域,以至于使得后续的非文本区域过滤过程的任务非常艰巨。而且传统的这些CTR提取方法对某些外在的因素比较敏感,比如光照变化和图像模糊等。这些都会引起一部分真实文本区域不能被提取到,从而导致低的召回率。例如,目前已发表的文献在ICDAR2015场景文本检测库中最好的召回率只有0.83。因此,候选文本区域提取的好坏将直接影响最终的文本检测性能。
发明内容
本发明的目的是借助显著性检测的思想,并将其应用到场景文本检测中,进而提出一种基于文本显著性的场景文本检测方法。
本发明的目的是通过以下技术方案实现的:
一种基于文本显著性的场景文本检测方法,包括如下步骤:
一、初始文本显著性检测
(1)构建初始文本显著性检测CNN模型,该模型是在VGGNet-16的基础上进行改进得到,只保留VGGNet-16中的前五个模块,并分别为每个模块引入一个侧输出模块(包含一个卷积层和一个去卷积层)用于监督学习,前两个模块使用文本边缘作为监督信号,后三个模块使用文本区域作为监督信号,最后将后三个侧输出模块的输出进行融合(即先将三个输出进行拼接,再使用一个卷积层对其进行卷积)并使用文本区域作为监督信号进行学习,上述提到的卷积层仅包含一个1×1的卷积核;
(2)对于给定的图像,使用初始文本显著性检测CNN模型得到其对应的文本显著性图;
(3)采用大津法对显著性图进行二值化后,得到二值图像;
(4)对于二值图像中的每一个连通体(即候选文本区域),计算其最小外接矩形;
(5)根据每一个最小外接矩形,从原始图像中裁剪得到一个图像块,并将其作为候选文本区域图像,该图像将是文本显著性细化CNN模型的输入。
二、文本显著性细化
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611137890.6/2.html,转载请声明来源钻瓜专利网。