[发明专利]基于特征摘要图的视频中的户外场景文本自动获取方法有效
申请号: | 201711381971.5 | 申请日: | 2017-12-20 |
公开(公告)号: | CN108038458B | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 黄晓冬;王勤 | 申请(专利权)人: | 首都师范大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06K9/46;G06K9/62 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 夏宪富 |
地址: | 100048 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 摘要 视频 中的 户外 场景 文本 自动 获取 方法 | ||
一种基于特征摘要图的视频中的户外场景文本自动获取方法,首先获取场景文本的视频帧图像,并基于视频帧图像的RGB色彩空间生成视频帧特征摘要图:先在RGB色彩空间上分别提取水平、垂直、45度和135度四个方向的四个卷积图,得到表征色彩空间的四个方向特征向量,进而获得代表不同方向视频帧的十个显著图并进行融合计算,得到视频帧特征摘要图。然后基于视频帧特征摘要图和RGB色彩空间进行K均值颜色聚类计算,得到表示背景、前景文字字符、字符轮廓和噪音的四个区域的四类结果后,再分别分析四类结果的连通域,删除背景和噪音两个区域,自动获取最终的户外场景文本。本发明操作步骤简单、计算容易,能够实时识别和获取的户外场景文本,推广应用前景好。
技术领域
本发明涉及一种数字图像处理方法,确切地说,涉及一种基于特征摘要图的视频中的户外场景文本自动获取方法,属于计算机视觉处理的技术领域。
背景技术
过去的几年中,随着数字图像采集装置、智能手机和实用视觉系统及其设备的普及,基于内容的图像理解技术得到越来越多的关注。因为图像/视频中的场景文本具有比较丰富、直接的语义信息线索,因此,场景文本被认为是必须要被检测和识别的重要对象。其中,文本检测、定位、提取和识别是获取文本信息的主要步骤。通常是将文本检测、定位和提取的操作统一称为文本获取。对于文本识别而言,文本获取是非常重要的前提,因为它减少了复杂背景,消除了照明效果,从而使得识别相对简单和容易。然而,由于室内外的不均匀光照,图像/视频的模糊不清,背景复杂,透视变形,颜色多样性,字体复杂和笔划宽度的不同等等多种不利因素,都对视频场景文本的获取产生很大的挑战性和严峻性。
目前,国内外的研究人员已经在视频场景文本的获取技术方面研制成功了多种方法。现在,将场景文本的提取分为两个步骤:(1)场景文本的检测定位,(2)场景文本的提取。
现有技术的场景文本检测定位方法可分为:基于颜色的、基于边缘/梯度的、基于纹理的和基于笔划的四种不同的场景文本检测方法。其中:
基于颜色的场景文本检测:这是一种早就提出并已经用了20余年的传统方法,该方法简单又高效:通常采用基于局部阈值的场景文本检测算法,也有研究人员采用改进尼布拉克Niblack算法中的局部阈值获取方法,使得该方法能够用于一些背景比较简单的场景文本进行快速检测。研究人员还提出使用均值移动(mean shift)算法生成颜色层,以便显著提高在复杂背景下文本检测的鲁棒性。但是,在视频/图像中存在多种颜色的字符和光照不均匀时,基于颜色特征的文本检测会遇到许多难题。
基于边缘/梯度的场景文本检测:假设在背景区域上显示的文本区域出现强烈且对称的变化时,具有大的、对称的梯度值的像素可被视为文本像素,这就可以将边缘特征和梯度特征用于场景文本检测中。研究人员还提出一种基于边缘增强的场景文本检测算法。这类研究包括基于尺寸、位置和颜色距离的空间限制,将水平排列的“梯度矢量流”通过聚类方式找到文本候选区域。当前,研究人员提出将梯度/边缘特征与各种分类器(例如人工神经网络或AdaBoost算法)相结合的基于AdaBoost分类器的场景文本检测算法;甚至进一步提出在基于AdaBoost分类器的基础上,再增加一种基于神经网络的文本定位器的检测方法。但是,这类算法难以检测具有强烈梯度的复杂背景下的场景文本。
基于纹理的场景文本检测:当字符区域比较密集时,场景文本可被视为一种纹理。当前许多方法都采用提取纹理特征来检测场景文本,包括采用傅立叶变换,离散余弦变换DCT(Discrete Cosine Transform),小波,局部二值模式LBP(Local Binary Pattern)和方向梯度直方图HOG(Histogram of Oriented Gradient)等等。虽然纹理特征能被用于有效检测密集的字符,然而该方法可能无法检测稀疏的字符。于是,研究人员分别提出基于傅里叶频域特征检测场景文本和基于频域中的DCT系数检测场景文本的方法。近来又提出一种基于局部二值模式(Local Haar Binary Pattern)特征检测场景文本算法。然而,当呈现的背景复杂时,许多背景噪音也都显示出与文本相似的纹理,这样就降低了该方法的检测精度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都师范大学,未经首都师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711381971.5/2.html,转载请声明来源钻瓜专利网。