[发明专利]基于边缘信息和分布熵的视频字幕识别设计方法无效

申请号：	201110024330.0	申请日：	2011-01-23
公开（公告）号：	CN102208023A	公开（公告）日：	2011-10-05
发明（设计）人：	魏宝刚;庄越挺;袁杰;鲁伟明	申请（专利权）人：	浙江大学
主分类号：	G06K9/20	分类号：	G06K9/20;G06K9/46
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	张法高
地址：	310027 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于边缘信息分布视频字幕识别设计方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种基于边缘信息和分布熵的视频字幕识别方法，该方法用于实现在视频中检测并提取字幕用于OCR识别，属于计算机图像处理领域。

背景技术

随着多媒体和电子工业的发展，越来越多的视频信息被生产出来。如何有效的组织和检索它们就成为一个难题。很多视频资料如电视新闻、体育比赛、电影、综艺节目等都有后期制作中加入的字幕信息，这些字幕信息与视频内容密切相关。如能有效的识别这些字幕，则能利用它们对视频资料进行组织和检索，具有很强的实用价值。

视频字幕识别分为四步：字幕检测、字幕定位、字幕提取和OCR识别。字幕检测用于确定字幕区域；字幕定位用于定位每一行字幕的精确位置；字幕提取用于将字幕区域二值化，只保留笔划像素；最后一步一般交由商用OCR软件实现。字幕检测可以分为四种方法：基于边的方法、基于连通域的方法、基于颜色聚类的方法和基于纹理的方法。基于边的方法使用边过滤器来检测文本边，然后用形态学操作来合并它们。第八届文档分析与识别会议(In Proceedings of 8^rd International Conference on Document Analysis and Recognition (ICDAR),2005,610-614)公布的方法使用边缘检测方法得到四个边缘映射图，然后使用K-MEANS算法检测候选文本区域，最后使用启发式规则和投影分析来确定和精化文本区域。如果没有复杂的背景，基于边的方法的效果会很好，但是当背景包含很多边信息时，它们的效果就不太好。基于纹理的方法使用Gabor过滤器、小波变换、快速傅里叶变换等提取纹理特征，然后用神经网络、SVM分类器等机器学习的方法检测字幕区域。IEEE通信技术2008年会议论文集中（In Proceeding of IEEE International Conference on Communication Technology(ICCT),2008,722-725) 公布的一种方法使用HARR小波变换通过将4小块小波系数合并成一大块来定位大字体文本中，然后使用形态学膨胀操作和神经网格来增强效果。基于连通域的方法将一帧分割成多个小连通域，然后将它们合并到较大的连通域中用来定位字幕。ACM 多媒体技术2007年会议论文集中（In Proceedings of the ACM International Multimedia Conference and Exhibition 2007(MM)，847-850）公布的一种方法使用基于信用的颜色的聚类去掉噪声，他们根据各颜色面板的文本对比度差异来适应性的选择相对最好的颜色面板执行二值化操作。基于颜色聚类的方法假设视频帧中的文本颜色都是统一的，然而这一假设在大多数情况下是不成立的，因此其应用的局限性较大。由于利用一种特征进行字幕检测其效果不理想，因此很多方法联合使用以上多种特征。对于字幕定位，一般使用灰度投影的方法。字幕提取方法可以分为基于颜色的方法和基于笔划的方法。很多基于颜色的方法使用Otsu方法对灰度图进行二值化，但当字幕和背景的灰度级非常相近时，该方法不能很好的分辨出它们，从而不能很好的去噪。《电气和电子工程师协会视频技术电路与系统学报》2005年第15期（IEEE Transactions on Circuits and Systems for Video Technology 2005，15（2）：243-255）和《电气和电子工程师协会图像处理学报》2009年第18期（IEEE Transactions on Image Processing 2009，18（2）：401-411）中公布的一种方法使用有更好的分辨力的局部适应性阀值，结合dam点标记和向内填充，使得大部分噪声点能去被移除。

上面这些字幕检测方法均对视频字幕检测工作作出了一些有益的尝试，但这些方法对字幕与背景的分辨效果不是很好，仅采用这些方法检测一些语言、字体及文字对齐方式多变的视频进行处理效果不佳。另外已存的字幕提取方法虽然能去掉大部分噪音，但由于OCR软件对噪声点非常敏感，导致复杂背景下文本识别的效果不佳。

发明内容

本发明的目的是克服现有技术的不足，提供一种基于边缘信息和分布熵的视频字幕识别方法。

基于边缘信息和分布熵的视频字幕识别方法的步骤如下：

1）检测当前帧与前一已处理帧的差别，若差别大，则进行以下字幕识别操作，否则继续取下一帧进行判断；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110024330.0/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于边缘信息和分布熵的视频字幕识别设计方法无效

专利文献下载