[发明专利]基于边缘信息和分布熵的视频字幕识别设计方法无效
申请号: | 201110024330.0 | 申请日: | 2011-01-23 |
公开(公告)号: | CN102208023A | 公开(公告)日: | 2011-10-05 |
发明(设计)人: | 魏宝刚;庄越挺;袁杰;鲁伟明 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/46 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 张法高 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 边缘 信息 分布 视频 字幕 识别 设计 方法 | ||
1.一种基于边缘信息和分布熵的视频字幕识别方法,其特征在于它的步骤如下:
1)检测当前帧与前一已处理帧的差别,若差别大,则进行以下字幕识别操作,否则继续取下一帧进行判断;
2)字幕识别首先进行字幕检测,在字幕检测中使用边缘检测、边缘点连接、连通域收集及分割方法、连通域精化及拖尾过滤方法得到候选文本域及其位置,再用联合熵过滤器移除非文本域,只留下字幕区域;
3)对字幕区域进行重复性检测,若该区域未重复,则将其颜色极统一为黑底白字,然后进行字幕抽取,否则处理下一字幕区域;
在字幕抽取中对颜色极统一后的字幕区域进行二值化,去除噪声点后送OCR软件识别。
2.根据权利要求1所述的一种基于边缘信息和分布熵的视频字幕识别方法,其特征在于所述的检测当前帧与前一已处理帧的差别,若差别大,则进行以下字幕识别操作,否则继续取下一帧进行判断步骤为:设本帧为Ii,其边缘二值图为Ei,其前一已处理帧即前面第5帧为Ii-5,其边缘二值图为Ei-5,令Di,i-5=Ei⊕Ei-5,令上一次检测出的字幕区域为Areai-5,j,又上一次各字幕区域边缘二值图累加和的最小值为pMES,则当前帧中字幕区域累加差值计算如下:
1
若cFD小于或等于pMES×0.5,则不需要对本帧进行字幕识别操作,继续取后面第5帧进行判断,否则就需要对本帧进行字幕识别操作,为了进一步防止漏掉字幕,另设一计数值ck,每次cFD小于或等于pMES×0.5时ck值加1,反之则ck重置为0,若ck等于5,则无论前面判断如何,都需要对本帧进行字幕识别操作,同时ck重赋值0。
3.根据权利要求1所述的一种基于边缘信息和分布熵的视频字幕识别方法,其特征在于所述的字幕识别首先进行字幕检测,在字幕检测中使用边缘检测、边缘点连接、连通域收集及分割方法、连通域精化及拖尾过滤方法得到候选文本域及其位置,再用联合熵过滤器移除非文本域,只留下字幕区域步骤为:
(1)边缘检测方法
给定图像I,采用Sobel算子检测边缘,Sobel算子由水平SH、垂直SV、对角线SLD、逆对角线SRD 四个方向上的梯度模板组成,边缘场由下式计算:
2
其中表示在像素(x,y)处与最大梯度绝对值方向垂直的方向,k为一个调节系数,本文中其取值为1,S然后量化成16级,量化后表示为S’,然后用下式得到边缘映射图EdgeMap:
3
(2)边缘点连接方法
对于边缘映射图EdgeMap,若同行两个边缘点的距离小于某一阀值Td,则将EdgeMap中这两个像素之间的像素值都置为1,也即填充这两个边缘点间的像素,Td由下式确定:
4
其中height和width分别为图像I的高和宽;
(3)连通域收集及分割方法
对上步得到的EdgeMap进行连通域收集,去掉那些高或宽小于整幅图像高或宽的1%的连通域,同时去掉那些最小包围矩形小于整幅图像面积0.2%的连通域,再使用如下步骤对每个连通域C进行区域分割:
a) 对于C中的每一行i,得到该行及以上部分的最小包围矩形的面积和该行以下部分的最小包围矩形的面积,求出这两个面积的和,找出取得最小和的行号存储在bR中;
b) 对于C中的每一列j,得到该列及左边部分的最小包围矩形的面积和该列右边部分的最小包围矩形的面积,求出这两个面积的和,找出取得最小和的列号存储在bC中;
c) 令,,若mRA<mCA,则将连通域C在行上以第bR行为界分成两个连通域,否则将连通域C在列上以第bC列为界分成两个连通域;
其中tc ,bc lc 和 rc分别是区域C的上界行号、下界行号、左界列号和右界列号;
为了防止过分割,只有当连通区域C同时满足以下两个条件时才进行分割:连通域填充率小于0.8;分成的两个新连通域面积都大于整幅图像面积的0.2%;
(4)连通域精化及拖尾过滤方法
在进行区域精化前,先去掉那些高大于宽的2倍的连通域,这样可能会误删那些竖排的字幕,为了处理竖排字幕,只须将图像旋转90度,其它操作一模一样;
对上步得到的每个连通区域C,对其位置进行进一步精化的步骤如下:
输入:边缘映射图edgeMap,连通域C的初始上下边界位置
输出:精化后的上下界位置
d) 对于连通域C的任意行,计算其在edgeMap中的左右非0像素跨距,并存储在集合cSA中;
e) 对于连通域C的任意行,计算其在edgeMap中的行像素点数,并存储在集合中,即有;
f) 取cSA中的最大值存在中,并将其序号存在pSRN中;
取中的最大值存在中,并将其序号存在中;
g) 对于在范围内的所有行,取的最大行序号;
对于在范围内的所有行,取的最小行序号;
对于在范围内的所有行,取的最大行序号;
对于在范围内的所有行,取的最小行序号;
h) 令,即得到精化后的上下界位置;
其中 和 通常取值为0.6和0.3;
使用如下拖尾过滤方法去掉一些非字幕连通域:
i) 在上面步骤g) 完成后,继续在oPNA中向上和下扫描,直到当前行处的值小于,假设得到的行号分别为ttail和 btail;
j) 用下式计算尾巴的长:
tl1=t2-ttail, tl2=btail-b2, tl=max (tl1, tl2)
k) 用下式进行过滤,若deleteFlag(C)为1,说明此连通域不是字幕区域,应该删除;
5
其中ubc和utc分别表示连通域C精化后的上下界位置,而 和 通常取值为0.2和0.3;
(5)联合熵过滤器
使用联合前景像素分布熵和边缘像素分布熵的联合熵过滤器进行过滤,只留下字幕区域;
对于前景像素分布熵,是对某一连通域C的最小包围矩形Rect [tc,bc,lc,rc],其中tc,bc分别是上下界,lc,rc分别是左右界,使用Otsu阀值将其二值化,然后将其分成2行×4列=8部分,使用下式计算分布熵:
6
其中pi,j表示第i行第j列那部分非0像素的比率;
对于边缘像素分布熵,是将连通域C的最小包围矩形Rect [tc,bc,lc,rc]内的Sobel边缘二值图分成2行×4列=8部分,使用下式计算分布熵:
7
其中eij表示第i行第j列那部分边缘像素数目,而 er是8部分边缘像素数目总和,
对于任一精化后的连通域C,若其且,则认为其是字幕区域,否则就是非字幕区域,应该删除,实验得和分别取6.4和2.76时效果最好;
对于某些既有横排又有竖排字幕的图像,在原图和旋转90度所得的图像中进行字幕检测,再将两者检测结果进行合并,消除重复。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110024330.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:节电遥控器
- 下一篇:可输出多个参量的硅电容差压传感器
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置