[发明专利]一种基于深度学习的新闻视频标题提取方法有效
申请号: | 202010211414.4 | 申请日: | 2020-03-24 |
公开(公告)号: | CN111401368B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 王中元;陈何玲;裴盈娇;黄宝金;涂卫平 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V20/40;G06V10/74;G06V10/762;G06V10/774;G06V10/764;G06V10/80;G06V10/82;G06N3/0464 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 魏波 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 新闻 视频 标题 提取 方法 | ||
1.一种基于深度学习的新闻视频标题提取方法,其特征在于,包括以下步骤:
步骤1:利用帧间差分方法提取关键帧;
步骤1的具体实现包括以下步骤:
步骤1.1:利用OpenCV库读取视频,依次计算帧间差分,得到平均帧间差分强度D(x,y);
式中,fk(x,y)和fk+1(x,y)分别为第k帧和k+1帧图像,w和h为图像的长和宽,x和y为图像的坐标;
步骤1.2:基于步骤1.1得到的平均帧间差分强度,选择平均帧间差分强度为局部最大值的帧作为视频关键帧,并将其保存;
步骤2:使用EAST网络得到关键帧文字区域;
步骤3:使用CNN和RNN先后提取关键帧文字区域的特征向量;
步骤4:根据得到的特征向量进行关键帧的相似性比较,然后进行聚类得到新闻视频标题字幕图像。
2.根据权利要求1所述的基于深度学习的新闻视频标题提取方法,其特征在于,步骤2的具体实现包括以下步骤:
步骤2.1:将关键帧进行图像预处理,包括减均值和缩放处理;
步骤2.2:将预处理后的关键帧输入四个阶段的卷积层,得到四个不同规模的特征图f1、f2、f3、f4,其相对于输入图片分别缩小了1/4、1/8、1/16、1/32;
步骤2.3:将f4上采样后,得到特征图h1,h1与f3串联,然后经过1×1和3×3的卷积后,得到融合特征图h2;将h2上采样后,与f2串联,然后经过1×1和3×3的卷积后,得到融合特征图h3;将h3上采样后,与f1串联,然后经过1×1和3×3的卷积后,得到融合特征图h4;最后经过3×3的卷积后输出最后的特征图;
步骤2.4:将步骤2.3最后得到的特征图与大小为1×1通道数为1的卷积核进行卷积,得到一张得分图Fs;Fs的大小为原图的1/4,通道数为1,每个像素表示对应于原图中像素为文字的概率值;
步骤2.5:将最后得到的特征图与大小为1×1通道数为4的卷积核进行卷积,得到四个通道的Text boxes,四个通道分别表示该像素点到文本框的四条边的距离;将最后得到的特征图与大小为1×1通道数为1的卷积核进行卷积,得到一个通道的Text rotationangle,表示该像素所在框的倾斜角度;这里Text boxes和Text rotation angle合起来称为Geometry map,用Fg表示;
步骤2.6:将步骤2.5得到的文本框用非极大值抑制NMS进行整合,输出最后的关键帧文字区域。
3.根据权利要求1所述的基于深度学习的新闻视频标题提取方法,其特征在于,步骤3的具体实现包括以下步骤:
步骤3.1:将步骤2所得到的关键帧文字区域输入VGG结构的网络中,为了能将VGG提取的特征输入致LSTM中,将VGG的第三、四层的池化层的核尺度由2×2变成了1×2;为了能加速网络模型训练,在VGG的第五、六层后面加上BN层;因为输入图像不定宽,所以最后输出N个1×512的特征;
步骤3.2:将CNN得到的特征按顺序输入RNN中,为了防止训练时梯度的消失,采用LSTM神经单元作为RNN的单元;因为序列的前向信息和后向信息都有助于序列的预测,所以采用双向RNN网络;最后得到关键帧文字区域的特征向量。
4.根据权利要求1所述的基于深度学习的新闻视频标题提取方法,其特征在于,步骤4的具体实现包括以下步骤:
步骤4.1:使用欧式距离计算相邻关键帧的文字相似度,得到一个相似度向量P,欧式距离的公式为:
其中,n表示图像的像素点数,xi和yi分别表示两张图片的第i个像素点;
步骤4.2:将相似度向量的两个相邻元素相减,即P[i+1]-P[i],如果相邻元素相减之和的绝对值在0.5的范围内,且连续有三个值都在0.5范围内,则认为含有标题,输出其帧号;
步骤4.3:为了防止相同标题字幕之间因为有说话字幕将其判定为两个标题字幕,将步骤4.2产生的含有标题的帧再次执行步骤4.2,最后将相似度绝对值在0.5以内的新闻视频标题字幕图像输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010211414.4/1.html,转载请声明来源钻瓜专利网。