[发明专利]基于视觉和语义特征协作与强化学习的视频摘要方法在审
申请号: | 202110873724.7 | 申请日: | 2021-07-30 |
公开(公告)号: | CN113569767A | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 钟睿;李陈鹏;肖地洋;王蕊;姚文进 | 申请(专利权)人: | 华中师范大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06N3/04;G06N3/08;G06F16/738 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 严彦 |
地址: | 430079 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 视觉 语义 特征 协作 强化 学习 视频 摘要 方法 | ||
1.一种基于视觉和语义特征协作与强化学习的视频摘要方法,其特征在于:包括以下步骤,
步骤1,将视频文件分解成帧序列,按照帧的时间顺序依次使用深度神经网络提取语义特征和视觉显著性特征;
步骤2,语义特征经过Bi-LSTM模型处理预测出各视频帧被选择为关键帧的初始概率;根据视觉显著性特征提取出空间注意力得分,归一化后作为Bi-LSTM模型初始概率的调整因子,利用调整因子对Bi-LSTM模型产生的初始概率进行调制得到调制概率;
步骤3,根据调制概率,确定语义特征与视觉显著性特征均重要的关键帧,实现VSFB模型;
步骤4,将原始视频分为帧数为K的多个独立片段clip,K为预设值;计算选择的关键帧与相应clip中其他帧之间索引调整的差异性奖励和代表性奖励,依据强化学习奖励机制,动态调整初始概率,加强VSFB模型在视频摘要中的学习,最后得到理想模型,采用理想模型实现从任意待处理视频中的摘要提取。
2.根据权利要求1所述的基于视觉和语义特征协作与强化学习的视频摘要方法,其特征在于:所述步骤2中,根据视觉显著性特征提取出空间注意力得分,实现方式如下,
1)如果图像的显著域的显著水平大于预设等于的阈值,则该显著域被判定为能够吸引观众的注意力的核心显著域,判定出的核心显著域用来重新定义视觉显著性特征为空域关注度特征;
2)计算显著域占比;
3)将显著水平大于阈值的核心显著域像素面积占比之和作为视觉重要性得分λt;
4)将视觉重要性得分归一化后作为调整因子。
3.根据权利要求1所述的基于视觉和语义特征协作与强化学习的视频摘要方法,其特征在于:所述步骤2中,利用调整因子对Bi-LSTM模型产生的初始概率进行调制得到调制概率,实现方式如下,
视频帧的语义特征经过Bi-LSTM模型为每一帧预测一个初始概率pt,并用调整因子lt加以调整,得到调制概率βt,
βt=Wp·N(Rt×pt)+Wl·N(lt)
其中,N(·)=exp(·)/∑exp(·),Wp和Wl为权重,Rt为强化学习奖励函数值,用来调整初始概率。
4.根据权利要求1或2或3所述的基于视觉和语义特征协作与强化学习的视频摘要方法,其特征在于:步骤4中,关键帧的调整的差异性奖励Divk计算如下,
其中,k′代表视频摘要的关键帧,k代表原视频该clip中的其他帧;αindex(k,k′)表示帧之间的差异,αc(k,k′)表示视觉特征的差异,αv(k,k′)表示语义特征的差异。
5.根据权利要求1或2或3所述的基于视觉和语义特征协作与强化学习的视频摘要方法,其特征在于:步骤4中,视觉特征和语义特征结合的代表性奖励Repk计算如下,
其中,表示视觉特征和语义特征结合;[||]符号表示两个特征向量矩阵的连接操作,N(·)=exp(·)/∑exp(·)为归一化操作。
6.根据权利要求1或2或3所述的基于视觉和语义特征协作与强化学习的视频摘要方法,其特征在于:步骤4中,将差异性奖励Divk和代表性奖励Repk相结合,计算结合结果Rk=0.5×(Divk+Repk),作为强化学习的奖励函数值。
7.根据权利要求1或2或3所述的基于视觉和语义特征协作与强化学习的视频摘要方法,其特征在于:步骤4中,采用DDPG强化学习算法训练实现加强VSFB模型。
8.一种基于视觉和语义特征协作与强化学习的视频摘要系统,其特征在于:用于执行如权利要求1至7任一所述基于视觉和语义特征协作与强化学习的视频摘要方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110873724.7/1.html,转载请声明来源钻瓜专利网。