[发明专利]两阶段的anchor-based动态视频摘要方法有效
申请号: | 202110779734.4 | 申请日: | 2021-07-09 |
公开(公告)号: | CN113505266B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 刘峰;徐达;赵峥涞 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/738 | 分类号: | G06F16/738;G06F16/75 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 王素琴 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 阶段 anchor based 动态 视频 摘要 方法 | ||
本发明是一种两阶段的anchor‑based动态视频摘要方法。该方法包括(1)构建anchor‑based神经网络,神经网络包括提取网络、自注意力机制网络、两阶段网络即区域推荐网络和回归分类网络;(2)确定区域推荐网络和回归分类网络中anchor的种类和长度,完成正负样本的分类,对步骤(1)构建的anchor‑based神经网络进行训练,固定训练好的参数,得到两阶段的anchor‑based神经网络模型,用得到的神经网络模型进行动态视频摘要。本发明提出的全新网络结构可以并行处理所有的视频帧,从而减少了训练的时间,有效提升了最终输出的精确度,并且本网络结构相对简单,对于计算能力的要求不高。
技术领域
本发明涉及一种视频摘要方法,具体的说是涉及一种两阶段的anchor-based动态视频摘要方法。
背景技术
随着科学技术的发展,摄像设备变得普及,上传、下载视频的网络变得流畅,随之而来的是视频资源日益增多。因此,现实生活出现了这一技术需求——大幅缩短视频时长同时可以表达原来视频的主要含义。视频摘要方法的出现成功应对了这一需求,目前,视频摘要技术已经成功应用在众多领域,如监控视频分析、电影预告片的生成、运动识别等等。
目前,研究视频摘要的方法主要有两类方法:1)静态视频摘要方法,也称关键帧选择方法。该方法通过提取或选择具有代表性的帧来精简视频。2)动态视频摘要。该方法通过保留连续的小视频段来实现对视频内容的精简。
在视频摘要领域最主流的方法是使用长短期记忆网络,Long Short-TermMemory,简称LSTM,是一种特殊的循环神经网络,具有长期记忆功能。它利用“输入门限层”来决定需要丢弃或更新的值,保证各个信息实时存在且为最新的状态,同时能够一定程度上解决梯度爆炸,梯度消失问题。但该网络不能并行运行,所以其性能很大程度受到限制。后来,又提出了双向长短期记忆网络,Bi-directional Long Short-Term Memory,简称BiLSTM,是由前向LSTM与后向LSTM组合而成,成功解决LSTM不能并行运行的这一弊端,但是随之带来的问题是网络实现变得相当复杂而且对于计算要求较高。
发明内容
为了解决上述技术问题,本发明了一种两阶段的anchor-based动态视频摘要方法,该方法用过anchor机制和两阶段网络,提高视频摘要的准确性和鲁棒性。
为了达到上述目的,本发明是通过以下技术方案实现的:
本发明是一种两阶段的anchor-based动态视频摘要方法,包括如下步骤:
(1)构建两阶段的anchor-based神经网络,所述的两阶段的anchor-based神经网络包括特征提取网络、自注意力机制网络、两阶段网络;
具体包括如下步骤:
(1.1)将视频下采样至2fps,然后逐帧输入到特征提取网络(GoogLeNet),获取每帧图像1*1024维特征向量,用wi表示第i帧图像的1*1024维特征向量,所有帧图像的特征向量构成N*1024维特征矩阵,用W1表示:
W1=[w1,w2...wi...wN]
其中,N代表帧的数量;
(1.2)将获得的N*1024维特征矩阵W1输入到自注意力机制网络,获得特征矩阵W1的注意力权值矩阵,用A表示:
A=[a1,a2...ai...aN]
其中,ai表示所有特征向量关于第i帧特征向量的注意力向量
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110779734.4/2.html,转载请声明来源钻瓜专利网。