[发明专利]一种视频密集描述方法、装置及介质有效
申请号: | 202110489246.X | 申请日: | 2021-05-06 |
公开(公告)号: | CN113312980B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 肖焕侯;史景伦;胡晨晨;熊静远;沈卫强 | 申请(专利权)人: | 华南理工大学;广东微步智能科技有限公司 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/774;G06V10/80;G06N3/04 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 黎扬鹏 |
地址: | 510641 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 密集 描述 方法 装置 介质 | ||
1.一种视频密集描述方法,其特征在于,包括以下步骤:
获取输入视频,采用C3D网络对输入视频进行特征提取,获得视频特征;
根据视频特征和双向SST算法对事件定位模块进行训练;
结合事件定位模块和基于注意力模型的事件描述模块进行训练,获得密集描述系统;
将待处理视频输入密集描述系统进行预测,经过联合排序后,将排序靠前的事件候选框及其对应的描述句子提取出来作为最终的密集描述结果;
所述视频密集描述方法还包括特征损失结合的步骤,包括:
视频中包含个子事件,选取最后一个事件作为基准事件,计算基准事件与其它所有事件的特征损失总和;
其中,两个事件的特征损失的计算公式如下:
其中,和fi是第个子事件和第i个子事件对应的视觉特征,k是视觉特征的维度,βi是损失项的偏置,intersection是视频中第i个子事件和第个子事件在时序上的重叠部分;
视频总的特征损失为:
2.根据权利要求1所述的一种视频密集描述方法,其特征在于,所述采用C3D网络对输入视频进行特征提取,获得视频特征,包括:
对于一个包含L帧的视频序列X={x1,x2,...,xL},以δ=16帧的间隔提取出4096维的C3D特征,使用PCA算法将4096维降维至500维;
输入的视频序列离散化为T=L/δ个时刻,获得视频特征V={v1,v2,...,vT}。
3.根据权利要求1所述的一种视频密集描述方法,其特征在于,所述根据视频特征和双向SST算法对事件定位模块进行训练,包括:
将提取的视频特征输入到正向LSTM网络和反向LSTM网络进行时序编码,在每个编码时刻对多个时间尺度的候选框进行预测;
前向过程:
将视频特征V输入正向LSTM网络,在t时刻,正向LSTM网络输出的隐状态向量包含t时刻和t时刻之前的视觉信息;
隐状态向量被送入K个二分类器,获得对应的K个候选框的置信度表示结束时间为t,开始时间为t-li的时序候选框是真实候选框的可能性;其中表示预定义的K个候选框的长度;
根据候选框和真实候选框获取前向损失;
后向过程:
将视频特征V从后往前输入反向LSTM网络,在t时刻,获得K个候选框以及与候选框对应的置信度
根据候选框和真实候选框获取后向损失;
融合过程:
将前向过程和后向过程获得的拥有相同起止时间的候选框及置信度进行融合,获得最终的候选框,以及与最终的候选框对应的最终置信度;
根据前向损失和后向损失获得候选框定位损失Lp。
4.根据权利要求3所述的一种视频密集描述方法,其特征在于,前向过程和后向过程的置信度计算公式分别为:
其中,和为模型全连接层的参数;
最终的置信度计算方式为:
前向损失和后向损失的计算公式为:
其中,权重和通过计算训练样本中的正负样本比例得到,对于任意j∈{1,2,...,K},均有
5.根据权利要求1所述的一种视频密集描述方法,其特征在于,所述结合事件定位模块和基于注意力模型的事件描述模块进行训练,获得密集描述系统,包括:
将事件候选框对应的视频特征,及双向SST的时序编码器中产生的上下文隐状态向量输入到事件描述模块,生成描述句子;
将事件定位模块与事件描述模块进行耦合训练;
事件描述模块的损失函数为:
其中wi表示标记句子的第i个单词;
密集描述系统的联合损失函数为:
L=η×Lp+μ×Lf+λ×Lc
其中η,μ,λ为调节参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学;广东微步智能科技有限公司,未经华南理工大学;广东微步智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110489246.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种工程机械用液压阀
- 下一篇:动车组线缆自动剪切机构