[发明专利]一种基于时序特征金字塔的视频密集描述生成方法在审
申请号: | 202110558847.1 | 申请日: | 2021-05-21 |
公开(公告)号: | CN113392717A | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 俞俊;余宙;韩男佳 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时序 特征 金字塔 视频 密集 描述 生成 方法 | ||
1.一种基于时序特征金字塔的视频密集描述方法,其特征在于,步骤如下:
步骤(1)、数据预处理,对视频和文本数据提取特征:
首先对视频V进行预处理和特征提取:
对于一段未经剪辑的视频V,以a帧为单位将其切分成t个块,对于一块中的a帧图像使用Kinetics数据集上预训练好的I3D模型对其提取特征,同时对于相应的光流图以同样的方式提取特征,然后将这两种特征在时间维度上对齐之后合并在一起,并经过一个可训练的嵌入矩阵后,得到代表整个视频的特征向量X;
其次提取文本信息的特征:
对于一个给定的句子Y,去除句子中的标点符号,然后把句子中的每一个单词放入GloVe模型以获取词嵌入特征,然后使用一个嵌入矩阵自适应地学习不同维度的相应权重,即可得到代表整个句子的特征向量Y;
步骤(2)、通过基于局部注意力机制的视频特征编码器进行特征编码:
所述的视频特征编码器由L个注意力模块组成,每个注意力模块包括一个自注意力子模块MHA和一个前馈网络子模块FFN;对于视频特征X,将其输入视频特征编码器中,得到不同分辨率的特征集合以下将阐述具体过程;
首先将视频特征X视为X0,然后依次输入到第1个注意力模块的自注意力子模块MHA和前馈网络子模块FFN中;在自注意力子模块中,采用局部注意力机制限制每个位置的元素的感受野,使得输出特征中每个位置的元素仅由输入特征中相邻位置的元素重构得到,形成了类似卷积神经网络中的局部感受野机制;前馈网络子模块则用于对输出特征进行再次映射,得到第1个注意力模块的输出将作为第2个注意力模块的输入,如此循环,直到得到第L个注意力模块的输出为止;
步骤(3)、构建基于特征金字塔结构的候选片段生成模块;
首先将不同注意力模块的输出特征输入到不同的检测头中,对于第l(1≤l≤L)个检测头,其输出为对于Ql中的每一个元素根据视频特征的采样间隔,得到对应的开始和结束时刻以及相应的置信度分数;基于编码器第l注意力模块输出特征的第l个检测头负责预测持续时间位于ξl-1~ξl之间的事件;
在模型的训练阶段,候选片段生成模块的输出分为两个部分,第一部分是预测的事件中心位置和事件持续时间长度,这一部分影响了预测的时间片段的开始和结束时刻;对于每一个标注的事件,选择一个中心位置及anchor尺寸最匹配的输出特征中的元素用于计算损失Lreg;此处,使用回归损失函数衡量预测值与实际值之间的偏差;第二部分是预测的置信度,代表当前时间片段中包含事件的可能性;将用于计算回归损失的元素视为正样本,其余均视为负样本,对所有样本计算分类损失Lcls;最后,将两个损失相加,得到事件检测阶段第l个检测头的全部损失将所有检测的损失函数相加,就能够得到事件检测阶段的损失Lossprop;
在测试阶段,不同的检测头生成了不同的候选时间片段集合之后,将所有的时间片段合并在一起,按相应的置信分数由高到低进行排序;然后采用非极大值抑制算法,对这些时间片段进行筛选,得到置信分数高于设定置信阈值且相互之间重叠程度低于设定重叠阈值的时间片段集合;对于每一个保留下来的时间片段,本文认为其中存在某个特定的事件,因此将位于该时间片段内的视觉特征输入解码器中生成相应的描述语句;
步骤(4)、构建基于特征融合的描述生成解码器;
对于候选时间片段生成模块生成的每一个时间片段,在视频的原始特征X0上,屏蔽位于开始和结束时刻之外的特征并将其输入视频特征编码器中,得到不同分辨率的视频特征集合Xcap,并在此基础上,进行特征融合操作;为尽可能地降低模型的复杂度,采用对应位置相加的方式实现特征融合;将经过融合操作的特征输入解码器中,输出预测的描述语句中的单词,最后计算预测单词分布与实际单词之间的损失,并将损失函数通过反向传播算法对模型的参数进行更新;在经过若干次迭代之后,模型就能够为每个时间片段中包含的事件生成具有针对性的描述语句了。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110558847.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于耦合贴片天线的结构加速度检测装置
- 下一篇:一种可自动温控花椒烘干机