[发明专利]基于高效关系逼近算法的群体视频描述方法及系统在审
申请号: | 202310052079.1 | 申请日: | 2023-02-02 |
公开(公告)号: | CN116503771A | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 赵洲;林旺;金涛;李林峻;成曦泽;王晔;陈哲乾 | 申请(专利权)人: | 浙江大学;杭州一知智能科技有限公司 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V20/50;G06V10/82;G06N3/0455;G06N3/0895 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 高效 关系 逼近 算法 群体 视频 描述 方法 系统 | ||
1.一种基于高效关系逼近算法的群体视频描述方法,其特征在于,包括如下步骤:
1)建立包含目标视频和参考视频的视频组及共同动词组描述文本作为训练数据集,分别提取目标视频组的帧特征和参考视频组的帧特征;
2)建立编码-解码网络结构,包括解码网络、以及由共享内容聚合模块和上下文特征精炼模块构成的编码网络;
3)将目标视频组的帧特征和参考视频组的帧特征分别作为编码网络中的共享内容聚合模块的输入,分别生成目标视频组共享特征和参考视频组共享特征;
4)将生成的目标视频组共享特征和参考视频组共享特征作为上下文特征精炼模块的输入,并在上下文特征精炼模块中引入组间自监督对比学习,输出上下文特征和组间自监督损失;
5)将目标视频组共享特征、参考视频组共享特征和上下文特征拼接起来作为解码网络的输入,生成字典概率分布并选择得分最高的单词作为输出,重复若干次后,将输出结果与共同动词组描述文本进行比对,生成交叉熵损失,结合步骤4)的组间自监督损失训练编码-解码网络结构;
6)对于要生成描述的视频组,分别提取目标视频组的帧特征和参考视频组的帧特征,利用训练好的编码-解码网络生成描述文本。
2.根据权利要求1所述的一种基于高效关系逼近算法的群体视频描述方法,其特征在于,所述的解码网络采用Transformer中的解码器。
3.根据权利要求1所述的一种基于高效关系逼近算法的群体视频描述方法,其特征在于,步骤1)具体为:
1.1)获取视频描述数据集,所述的视频描述数据集包含多个视频及描述文本对;
1.2)随机选择视频及描述文本对,使用预训练的语法解析树解析描述文本,挑选解析结果中的动词组,所述的动词组由动词和对应的名词组成;再将具有相同动词组的视频组合成为目标视频组,对应的共同动词组则作为该目标视频组的描述文本;将与该动词组有相同名词或动词的描述文本的视频组合起来成为参考视频组;
1.3)对步骤1.2)得到的目标视频组和参考视频组中的视频数量删减至预设值,将最终的目标视频组、参考视频组、共同动词组描述文本组成一个训练样本
1.4)使用预训练的视频特征提取器提取视频组中各视频的视觉特征,得到视频组中每个视频的帧特征序列,将视频组中的任一视频的视觉特征记为其中,m为视频组中任一视频的帧数,vi是视频组中第i个视频的帧序列特征,fiq是视频组中第i个视频的第q帧特征。
4.根据权利要求1所述的一种基于高效关系逼近算法的群体视频描述方法,其特征在于,所述的编码网络中的共享内容聚合模块计算方法为:
3.1)采用高效关系逼近算法采样输入视频组中的各视频的视觉特征vi得到近似视觉特征所述的高效关系逼近算法的计算公式为:
其中,为期望,ω为随机变量,μ为均值,σ为方差,记随机变量ω服从均值μ、方差σ的采样分布为‖·‖表示取模,n表示输入视频组中的视频数量;
3.2)根据近似视觉特征计算语义权重分数,计算公式为:
其中,表示输入视频组中第i个视频的第q帧的语义权重分数,1表示1向量;
3.3)根据语义权重分数将输入视频组中的视觉特征聚合起来,聚合公式为:
其中,ψtar为目标视频组共享特征,ψref为参考视频组共享特征,ntar是目标视频组中的视频数量,nref是参考视频组中的视频数量,fiq是视频组中第i个视频的第q帧特征。
5.根据权利要求1所述的一种基于高效关系逼近算法的群体视频描述方法,其特征在于,所述的上下文特征精炼模块采用多头交叉注意力机制,将目标视频组共享特征作为多头交叉注意力机制中的键,将参考视频组共享特征作为多头交叉注意力机制中的查询和值,将多头交叉注意力机制的计算结果作为上下文特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学;杭州一知智能科技有限公司,未经浙江大学;杭州一知智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310052079.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:显示装置和制造显示装置的方法
- 下一篇:计时器电路