[发明专利]基于高效关系逼近算法的群体视频描述方法及系统在审
申请号: | 202310052079.1 | 申请日: | 2023-02-02 |
公开(公告)号: | CN116503771A | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 赵洲;林旺;金涛;李林峻;成曦泽;王晔;陈哲乾 | 申请(专利权)人: | 浙江大学;杭州一知智能科技有限公司 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V20/50;G06V10/82;G06N3/0455;G06N3/0895 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 高效 关系 逼近 算法 群体 视频 描述 方法 系统 | ||
本发明公开了一种基于高效关系逼近算法的群体视频描述方法及系统,属于视频理解领域。包括:针对包含目标视频和参考视频的视频组,根据基于高效关系逼近的跨视频共享内容聚合模块,生成目标视频组共享特征和参考视频组共享特征;根据上下文精炼模块,输出参考视频中对于目标视频的补充信息,得到上下文特征。利用解码网络对共享特征和上下文特征的拼接结果进行解码,输出针对于目标视频组的描述文本。本发明能够生成针对群体视频共享内容的描述文本,采用一种新颖的高效关系逼近算法优化模型的时间复杂度到线性级别,并利用对比学习策略精炼上下文特征,有效地改善了模型性能。
技术领域
本发明涉及视频描述领域,尤其涉及一种基于高效关系逼近算法的群体视频描述方法及系统。
背景技术
视频描述的目标是根据给定的视频片段理解其中的内容并生成一段自然语言描述文本,是计算机视觉和自然语言处理之间的一个跨学科领域。自动的图像或视频描述包括多个实体的组合,这些实体包括数以百万计的对象、背景、运动和相应的语言数据。现有的方法大多数都是针对一个视频片段进行描述,使用对齐注释好的视频文本对进行训练。然而,由于在线视频的数量一直在以指数级的速度增长,对一组视频的自动描述需求也大大增加,比如为已分类好的一组视频自动命名和基于浏览历史推荐新的视频检索关键词。
现有报道中提出了一种基于图像组的自动描述生成方法,这种方法采用自注意力机制将每个图片和组内其他所有图片计算相似度得分。而视频作为一种时序信号通常包含多个连续的帧,相比于一组图像而言,计算一组视频之间的相似度得分所需要的计算复杂度是非常高的。另外图像组的自动描述生成方法忽视了目标组和参考组之间的上下文信息,若利用此类信息,则可有效提升对目标组内容理解的准确程度。
综上,现有技术中还不能有效地解决基于组视频的视频描述问题,导致了在实际场景应用中性能有限,无法准确快速的生成自然语言描述文本。
发明内容
本发明的目的在于解决现有技术中的问题,提出了一种基于高效关系逼近算法的群体视频描述方法及系统,使用基于组的视频特征聚合网络识别并生成目标视频组共享特征和参考视频组共享特征,使用一种高效的关系逼近算法来降低计算复杂度,同时考虑组间自监督信息,使用一种组间对比损失策略,有效地改善了模型性能。
为了实现上述目的,本发明具体采用如下技术方案:
一种基于高效关系逼近算法的群体视频描述方法,包括如下步骤:
1)建立包含目标视频和参考视频的视频组及共同动词组描述文本作为训练数据集,分别提取目标视频组的帧特征和参考视频组的帧特征;
2)建立编码-解码网络结构,包括解码网络、以及由共享内容聚合模块和上下文特征精炼模块构成的编码网络;
3)将目标视频组的帧特征和参考视频组的帧特征分别作为编码网络中的共享内容聚合模块的输入,分别生成目标视频组共享特征和参考视频组共享特征;
4)将生成的目标视频组共享特征和参考视频组共享特征作为上下文特征精炼模块的输入,并在上下文特征精炼模块中引入组间自监督对比学习,输出上下文特征和组间自监督损失;
5)将目标视频组共享特征、参考视频组共享特征和上下文特征拼接起来作为解码网络的输入,生成字典概率分布并选择得分最高的单词作为输出,重复若干次后,将输出结果与共同动词组描述文本进行比对,生成交叉熵损失,结合步骤4)的组间自监督损失训练编码-解码网络结构;
6)对于要生成描述的视频组,分别提取目标视频组的帧特征和参考视频组的帧特征,利用训练好的编码-解码网络生成描述文本。
本发明的另一目的在于提出一种基于高效关系逼近算法的群体视频描述系统,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学;杭州一知智能科技有限公司,未经浙江大学;杭州一知智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310052079.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:显示装置和制造显示装置的方法
- 下一篇:计时器电路