[发明专利]一种基于时序特征金字塔的视频密集描述生成方法在审

专利信息
申请号: 202110558847.1 申请日: 2021-05-21
公开(公告)号: CN113392717A 公开(公告)日: 2021-09-14
发明(设计)人: 俞俊;余宙;韩男佳 申请(专利权)人: 杭州电子科技大学
主分类号: G06K9/00 分类号: G06K9/00;G06K9/62
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 朱月芬
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 时序 特征 金字塔 视频 密集 描述 生成 方法
【说明书】:

本发明公开了一种基于时序特征金字塔的视频密集描述方法。在变换网络模型框架下,对视频进行编码的同时利用局部注意力机制获取不同分辨率的特征,然后使用多个检测头对不同分辨率的特征进行检测,实现对不同持续时间的事件的全面覆盖。在检测出可能包含事件的时间片段之后,本发明进一步地利用特征融合方式对不同分辨率的视频特征进行融合,从而为事件生成更具针对性的描述。本发明方法相比于其他方法取得了更高的准确率和召回率,同时,描述生成解码器根据融合之后的特征也生成了更高质量的描述语句,这证明了该方法的普适通用性,可在其他多模态任务中充分发挥价值。

技术领域

本发明属于视频处理领域,具体涉及一种基于时序特征金字塔 (TemporalFeature Pyramid)的视频密集描述生成方法(Dense Video Captioning,DVC)。

背景技术

视频密集描述是一项多媒体领域的新兴任务,该任务旨在根据提供的未经剪辑的原始视频,进行事件定位并生成描述语句。具体来讲是输入一个视频文件,通过模型后先定位出视频中哪些时间区间(包括开始时刻和结束时刻)中存在事件。例如,视频的第2秒到第12秒之间的区间存在着某个事件,视频的第21秒到第33秒之间的区间也存在着某个事件等一系列可能包含事件的时间片段信息。对于每一个可能包含事件的时间片段,例如第2秒到第12秒之间,视频密集描述模型还需要描述该时间片段内发生的事件的内容。为了得到更准确的预测,机器需要理解给定视频和文本的内在含义,并在此基础上对两者的信息进行合适的跨模态融合以最大程度地消除语义鸿沟。对比图像,视频可以被理解为具有时序连贯性的图像,如何利用好视频中的时序信息,在时间维度进行建模也是研究视频领域的关键。

近年来,深度学习受到科研机构、工业界的高度关注,发展至今已收获诸多优秀的网络模型和各种有效的训练方法。随着学术研究的深入,跨模态任务逐渐成为一个主流的研究方向。同时跨模态更符合真实的生活场景,具有丰富的研究意义和实际价值。视频作为近几年来逐渐兴起的研究媒体,结合自然语言,形成了视频-文本的跨模态研究方向,视频密集描述就是其中一个较为重要的方向,在定位事件的同时实现准确地描述,让计算机根据输入的视频自动定位出视频中包含的事件的开始和结束位置并以恰当的语言描述这些视频中发生的事件是一个值得深入探索的研究问题。

多年来,在跨媒体研究领域中,人们已经认识到获取模态间关联关系的重要性,并使用注意力机制尝试挖掘模态间丰富的关联关系。也有部分研究开始注意到模态内信息的交互,在融合前通过自注意力机制或是不同的线性层,获取模态内特征之间的关联关系。由于跨媒体信息的理解需要建立在对单个模态内部信息充分利用的基础上,无论是图像文本或者视频,都存在更多值得挖掘的有效信息,对模态内信息的建模无疑有助于加深单个模态的理解进而增强最终融合特征的表达能力。

在实际应用方面,视频密集描述算法具有广泛的应用场景。在娱乐场景下,如YouTube,爱奇艺,腾讯视频等视频软件中,根据用户的历史数据,可以快速查找到最新视频中用户感兴趣的片段。在安保系统中也具有十分良好的研究前景及重要的研究意义。

综上所述,视频密集描述是一个值得深入研究的课题,本专利拟从该任务中几个关键点切入展开探讨,解决目前方法存在的难点和重点,形成一套完整的视频密集描述系统。

自然语言的描述一般来自不同的标注者,具有较高的自由度,不具备统一固定的句子结构。同时,自然场景下的视频载体主题多样,内容复杂富于变化,帧与帧间可能具有较高的相似性和冗余度,而这使得视频密集描述面临巨大的挑战。具体而言,主要存在如下两方面的难点:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110558847.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top