[发明专利]一种视频密集描述方法、装置及介质有效
申请号: | 202110489246.X | 申请日: | 2021-05-06 |
公开(公告)号: | CN113312980B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 肖焕侯;史景伦;胡晨晨;熊静远;沈卫强 | 申请(专利权)人: | 华南理工大学;广东微步智能科技有限公司 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/774;G06V10/80;G06N3/04 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 黎扬鹏 |
地址: | 510641 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 密集 描述 方法 装置 介质 | ||
本发明公开了一种视频密集描述方法、装置及介质,其中方法包括:采用C3D网络对输入视频进行特征提取;根据视频特征和双向SST算法对事件定位模块进行训练;结合事件定位模块、特征损失和基于注意力模型的事件描述模块进行训练,获得密集描述系统;将待处理视频输入密集描述系统进行预测,经过联合排序后,将排序靠前的事件候选框及其对应的描述句子提取出来作为最终的密集描述结果。本发明采用能同时利用过去信息和未来信息的双向SST算法来获得视频的事件候选框;使用基于注意力机制的分层LSTM模型来获得描述句子;使用联合排序的方法来综合定位模块和描述模块的置信度,提高系统整体的密集描述质量,可广泛应用于计算机视觉领域。
技术领域
本发明涉及计算机视觉领域和自然语言处理领域,尤其涉及一种视频密集描述方法、装置及介质。
背景技术
视频作为信息传播的重要介质,近几年来在各个领域的重要性已越发凸显,如安防领域、零售领域和娱乐领域等。在安防领域,物联网时代万物互联,智慧城市建设提上日程,视频监控覆盖区域愈发广阔,有效地分析理解视频对城市安全、找寻失踪人口和交通安全监测等具有重要意义。在零售领域,线上电商平台直播,线下无人商店建设逐渐成为主流。利用计算机视觉分析商店中摄像头实时录制的视频,可以识别出客户的身份以及购物信息。在娱乐领域,各种视频软件每天产生海量的视频,如何对其进行审核、分类、检索和推荐具有巨大的现实意义和商业价值。
在视频智能分析中,让机器理解视频内容是非常关键的一步。这包括很多方面,最基本的有视频行为分类,即识别出视频中物体的主要动作,例如游泳、跳跃、跑步等。除此之外,还有将视频信息自动翻译成语言的研究,即使用结构化的自然语言对视频内容进行描述,属于高层次的视频语义理解。视频描述对很多研究课题的发展有巨大的促进作用,包括视频检索、视频摘要、基于语言查询的视频片段提取等等。从视频描述结合了视觉和自然语言的特性来看,它能够为有视觉障碍的人群提供文字描述和朗读等服务,如为盲人描述电影内容和提供交通指导等,帮助他们更好地融入社会,改善生活质量。
现实生活中各个平台的视频数据长短不一,除了一般只包含一个主要事件的短视频外,也有时长长达几小时的长视频。对于长视频来说,其可能包含多个子事件,因此,针对长视频的描述相比于短视频而言需要多做一步事件定位的工作。也就是说,长视频的密集描述指的是同时定位和描述一个视频中发生的所有行为。值得注意的是,不同事件在时间上可能是有重叠的。目前大部分研究工作集中在针对短视频的描述上,主要包括基于语言模板的描述和基于深度学习的描述两大类。而长视频的密集描述是近几年兴起的一个研究方向,目前的方法主要先得到视频的局部特征,然后使用循环神经网络学习时序编码器,将过去信息编码到每个时刻产生的隐状态中。接着该隐状态会同时作为事件候选框分类器和事件描述的输入。该方法简单有效,但其对视频内不同事件片段的特征区分度和事件表征能力不强,导致最终描述结果的不理想。
发明内容
为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供基于特征损失和注意力模型的视频密集描述方法、装置及介质。
本发明所采用的技术方案是:
一种视频密集描述方法,包括以下步骤:
获取输入视频,采用C3D网络对输入视频进行特征提取,获得视频特征;
根据视频特征和双向SST算法对事件定位模块进行训练;
结合事件定位模块和基于注意力模型的事件描述模块进行训练,获得密集描述系统;
将待处理视频输入密集描述系统进行预测,经过联合排序后,将排序靠前的事件候选框及其对应的描述句子提取出来作为最终的密集描述结果。
对事件定位模块进行训练过程中,在前向过程获取前向候选框,在后向过程获取后向候选框,对拥有相同起止时间的前向候选框和后向候选框进行融合,获取视频中的事件候选框,以及候选框定位损失。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学;广东微步智能科技有限公司,未经华南理工大学;广东微步智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110489246.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种工程机械用液压阀
- 下一篇:动车组线缆自动剪切机构