[发明专利]基于时序高斯混合空洞卷积的语义重构视频描述方法有效
申请号: | 202110704646.8 | 申请日: | 2021-06-24 |
公开(公告)号: | CN113420179B | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 李平;张盼;蒋昕怡;徐向华 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F16/71 | 分类号: | G06F16/71;G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 陈炜 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时序 混合 空洞 卷积 语义 视频 描述 方法 | ||
本发明公开了基于时序高斯混合空洞卷积的语义重构视频描述方法。本发明方法首先对含文本描述的采样视频帧提取外观特征和动作特征,将其拼接后输入到时序高斯混合空洞卷积编码器获得时序高斯特征;然后利用两层长短时记忆神经网络构建解码器,得到生成语句概率分布和隐藏向量;再建立语义重构网络并计算语义重构损失;利用随机梯度下降算法优化模型,对新视频依次通过上述步骤获得生成语句概率分布,用贪心搜索算法获得视频描述语句。本发明方法利用时序高斯混合空洞卷积对视频长期时序关系进行建模,并通过语义重构网络获得语句级的概率分布差异,能够缩小生成语句和视频内容的语义鸿沟,从而生成更准确描述视频内容的自然语句。
技术领域
本发明属于计算机技术领域,尤其是计算机视觉中的视频描述领域,涉及一种基于时序高斯混合空洞卷积的语义重构视频描述方法。
背景技术
快速发展的互联网产生了种类丰富的多媒体数据资源,比如视频、图像、音频以及文字。近年来,随着手机、摄像头等智能终端的普及和互联网带宽的大幅增长,抖音、快手等视频平台受到广大用户的喜爱,网络直播和自媒体行业快速崛起,每天都有数以万计的视频产生和传播,视频数量呈现爆炸式增长,对人们的日常生活方式产生了较大影响。在大数据时代,如何有效利用海量视频至关重要,相对于文本、图像和音频等数据而言,视频包含非常丰富的视觉内容信息。对于人类来说,准确理解视频内容比较容易,但是对于机器来讲非常具有挑战性。机器不仅需要捕捉视频中的物体、场景以及物体之间的关系,还要捕捉视频的时序依赖关系。而视频描述技术可将视频转换为文字表示,有利于机器理解视频内容。
视频描述技术旨在自动生成自然语句对视频内容进行描述,其目标是不但能够捕捉视频中的人或物、动作、场景以及人或物之间的复杂高维关系,还能够生成符合语法规则且正确描述视频内容的语句。
随着深度学习技术的发展,基于序列学习的编码器-解码器视频描述方法被不断提出。编码器利用卷积神经网络(Convolutional Neural Network,CNN)提取视频特征用于表征视频内容信息,解码器采用长短时记忆神经网络(Long-Short Time Memory,LSTM)、门控循环单元(Gated Recurrent Units,GRU)解码视频特征生成描述视频内容的自然语句。为了捕捉视频中的时序信息,相关工作利用注意力机制、LSTM或分层LSTM处理视频帧特征,其中,相关工作人员提出一种层次循环神经编码器(Hierarchical Recurrent NeuralEncoder,HRNE),其将视频划分为多个短视频,将短视频输入低层LSTM得到每个短视频的特征表示,再将短视频特征表示输入高层LSTM用以捕获更长视频时序信息,高层LSTM最后一时间步的隐藏向量作为整个视频的特征表示;另外,提出分层时序模型(HierarchicalTemporal Model,HTM),通过探索全局和局部的时序结构更好的识别细粒度的目标和动作;为了更好地捕捉长期依赖,研究人员提出基于注意力机制的密集连接长短时记忆网络(Attention-based Densely Connected Long Short-Term Memory,DenseLSTM),将所有先前时刻的隐藏单元连接到当前单元,这使得当前状态的更新直接与先前所有状态相关。
上述方法的不足点主要表现在以下几个方面:(1)由于LSTM仍然存在梯度消失或者梯度爆炸问题,难以有效捕捉视频长期时序信息,不利于学习视频上下文的特征表示;(2)自然语句和视频属于两种不同结构的数据模态,难以将视频内容语义准确无误转换为自然语句,生成语句和视频内容存在语义鸿沟,现有方法常用交叉熵损失函数从单词级别角度缩小生成语句和视频的语义差异,而忽略了语句级别的语义差异。基于这些考虑,针对视频标题生成、视频检索、视障人群观看视频等实际应用场景,迫切需要设计一种既能充分捕获视频语义信息又能准确描述视频内容的视频描述方法。
发明内容
本发明的目的就是针对现有技术的不足,提供一种基于时序高斯混合空洞卷积的语义重构视频描述方法,既能捕捉视频长期时序信息、减少模型训练参数量,又能缩小视频内容和生成语句的语义差异,生成自然流畅的视频描述语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110704646.8/2.html,转载请声明来源钻瓜专利网。