[发明专利]一种基于递归卷积神经网络的视频内容语义理解的方法在审
申请号: | 201811441649.1 | 申请日: | 2018-11-29 |
公开(公告)号: | CN109614896A | 公开(公告)日: | 2019-04-12 |
发明(设计)人: | 李玉军;冀先朋;邓媛洁;马宝森 | 申请(专利权)人: | 山东大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 杨树云 |
地址: | 250199 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于递归卷积神经网络的视频内容语义理解的方法,用于对网络视频、监控视频等视频数据进行内容分析与分类。该方法通过将卷积神经网络放置于递归神经网络内部作为内核,提出视频状态概念,实现了在视频数据中目标检测与帧间关联的有机结合,通过在视频帧间进行递归的卷积操作,实现了视频特征的准确、高效提取,获得了更具有语义表征的视频表征,并以此为基础,采用人工神经网络全连接分类器完成视频的分类、事件检测、场景识别等任务。本发明提出的方法克服了传统方法中的信息丢失、特征表征能力差、训练收敛困难等问题,是一种准确、高效、先进并具有广阔应用前景的方法。 | ||
搜索关键词: | 卷积神经网络 递归 视频内容 视频数据 语义理解 视频 递归神经网络 人工神经网络 语义 场景识别 高效提取 广阔应用 监控视频 目标检测 内容分析 事件检测 视频特征 视频状态 特征表征 网络视频 信息丢失 训练收敛 有机结合 分类器 视频帧 分类 卷积 内核 帧间 关联 | ||
【主权项】:
1.一种基于递归卷积神经网络的视频内容语义理解的方法,其特征在于,所述递归卷积神经网络的第一层是数据输入层,第二层、第三层、第四层、第五层、第六层都是依次级联的卷积层,卷积核大小均为3*3,卷积核数目依次是64、256、512、128、32个;所述数据输入层,接收原始视频数据,将该输入与一个长宽相同的32通道全零状态数据在通道维度上级联,作为数据输入层的输出;第二层、第三层、第四层、第五层、第六层采用周围零填充的方式,获得与输入尺度相同的输出;第二层、第三层、第四层、第五层、第六层组成五层卷积神经网络,该五层卷积操作依次以前一层的输出作为本层的输入,第六层输出一方面展开为1*32*128*256尺度的形式后输出到神经元数目依次为32*128*256、128*256、1024、101个的全连接神经网络构成的神经网络分类器中,该分类器的输出作为该递归卷积神经网络的最终输出;第六层输出另一方面不经过展开,输送给该递归卷积神经网络在下一个视频帧的时候,作为下一时刻的状态数据;包括步骤如下:A、训练阶段(1)获取具有标注信息的视频数据集作为递归卷积神经网络的训练数据,标注信息是指视频中人类动作类别,对视频数据集进行结构化处理,并分割为训练集和测试集;(2)对步骤(1)得到的训练集进行随机采样,获得一批用于训练的样本,采用全零方式初始化所述递归卷积神经网络的隐藏层状态;(3)将视频的当前帧输入所述递归卷积神经网络,与隐藏层状态在图像的通道层进行连接,采用五层卷积神经网络进行特征提取,并以五层卷积神经网络的最后一层的输出作为新的隐藏层状态;(4)重复执行步骤(3),直到视频输入结束;(5)将最终的隐藏层状态作为视频整体的特征表示,输入至所述神经网络分类器分类,并基于此进行损失计算或直接输出类别:(6)返回步骤(2),直至递归卷积神经网络训练过程中的损失函数不再下降后为止,损失函数采用交叉熵形式。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811441649.1/,转载请声明来源钻瓜专利网。