[发明专利]一种基于递归卷积神经网络的视频内容语义理解的方法在审

专利信息
申请号: 201811441649.1 申请日: 2018-11-29
公开(公告)号: CN109614896A 公开(公告)日: 2019-04-12
发明(设计)人: 李玉军;冀先朋;邓媛洁;马宝森 申请(专利权)人: 山东大学
主分类号: G06K9/00 分类号: G06K9/00;G06K9/62
代理公司: 济南金迪知识产权代理有限公司 37219 代理人: 杨树云
地址: 250199 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于递归卷积神经网络的视频内容语义理解的方法,用于对网络视频、监控视频等视频数据进行内容分析与分类。该方法通过将卷积神经网络放置于递归神经网络内部作为内核,提出视频状态概念,实现了在视频数据中目标检测与帧间关联的有机结合,通过在视频帧间进行递归的卷积操作,实现了视频特征的准确、高效提取,获得了更具有语义表征的视频表征,并以此为基础,采用人工神经网络全连接分类器完成视频的分类、事件检测、场景识别等任务。本发明提出的方法克服了传统方法中的信息丢失、特征表征能力差、训练收敛困难等问题,是一种准确、高效、先进并具有广阔应用前景的方法。
搜索关键词: 卷积神经网络 递归 视频内容 视频数据 语义理解 视频 递归神经网络 人工神经网络 语义 场景识别 高效提取 广阔应用 监控视频 目标检测 内容分析 事件检测 视频特征 视频状态 特征表征 网络视频 信息丢失 训练收敛 有机结合 分类器 视频帧 分类 卷积 内核 帧间 关联
【主权项】:
1.一种基于递归卷积神经网络的视频内容语义理解的方法,其特征在于,所述递归卷积神经网络的第一层是数据输入层,第二层、第三层、第四层、第五层、第六层都是依次级联的卷积层,卷积核大小均为3*3,卷积核数目依次是64、256、512、128、32个;所述数据输入层,接收原始视频数据,将该输入与一个长宽相同的32通道全零状态数据在通道维度上级联,作为数据输入层的输出;第二层、第三层、第四层、第五层、第六层采用周围零填充的方式,获得与输入尺度相同的输出;第二层、第三层、第四层、第五层、第六层组成五层卷积神经网络,该五层卷积操作依次以前一层的输出作为本层的输入,第六层输出一方面展开为1*32*128*256尺度的形式后输出到神经元数目依次为32*128*256、128*256、1024、101个的全连接神经网络构成的神经网络分类器中,该分类器的输出作为该递归卷积神经网络的最终输出;第六层输出另一方面不经过展开,输送给该递归卷积神经网络在下一个视频帧的时候,作为下一时刻的状态数据;包括步骤如下:A、训练阶段(1)获取具有标注信息的视频数据集作为递归卷积神经网络的训练数据,标注信息是指视频中人类动作类别,对视频数据集进行结构化处理,并分割为训练集和测试集;(2)对步骤(1)得到的训练集进行随机采样,获得一批用于训练的样本,采用全零方式初始化所述递归卷积神经网络的隐藏层状态;(3)将视频的当前帧输入所述递归卷积神经网络,与隐藏层状态在图像的通道层进行连接,采用五层卷积神经网络进行特征提取,并以五层卷积神经网络的最后一层的输出作为新的隐藏层状态;(4)重复执行步骤(3),直到视频输入结束;(5)将最终的隐藏层状态作为视频整体的特征表示,输入至所述神经网络分类器分类,并基于此进行损失计算或直接输出类别:(6)返回步骤(2),直至递归卷积神经网络训练过程中的损失函数不再下降后为止,损失函数采用交叉熵形式。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811441649.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top