[发明专利]一种基于深度神经网络的数字视频特征提取方法有效
申请号: | 201611104658.2 | 申请日: | 2016-12-05 |
公开(公告)号: | CN106778571B | 公开(公告)日: | 2020-03-27 |
发明(设计)人: | 李岳楠;陈学票 | 申请(专利权)人: | 天津大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/08 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李林娟 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 神经网络 数字视频 特征 提取 方法 | ||
1.一种基于深度神经网络的数字视频特征提取方法,其特征在于,所述方法包括以下步骤:
训练一个去噪编码网络实现对视频的初始描述符的维数约简,将条件生成模型和编码器级联构成一组基本的特征提取模块;
连续训练多组特征提取模块,按训练先后顺序对所得模块做自底向上的堆叠构成深度神经网络;
训练后处理网络,将其置于深度神经网络的顶部,用以优化视频描述符的鲁棒性和区分性;
其中,所述方法还包括:
对输入视频做预处理,通过条件生成模型来表达视频内容的时空联系;
进一步地,所述对输入视频做预处理,通过条件生成模型来表达视频内容的时空联系的步骤具体为:
对视频做低通滤波平滑及降采样,将每一帧图片大小压缩到满足神经网络输入层尺寸需要,对降采样后的视频做正则化,使每一帧的像素平均值为零,方差为1;
将视频数据输入条件玻尔兹曼机,将预处理视频的每一帧像素置为可见层的神经元,对CRBM网络进行训练;
其中,所述训练一个去噪编码网络实现对视频的初始描述符的维数约简,将条件生成模型和编码器级联构成一组基本的特征提取模块的步骤具体为:
对每个训练视频施加失真并做预处理操作,将失真视频作为CRBM的输入,生成初始描述符,选取多组原始视频和失真视频的初始描述符作为训练数据,训练一个去噪自编码网络;
将训练所得的编码器E(·)堆叠在CRBM之上,得到第一组特征提取模块;
进一步地,所述连续训练多组特征提取模块,按训练先后顺序对所得模块做自底向上的堆叠构成深度神经网络的步骤具体为:
利用上述特征提取模块的输出作为训练数据,继续训练一对CRBM和编码器,用所得CRBM和编码器重新建立第二组特征提取模块;
依次训练多个CRBM和编码器模块,每个模块的训练数据由前一个模块的输出组成;
按照训练的先后顺序将各个模块进行自底向上的堆叠,形成深度神经网络;
其中,所述训练后处理网络,将其置于深度神经网络的顶部,用以优化视频描述符的鲁棒性和区分性的步骤具体为:
利用由K个CRBM-E(·)模块所构成的深度神经网络为训练视频生成描述符,通过训练后置处理网络的代价函数进行训练;
完成训练后,将该后处理网络置于由CRBM和编码器构成的深度神经网络顶层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611104658.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种行人实时检测与跟踪方法
- 下一篇:指纹识别方法及装置