[发明专利]一种基于循环神经网络的视频分类方法有效
申请号: | 201910584906.5 | 申请日: | 2019-07-01 |
公开(公告)号: | CN110347874B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 杨阳;汪政;关祥 | 申请(专利权)人: | 成都澳海川科技有限公司 |
主分类号: | G06F16/75 | 分类号: | G06F16/75;G06F18/214;G06F18/24;G06N3/0464 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 循环 神经网络 视频 分类 方法 | ||
本发明公开了一种基于循环神经网络的视频分类方法,在现有GRU视频分类的基础上,在GRU的训练过程中,创新性地利用泰勒级数对门控循环单元进行解释,通过在GRU的训练过程中引入泰勒级数中的余项,辅助GRU的参数训练。由于泰勒级数中,误差与级数的阶数有关,阶数越大误差越小,所以,本发明通过构造一个高阶的泰勒级数用于辅助GRU训练,减少了视频分类误差。同时,本发明建立了门控循环单元与泰勒级数的联系,进一步地,通过这种联系,GRU的泛化能力得到了解释。
技术领域
本发明属于视频信息挖掘技术领域,更为具体地讲,涉及一种基于循环神经网络的视频分类方法。
背景技术
视频分类是指给定一个视频片段,对其中包含的内容进行分类。类别通常是动作(如做蛋糕)、场景(如海滩)、物体(如桌子)等,其中又以视频动作分类最为热门,毕竟动作本身就包含“动”态的因素,不是“静“态的图像所能描述的。
现有视频分类方法主要有采用基于循环神经网络(Recurrent Neural Network,简称RNN)的序列建模方法和卷积神经网络(Convolutional Neural Networks,简称CNN)的序列建模方法。基于RNN的序列建模方法是通过对视频序列进行逐帧采样,使用重复的计算模块反复计算,实时地得到视频的分类预测结果;基于CNN的序列建模方法则是将固定长度的视频片段全部输入卷积神经网络,对其进行特征提取,并得到视频分类的预测结果。
相较于基于CNN的序列建模方法,基于RNN的序列建模无法获取全局信息,所以往往伴随较大的误差。而基于CNN的序列建模方法则无法实时地对视频进行分类,且必须获取完整的固定长度的视频序列,这样例如,在真实场景中,监控摄像头需要实时地判断异常事件,基于CNN的序列建模方法只能设置固定的判断节点,无法对事件进行实时响应。
其他基于RNN或CNN的改进视频分类方法虽然会提升准确度,但是对建立模型进行改进往往伴随着巨大的计算资源和时间资源消耗,使得这些复杂的模型无法有效的布置在低成本的设备上。
同时,现有的视频分类方法,无论基于RNN、CNN的序列建模方法或者这两种方法的改进方法,都往往被认为是缺乏可解释性的。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于循环神经网络的视频分类方法,对基于RNN的序列建模方法进行改进,在不改变模型结构即增加计算资源和时间资源消耗的前提下,使其具有可解释性,以提升视频分类的准确度。
为实现上述发明目的,本发明基于循环神经网络的视频分类方法,其特征在于,包括以下步骤:
(1)、在门控循环单元(Gated Recurrent Unit,简称GRU)的训练过程中,构建余项Rt:
Rt=tanh(nt(WhRht-1+bhR+WiRxt+biR))U(0,1) (1)
其中,t表示当前视频帧、t-1表示上一视频帧,U(0,1)为[0,1]的均匀分布行向量,WhR、bhR、WiR、biR均为待训练的参数矩阵,xt为当前视频帧的表观特征,ht-1为输入上一帧后的状态信息,nt为隐状态(一个控制变化量的项),tanh为双曲正切激活函数;
(2)、在GRU训练过程每一步的当前状态信息(输入当前帧后的状态信息)ht为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都澳海川科技有限公司,未经成都澳海川科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910584906.5/2.html,转载请声明来源钻瓜专利网。