[发明专利]一种基于高阶建模的视频行为识别方法在审
| 申请号: | 202210412688.9 | 申请日: | 2022-04-19 |
| 公开(公告)号: | CN114863326A | 公开(公告)日: | 2022-08-05 |
| 发明(设计)人: | 张建新;董微;张冰冰;韩雨童;赵诚辉;石金龙;何昆仑 | 申请(专利权)人: | 大连民族大学 |
| 主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/82;G06V10/774;G06N3/04;G06N3/08 |
| 代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 李馨 |
| 地址: | 116000 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 建模 视频 行为 识别 方法 | ||
本发明公开了一种基于高阶建模的视频行为识别方法,包括:在2D卷积神经网络的不同阶段插入相关性模块,对该网络末端进行迭代矩阵平方根归一化的协方差池化操作获得高阶相关性网络;获取视频数据集和标签,将视频数据集分为训练集和测试集;将所有的帧输入至高阶相关性网络中;采用训练集训练高阶相关性网络,在每次迭代中更新网络参数,每次迭代中对帧进行训练和验证,并根据最优验证集精度保存高阶相关性网络的最优权重;使用最优权重初始化高阶相关性网络,在测试集上对该网络的准确率进行评估,将测试集数据输入该网络中获得测试结果,将测试结果与标签数据进行对比,统计正确和错误的个数从而计算该网络在测试集上的准确率。
技术领域
本发明涉及视频行为识别领域,具体涉及一种基于高阶建模的视频行为识别方法。
背景技术
视频识别是基于视频的任务中的一个基本问题。在智能监控、人机交互、自动驾驶和虚拟现实等各种基于视频的应用中,它的要求越来越高。由于深度学习的出现,研究人员见证了视频识别的巨大进步。通过合理考虑时间维度,出现了许多设计良好的网络。就模型架构设计而言,该领域有四个典型方向:双流网络、三维卷积神经网络(CNN)、计算高效网络和基于Transformer的网络。由于视频涉及外观和视觉节奏引起的复杂动态变化,强大的表示方式可以提高视频识别的性能,然而现有的这些视频架构通常通过网络末端的全局平均池化生成视频表示。全局平均池化只是用简单的方式以无序的方式计算卷积特征的一阶统计量,丢弃了时空特征中固有的更丰富的统计信息,并且捕获视频复杂动态的能力有限。
发明内容
根据现有技术存在的问题,本发明公开了一种基于高阶建模的视频行为识别方法,具体包括如下步骤:
将预训练的2D卷积神经网络作为骨干模型,在2D卷积神经网络的不同阶段插入相关性模块,对该网络末端进行迭代矩阵平方根归一化的协方差池化操作获得高阶相关性网络;
获取视频数据集和标签,将视频数据集分为训练集和测试集,对视频数据集进行抽帧并保存;
将所有的帧输入至高阶相关性网络中;
采用训练集训练高阶相关性网络,在每次迭代中更新网络参数,每次迭代中对帧进行训练和验证,并根据最优验证集精度保存高阶相关性网络的最优权重;
使用最优权重初始化高阶相关性网络,在测试集上对该网络的准确率进行评估,将测试集数据输入该网络中获得测试结果,将测试结果与标签数据进行对比,统计正确和错误的个数从而计算该网络在测试集上的准确率。
使用2D卷积神经网络中的ResNet50作为整个网络的骨干模型。
在高阶相关性网络的res4和res5后插入相关性模块,在res4后直接插入相关性模块,在res5后先进行降维操作再插入相关性模块。
所述相关性模块计算两个相邻帧的固定滑动窗口中特征的点积,通过点积计算近似获得图像高阶统计信息;
设两帧为Xl-1和Xl,每一帧用三维张量C×H×W表示,其中C是通道数,H×W是空间分辨率,在帧Xl中给定一个特征块计算该特征块与帧Xl-1中另一个特征块的相似度,其中(i,j)是特征块的空间位置,将特征块的大小减少到单个像素,则相关性模块计算结果如下:
其中用于归一化,WC是引入的一个权重向量,(i',j')通常限制在(i,j)的K×K邻域内,K是特征块匹配的最大位移。
对该网络末端进行迭代矩阵平方根归一化的协方差池化操作时:先执行相关协方差池化操作:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连民族大学,未经大连民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210412688.9/2.html,转载请声明来源钻瓜专利网。





