[发明专利]一种基于深度学习的人群情绪识别方法有效
申请号: | 201710552019.0 | 申请日: | 2017-07-07 |
公开(公告)号: | CN107368798B | 公开(公告)日: | 2019-11-29 |
发明(设计)人: | 卿粼波;周文俊;吴晓红;何小海;滕奇志;熊文诗 | 申请(专利权)人: | 四川大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610064 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 人群 情绪 识别 方法 | ||
本发明提供了一种基于深度学习的视频人群情绪分析方法,主要涉及利用多流神经网络对视频中人群情绪进行分类。该方法包括:构建多流神经网络(像素,光流,显著性),并利用该网络并行提取视频序列的像素信息,叠加光流信息,显著性信息中的特征,最后融合这三种特征,得到人群情绪的分类。本发明充分发挥深度学习的自我学习能力,避免了人工提取特征的局限性,使得本发明方法的适应能力更强。利用多流深度学习网络的结构特征,并行训练及预测,最后融合多流子网络的分类结果,提高了准确率及工作效率。
技术领域
本发明涉及视频分析领域中的人群情绪识别问题,尤其是涉及一种基于深度学习的多流神经网络对人群情绪分类的视频分析方法。
背景技术
人群的情绪分析是通过分析人群的行为,着装来判断人群的情感状态,如激动、兴奋、正常、枯燥等。视频大量存在于现实生活之中,如无人机视频监控,网络共享视频,3D视频等。通过对视频中人群的情绪进行分析将有助于动态的了解视频中的人群的情感及情绪的变化,有着广阔的应用前景。以上海外滩踩踏事件为例,通过分析人群的情绪变化,管理员可以在发生突发事件之前通过干预手段防止此类事件再次发生。
传统人群情绪识别的算法主要是利用一些浅层的算法提取视频帧间的运动特征。对于一些浅层的算法(支持向量机,单层神经网络等),它们需要人工提取特征,且在给定有限数量的样本和计算单元时,浅层结构难以有效的表达复杂模型的特征,尤其当研究的对象具有丰富的含义时,其泛化能力明显不足,所以浅层结构有一定的局限性。
深度学习(Deep Learning)是一个近几年备受关注的研究领域,在机器学习中起着重要的作用。深度学习通过建立、模拟人脑的分层结构来实现对外部输入的数据进行从低级到高级的特征提取,从而能够解释外部数据。深度学习强调网络结构的深度,通常有多个隐藏层,以用来突出特征学习的重要性。与人工规则构造特征的浅层结构相比,深度学习利用大量的数据来学习特征,更能够描述数据特有的丰富的特征信息。我们还可以通过学习一种深层非线性网络,实现复杂模型的逼近,表征输入数据分布式表示。
发明内容
本发明的目的是提供一种视频中人群情绪识别的方法,将深度学习与视频人群情绪相结合,充分发挥深度学习自我学习的优势,可以解决目前浅层学习的参数难以调整,需要人工选取特征,准确率不高等问题。
为了方便说明,首先引入如下概念:
人群情绪分类:对于视频中人群的情感状态进行分析,将视频划分到正确的情绪类别之中。根据实际需求不同,可定义不同的人群情绪类别。
卷积神经网络(CNN):受视觉神经机制的启发而设计的,是为识别二维形状而设计的一种多层感知器,这种网络结构对平移、比例缩放、倾斜或者其他形式的变形具有高度不变性。
长短记忆型递归神经网络(LSTM):为了解决循环神经网络在时间上的梯度消失问题,机器学习领域发展出了长短时记忆单元LSTM,通过门的开关实现时间上记忆功能,防止梯度消失。
像素通道:由CNN+LSTM+Softmax(分类器)组成的子神经网络,网络的输入为视频中提取的像素信息,即视频本身的像素信息。主要提取视频帧在空间维度上相关的颜色特征。
光流通道:由CNN+LSTM+Softmax(分类器)组成的子神经网络,网络的输入为从视频中提取的叠加的光流信息(10帧光流叠加平均),主要提取视频在时间维度上的局部运动特征。
显著图通道:由CNN+LSTM+Softmax(分类器)组成的子神经网络,网络的输入为从视频中提取的视觉显著性信息,主要提取视频的视觉显著性特征。
多流神经网络:通过将多个并行的子神经网络,进行加权平均融合形成多流神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710552019.0/2.html,转载请声明来源钻瓜专利网。