[发明专利]一种基于多特征融合的视频行为识别方法有效
申请号: | 202110891347.X | 申请日: | 2021-08-04 |
公开(公告)号: | CN113343950B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 李太豪;马诗洁;刘昱龙 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06K9/62;G06N3/04 |
代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 孙孟辉 |
地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 融合 视频 行为 识别 方法 | ||
1.一种基于多特征融合的视频行为识别方法,其特征在于,包括如下步骤:
步骤一,对视频序列进行图像帧采样,得到原始的RGB图像序列,后送入3DCNN网络进行特征提取,获取特征后通过全连接进行全连接维度变换生成;
步骤二,对原始的RGB图像序列进行 skeleton提取,获取关键点热度图视频序列,后送入3DCNN网络中进行特征提取,获取特征后通过全连接进行全连接变换生成;
步骤三,对原始的RGB图像序列进行语义分割,获取语义分割热度图序列,将语义分割热度图序列跟对应的原始的RGB图像序列进行与操作,生成前景分割图像序列,再将送入3DCNN网络中进行特征提取,获取特征后通过全连接进行全连接维度变换生成;
步骤四,将、、通过全连接,进行全连接维度变换后融合,进行分类操作,具体包括以下步骤:
步骤401,将提取生成的特征,,进行全连接操作后,映射为,,;
步骤402,将,,进行concat操作生成;
步骤403,将进行全连接操作后,映射为;
步骤404,将进行sigmoid激活,生成的向量元素值介于0~1之间,以及split操作,分为,,,分别与,,进行点乘操作生成,,;
步骤405,将,,进行concat操作输出;
步骤406,全连接操作映射为;
步骤407,全连接操作映射为并进行分类。
2.如权利要求1所述的一种基于多特征融合的视频行为识别方法,其特征在于,所述3DCNN网络包括8个3*3*3卷积层,5个池化层,2个全连接层,和1个softmax分类层。
3.如权利要求1所述的一种基于多特征融合的视频行为识别方法,其特征在于,所述原始的RGB图像序列的大小为T×3×H×W,其中T为视频采样的帧数,3为图像的通道数,H为图像高度,W为图像宽度;其中的,,是进行展平之后的一维特征向量。
4.如权利要求1所述的一种基于多特征融合的视频行为识别方法,其特征在于,所述步骤二,具体包括:
步骤201,将原始的RGB图像序列送入用于处理二维图像的人体关键点检测网络OpenPose网络中进行处理,输出骨骼点和骨骼点之间的关系生成骨骼图序列,即关键点热度图视频序列;
步骤202,将骨骼图序列送入 3DCNN中进行特征提取,获取特征,然后通过全连接进行全连接维度变换生成。
5.如权利要求4所述的一种基于多特征融合的视频行为识别方法,其特征在于,所述OpenPose网络,首先检测属于图像中每个人骨骼点,输出表征关键点置信度的关键点热度图和关键点对应的连接关系的关键点亲和力图,通过关键点亲和力图将关键点进行分组,指定给不同的个体,然后对属于同一个个体的关键点进行连接,生成关键点连接图。
6.如权利要求1所述的一种基于多特征融合的视频行为识别方法,其特征在于,所述步骤三,具体包括:
步骤301,将原始的RGB图像序列送入语义分割网络Unet网络中进行语义分割,即对每个像素点进行分类,获取每张图像的语义分割结果Mask,即语义分割热度图序列Mask;
步骤302,将Mask同进行与操作,获取前景信息,背景信息置0,生成前景分割图像序列;
步骤303,将前景分割图像序列送入 3DCNN中进行特征提取,获取特征,然后通过全连接进行全连接维度变换生成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110891347.X/1.html,转载请声明来源钻瓜专利网。