[发明专利]基于多特征融合的图像中人物交互检测方法在审
申请号: | 202110608515.X | 申请日: | 2021-06-01 |
公开(公告)号: | CN113378676A | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 马世伟;汪畅;孙金玉 | 申请(专利权)人: | 上海大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 何文欣 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 融合 图像 人物 交互 检测 方法 | ||
1.一种基于多特征融合的图像中人物交互检测方法,其特征在于:其操作步骤为:
步骤1:输入原始图片;
步骤2:目标检测;
步骤3:构建人物交互识别网络;
步骤4:检测待测图片人物交互行为;
在所述步骤2中,利用目标检测算法检测出图片中所有实例信息,包括人体位置信息以及物体位置和类别信息后,输入训练好的人物交互行为识别网络,检测待测图片中人物对之间的交互行为;
在所述步骤3中,人物交互识别网络采用多支流神经网络结构,包括成对支流、交集支流和短期记忆选择支流,网络对图片中人-物体实例对各类特征进行了学习训练。
2.根据权利要求1所述的基于多特征融合的人物交互检测方法,其特征在于:在所述步骤2中,目标检测的过程为:
采用训练好的目标检测器对输入图片进行目标检测,得到人的候选框bh以及人的置信度sh和物体的候选框bo以及物体的置信度so,其中下标h表示人体、o表示物体。
3.根据权利要求1所述的基于多特征融合的人物交互检测方法,其特征在于:在所述步骤3中,构建人物交互识别网络包括以下步骤:
1)提取整张图片卷积特征:
使用经典残差网络ResNet-50对原始输入图片进行卷积特征提取,得到整张图片的全局卷积特征图F,与目标检测结果的人体位置bh、物体位置bo一起作为人物交互检测网络的输入;
2)构建成对支流:
根据给定的人物边界框生成一幅具有两个通道的二进制图像Bh,o,将其输入包含两个卷积层两个池化层的浅层卷积神经网络,两个卷积层卷积核大小都是5×5,卷积核的数量分别为64和32,池化层均为最大池化;然后经过平铺位置特征图,得到位置特征向量fsp,其中下标sp表示人和物体相对位置,之后将向量输入全连接层分类器和sigmoid激活函数得到位置特征支流在各交互类别上分类结果其中上标a∈{1,...,A}是所对应的交互类别,其中A是所有交互类别数;
3)构建交集支流:
首先根据人与物体位置求取人物对交集边界框坐标binter,其中下标inter表示人与物体的交集,并利用感兴趣区域池化操作ROI Pooling在全局卷积特征图F上截取交集区域卷积特征,之后使用残差块Res对特征进行优化,并通过全局平均池化层GAP后得到人物对交集区域特征finter;同时,对图片人体关键点检测结果进行编码,在每个人物对的最小外接矩形框中,模型对不同关节点之间按COCO数据集提供的骨架模型用不同灰度值的连线连接,用于表征身体的不同部位,其中COCO数据集是由微软公司制作的适用于各类计算机视觉任务的大型公开数据集;矩形框内其余区域像素值都设为0,并且将矩形框调整至一个固定尺度64×64,得到位姿特征图;然后通过两个卷积池化层提取位姿特征fpose,其中下标pose表示人体位姿,两个卷积层卷积核大小都是5×5,卷积核的数量分别为32和16,池化层均采用最大池化;然后将交集区域特征finter与位姿特征fpose进行拼接并通过两个全连接层进行特征融合得到finter-pose,将其输入全连接层分类器和sigmoid函数得到交集特征支流A维分类结果
4)构建短期记忆选择支流:
首先根据人体位置坐标bh在全局卷积特征图F上进行ROI Pooling操作提取人体区域特征,之后再利用残差块Res优化特征并通过全局平均池化GAP得到池化后的人体特征向量fh;
根据物体位置坐标bo在全局卷积特征图F上进行ROI Pooling操作提取物体区域特征,之后利用残差块Res优化特征并通过全局平均池化GAP得到池化后的物体视觉特征向量其中上标vis表示语义特征,并选取Google-News数据集上预训练后的可公开使用的Word2vec向量作为物体语义特征,针对每一个物体类别的标签可提取一个300维的语义特征向量其中上标sem表示语义特征;之后将物体的语义特征向量与视觉特征向量拼接后经过一个全连接层,最终获得1024维的物体特征向量fo;
对于共同区域的视觉特征,首先根据人和物体的边界框计算最小外接矩形,即两个边界框的并集区域bunion,其中下标union表示人与物体并集,之后在卷积特征图上通过共同区域边界框坐标进行ROI Pooling操作规范化到7×7固定大小,之后经过残差块和全局平均池化提取得到2048维的视觉特征向量之后与成对支流输出的位置特征向量fsp硬连接,并送入全连接层得到1024维融合后的共同区域特征funion;
最后将人体特征fh,物体特征fo和人和物体共同区域特征funion输入短期记忆选择模块,短期记忆选择模块由两个门控循环单元(Gated Recurrent Unit,GRU)单元组成,将共同区域特征funion作为短期记忆模块的初始状态,第一个GRU单元输入为人的表征fh,第二个单元输入为物体的表征fo,最后经由短期记忆选择模块的输出状态得到表征fhoi,经过全连接层分类器和sigmoid函数得到短期记忆选择支流分类结果
5)训练人物交互识别网络:
三个支流共同构成整个人物交互识别网络,将训练集中的样本作为人物交互行为识别网络的输入,计算三支流的交叉熵损失函数之和,利用梯度下降法更新网络参数,直到优化达到最大次数,则终止训练,得到训练好的人物交互行为识别网络。
4.根据权利要求1所述的基于多特征融合的人物交互检测方法,其特征在于:在所述步骤4中,检测待测图片中人物交互行为的检测过程为:
针对待测图片先经过目标检测得到人与物体位置类别信息,之后将所有信息送入训练好的人物交互识别网络进行判断;采取先分类后融合的特征融合方式,即每个支流分别提取特征并进行检测分类,然后再对各支流分类结果分数进行融合得到最后的人物交互行为检测结果;然后针对每个人物对(bh,bo),人物交互检测最终得分计算公式如下:
其中sh,so为目标检测结果人体和物体的置信度,为在A类交互行为分类任务中属于每一类别的概率得分向量,中的*表示不同的支流。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110608515.X/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序