[发明专利]基于多特征融合的图像中人物交互检测方法在审

申请号：	202110608515.X	申请日：	2021-06-01
公开（公告）号：	CN113378676A	公开（公告）日：	2021-09-10
发明（设计）人：	马世伟;汪畅;孙金玉	申请（专利权）人：	上海大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/32;G06K9/46;G06K9/62;G06N3/04;G06N3/08
代理公司：	上海上大专利事务所(普通合伙) 31205	代理人：	何文欣
地址：	200444***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于特征融合图像人物交互检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多特征融合的图像中人物交互检测方法，其特征在于：其操作步骤为：

步骤1：输入原始图片；

步骤2：目标检测；

步骤3：构建人物交互识别网络；

步骤4：检测待测图片人物交互行为；

在所述步骤2中，利用目标检测算法检测出图片中所有实例信息，包括人体位置信息以及物体位置和类别信息后，输入训练好的人物交互行为识别网络，检测待测图片中人物对之间的交互行为；

在所述步骤3中，人物交互识别网络采用多支流神经网络结构，包括成对支流、交集支流和短期记忆选择支流，网络对图片中人-物体实例对各类特征进行了学习训练。

2.根据权利要求1所述的基于多特征融合的人物交互检测方法，其特征在于：在所述步骤2中，目标检测的过程为：

采用训练好的目标检测器对输入图片进行目标检测，得到人的候选框b_h以及人的置信度s_h和物体的候选框b_o以及物体的置信度s_o，其中下标h表示人体、o表示物体。

3.根据权利要求1所述的基于多特征融合的人物交互检测方法，其特征在于：在所述步骤3中，构建人物交互识别网络包括以下步骤：

1)提取整张图片卷积特征：

使用经典残差网络ResNet-50对原始输入图片进行卷积特征提取，得到整张图片的全局卷积特征图F，与目标检测结果的人体位置b_h、物体位置b_o一起作为人物交互检测网络的输入；

2)构建成对支流：

根据给定的人物边界框生成一幅具有两个通道的二进制图像B_h,o，将其输入包含两个卷积层两个池化层的浅层卷积神经网络，两个卷积层卷积核大小都是5×5，卷积核的数量分别为64和32，池化层均为最大池化；然后经过平铺位置特征图，得到位置特征向量f_sp，其中下标sp表示人和物体相对位置，之后将向量输入全连接层分类器和sigmoid激活函数得到位置特征支流在各交互类别上分类结果其中上标a∈{1,...,A}是所对应的交互类别，其中A是所有交互类别数；

3)构建交集支流：

首先根据人与物体位置求取人物对交集边界框坐标b_inter，其中下标inter表示人与物体的交集，并利用感兴趣区域池化操作ROI Pooling在全局卷积特征图F上截取交集区域卷积特征，之后使用残差块Res对特征进行优化，并通过全局平均池化层GAP后得到人物对交集区域特征f_inter；同时，对图片人体关键点检测结果进行编码，在每个人物对的最小外接矩形框中，模型对不同关节点之间按COCO数据集提供的骨架模型用不同灰度值的连线连接，用于表征身体的不同部位，其中COCO数据集是由微软公司制作的适用于各类计算机视觉任务的大型公开数据集；矩形框内其余区域像素值都设为0，并且将矩形框调整至一个固定尺度64×64，得到位姿特征图；然后通过两个卷积池化层提取位姿特征f_pose，其中下标pose表示人体位姿，两个卷积层卷积核大小都是5×5，卷积核的数量分别为32和16，池化层均采用最大池化；然后将交集区域特征f_inter与位姿特征f_pose进行拼接并通过两个全连接层进行特征融合得到f_inter-pose，将其输入全连接层分类器和sigmoid函数得到交集特征支流A维分类结果

4)构建短期记忆选择支流：

首先根据人体位置坐标b_h在全局卷积特征图F上进行ROI Pooling操作提取人体区域特征，之后再利用残差块Res优化特征并通过全局平均池化GAP得到池化后的人体特征向量f_h；

根据物体位置坐标b_o在全局卷积特征图F上进行ROI Pooling操作提取物体区域特征，之后利用残差块Res优化特征并通过全局平均池化GAP得到池化后的物体视觉特征向量其中上标vis表示语义特征，并选取Google-News数据集上预训练后的可公开使用的Word2vec向量作为物体语义特征，针对每一个物体类别的标签可提取一个300维的语义特征向量其中上标sem表示语义特征；之后将物体的语义特征向量与视觉特征向量拼接后经过一个全连接层，最终获得1024维的物体特征向量f_o；

对于共同区域的视觉特征，首先根据人和物体的边界框计算最小外接矩形，即两个边界框的并集区域b_union，其中下标union表示人与物体并集，之后在卷积特征图上通过共同区域边界框坐标进行ROI Pooling操作规范化到7×7固定大小，之后经过残差块和全局平均池化提取得到2048维的视觉特征向量之后与成对支流输出的位置特征向量f_sp硬连接，并送入全连接层得到1024维融合后的共同区域特征f_union；

最后将人体特征f_h，物体特征f_o和人和物体共同区域特征f_union输入短期记忆选择模块，短期记忆选择模块由两个门控循环单元(Gated Recurrent Unit,GRU)单元组成，将共同区域特征f_union作为短期记忆模块的初始状态，第一个GRU单元输入为人的表征f_h，第二个单元输入为物体的表征f_o，最后经由短期记忆选择模块的输出状态得到表征f_hoi，经过全连接层分类器和sigmoid函数得到短期记忆选择支流分类结果

5)训练人物交互识别网络：

三个支流共同构成整个人物交互识别网络，将训练集中的样本作为人物交互行为识别网络的输入，计算三支流的交叉熵损失函数之和，利用梯度下降法更新网络参数，直到优化达到最大次数，则终止训练，得到训练好的人物交互行为识别网络。

4.根据权利要求1所述的基于多特征融合的人物交互检测方法，其特征在于：在所述步骤4中，检测待测图片中人物交互行为的检测过程为：

针对待测图片先经过目标检测得到人与物体位置类别信息，之后将所有信息送入训练好的人物交互识别网络进行判断；采取先分类后融合的特征融合方式，即每个支流分别提取特征并进行检测分类，然后再对各支流分类结果分数进行融合得到最后的人物交互行为检测结果；然后针对每个人物对(b_h,b_o)，人物交互检测最终得分计算公式如下：

其中s_h,s_o为目标检测结果人体和物体的置信度，为在A类交互行为分类任务中属于每一类别的概率得分向量，中的*表示不同的支流。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海大学，未经上海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110608515.X/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多特征融合的图像中人物交互检测方法在审

专利文献下载