[发明专利]一种基于分裂注意力的人-物交互关系分类方法有效
申请号: | 202110796727.5 | 申请日: | 2021-07-14 |
公开(公告)号: | CN113688864B | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 胡荣林;陈青云;董甜甜;朱全银;顾圆圆;赵志勇;何旭琴;邵鹤帅;王媛媛;朱诗雯;张粤 | 申请(专利权)人: | 淮阴工学院 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06K9/62;G06V10/40;G06N3/04;G06N3/08 |
代理公司: | 淮安市科文知识产权事务所 32223 | 代理人: | 吴晶晶 |
地址: | 223400 江苏省淮*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分裂 注意力 交互 关系 分类 方法 | ||
1.一种基于分裂注意力的人-物交互关系分类方法,其特征在于,包括如下步骤:
步骤1:输入带标签的图像数据,对图像数据进行像素平均并映射成三通道的特征向量;
步骤2:构建基础网络块、特征分裂模块以及实例级自注意力模块,将基础网络块、特征分裂模块和实例级自注意力模块组成分裂注意力神经网络;
基础网络块结构如下:所述基础网络块由4个不同深度的残差块组成的ResNet-50主干网以及一个独立的残差模块组成;
所述ResNet-50主干网结构为:首先构建一个两层的基础模块,包括步长为2的二维卷积层与最大池化层;再构建五个深度不同的残差块,深度分别为64,128,256,512,512;利用基础模块与前四个残差块生成ResNet-50作为基础网络;
所述独立的残差模块不在ResNet-50中,用于分别处理人、物两种目标的特征;
特征分裂模块具体结构为:依次设置的卷积层、relu激活操作、特征分裂层、平均池化、连接层、relu激活操作、全连接层、softmax、注意力分裂层、特征融合;具体步骤为:
S1.1:将底层特征输入独立的残差模块,并在1和2维上计算平均值,得到通道数为512的特征向量;
S1.2:通过所述特征分裂层将S1.1中特征向量按通道切分为多个子特征向量,并将子特征向量按通道相加融合,再将融合后的特征向量进行归一化和可覆盖的relu激活操作,得到特征向量T1;
S1.4:将卷积层的卷积操作设置为三个3×3的二维卷积;
S1.5:将特征向量T1转换为(batch, 2 , channels),只将特征的第二维设置为2,再通过softmax操作将特征形状转换为(batch, -1 , 1 ,1),得到注意力向量;
S1.6:通过注意力分裂层将S1.4中注意力向量按通道切分为多个子注意力向量;
S1.7:将子特征向量与相应的子注意力向量相乘,再通过相加融合,得到已增大感受野的特征向量;
实例级自注意力模块具体结构为:卷积层、池化层,归一化操作、自注意力层、全连接层;具体步骤为:
S2.1:将底层特征输入独立的残差模块,并在1和2维上计算平均值,得到通道数为512的特征向量;
S2.2:将通道数为512的特征向量送入池化层,并将特征转换为第二、三维大小为1的特征向量,将其与输入的原始特征做元素级的相乘,得到注意力向量;
S2.3:将S2.2中注意力向量进行归一化操作得到特征向量X;
S2.4:将S2.3中特征向量X输入自注意力层,得到特征向量X1;
S2.5:将特征向量X1输入全连接层,使用池化代替全连接中带步长的卷积,得到通道数为1024的注意力向量;
步骤3:利用基础网络块提取图像的底层特征,将底层特征输入分裂注意力神经网络中,网络中将提取到的外观特征与底层特征融合,得到人和物的外观特征BP;
步骤4:利用基础网络块提取图像的底层特征,并通过对特征进行裁剪、卷积、池化后得到人的局部动作特征,将图像映射为双通道二值图并提取人-物对的空间特征,将空间特征与人的局部动作特征按通道拼接后输入分裂注意力神经网络,得到能够减少空间歧义的人-物对的空间特征CP;
步骤5:将BP与CP通过自注意力机制进行特征融合,得到最终分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110796727.5/1.html,转载请声明来源钻瓜专利网。