[发明专利]一种基于跨模态自注意力的无候选框指代表达理解方法在审

申请号：	202111557573.0	申请日：	2021-12-19
公开（公告）号：	CN114241191A	公开（公告）日：	2022-03-25
发明（设计）人：	王鹏;索伟;孙梦阳;马瑞阳	申请（专利权）人：	西北工业大学
主分类号：	G06V10/25	分类号：	G06V10/25;G06V10/40;G06V10/82;G06V10/80;G06F40/289;G06K9/62;G06N3/04
代理公司：	西北工业大学专利中心 61204	代理人：	金凤
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于跨模态注意力候选指代表达理解方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于跨模态自注意力的无候选框指代表达理解方法，其特征在于，包括如下步骤：

步骤1：图像及语言信息的提取和编码；

步骤1-1：将图像经过YOLOv3卷积神经网络提取得到一个特征图；将图像分为多个区域，在特征图中加入图像各个区域的位置信息，将得到的图像特征记为G∈R^w^×h×d，w、h、d分别表示特征图的宽、高以及特征的维度，g_i表示特征图中第i个特征向量；

步骤1-2：设定最长的语句词数为T，词数不足T的语句空白处用PAD标识填充，语句开始位置添加CLS标识，语句结尾添加SEP标识；将语句分解为词，通过词嵌入后得到各个词对应的特征向量；再对词的特征向量进行位置编码，将经过位置编码后的词向量输入进BERT网络，得到语言特征E∈R^T×dim，dim表示表达每个单词特征向量的维度，e_t表示第t个词汇的特征向量；

步骤2：基于多头注意力机制的跨模态特征加强；

步骤2-1：将语句特征E和图像特征G输入到跨模态交互注意力模块中；所述跨模态交互注意力模块包括语言引导的视觉注意力模块和视觉引导的语言注意力模块；语言引导的视觉注意力模块和视觉引导的语言注意力模块都分别由N个相同注意力层构成；

在语言引导的视觉注意力模块和视觉引导的语言注意力模块的第一个注意力层中，E¹表示语言特征G¹表示图像特征在之后的N-1个注意力层中，Eⁿ表示经过n-1层图像注意力引导得到的语言特征Gⁿ表示经过n-1层语言注意力引导得到的图像特征n为当前层数；

步骤2-2：在语言引导的视觉注意力模块中，语言特征作为查询矩阵Q的输入，图像特征作为键矩阵K和值矩阵V的输入；语言引导的视觉注意力模块的输入由语言特征和图像特征构成；对于每一个e_t和g_i计算点积，并除以系数之后再利用softmax函数计算注意力权重，其中m为多头注意力的头数，d为输入的特征向量的维度；

每一层语言引导的视觉注意力模块用公式(1)-(3)表示：

其中是经过n层语言引导的视觉注意力层后第i个注意力头得到的图像特征，分别表示语言引导的视觉注意力模块第n层中第i个注意力头针对Q、K、V的参数；为将m个注意力头得到的图像特征融合后得到融合了语言注意力含义的的图像特征，Concat为拼接操作，为将多头注意力得到的多个维度的特征进行拼接后进行降维融合所用的参数，Q_i、K_i、V_i分别为第i个注意力头的查询矩阵、键矩阵和值矩阵；

每一层图像引导的语言注意力模块中用公式(4)-(6)表示：

其中是经过n层图像引导的语言注意力层后第i个注意力头得到的语言特征，分别表示图像引导的语言注意力模块第n层中第i个头针对Q、K、V的参数；为将m个注意力头得到的语言特征融合后得到融合了图像注意力含义的的语言特征，Concat为拼接操作，为将多头注意力得到的多个维度的特征进行拼接后进行降维融合所用的参数；

经过跨模态交互注意力模块的迭代后，得到经过注意力加强后的图像特征和语言特征；

步骤3：基于多头自注意力机制的跨模态特征融合；

对语言特征和图像特征进行拼接，作为多头自注意力模块的输入经过多头跨模态融合之后，提取视觉部分的输出得到H_F∈R^(w×h)×d；

步骤4：目标定位；

将H_F输入含有5个卷积核、步长为1的卷积层，得到形状为w×h×5的预测结果向量，对图像进行等长等宽的区域的划分，按照位置关系将w×h个预测结果分别对应于图像的w×h个区域，每个区域称为一个格子；其中的5指5个预测值，分别为t_x、t_y、t_w、t_h，为预测框中心点的置信度即当前格子含有检测目标的可能性，t_x、t_y分别为预测目标中心点相对当前格子中心点的横坐标、纵坐标的偏移量，t_w、t_h分别为预测目标长宽相对于实际目标长宽的偏移量；

设定目标框真值为bbox＝X_b，Y_b，W_b，H_b，(X_b，Y_b)为目标框的中心点坐标，W_b、H_b分别为目标框的宽和高的真值；采用作为在计算损失时用到的目标框相对宽高，W、H分别为输入图像长和宽的大小；网络训练损失函数定义如下：

L_off＝(Δx-t_x)²+(Δy-t_y)²， (8)

式中，C_ij＝1表示当前格子中含有真值目标的中心点，C_ij＝0表示当前格子中不含有真值目标的中心点；表示真值目标的中心点对于该格中心的偏移，i、j分别指int(·)表示该操作将分数舍入到最接近的整数，用来表示目标中心点真值所在的格子的实际位置；表示在第i行第j列目标中心点真值所在的格子中预测含有目标中心点的可信度；

只对真值目标的中心点所在的格子进行L_off、L_rgr的计算；增加了GIoU损失作为辅助；总损失函数如下：

Loss＝L_cls+λ_offL_off+λ_rgrL_rgr+L_giou (10)

式中，λ_off为L_off的权重参数，λ_rgr为L_rgr的权重参数；

步骤5：训练完成后，对网络进行测试，最终选择置信度最高的格子中心点作为预测位置中心，以此为基础产生预测框，最终预测的目标边界框如下：

其中，(X_t、Y_t)表示预测框中心点的横纵坐标，W_t、H_t分别表示预测框的长、宽。

2.根据权利要求1所述的一种基于跨模态自注意力的无候选框指代表达理解方法，其特征在于，所述T＝20。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北工业大学，未经西北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111557573.0/1.html，转载请声明来源钻瓜专利网。