[发明专利]基于增强注意力的细粒度手绘草图图像检索方法有效
| 申请号: | 202010204392.9 | 申请日: | 2020-03-21 |
| 公开(公告)号: | CN111488474B | 公开(公告)日: | 2022-03-18 |
| 发明(设计)人: | 张玥杰;王燕飞 | 申请(专利权)人: | 复旦大学 |
| 主分类号: | G06F16/53 | 分类号: | G06F16/53;G06N3/04 |
| 代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
| 地址: | 200433 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 增强 注意力 细粒度 手绘 草图 图像 检索 方法 | ||
1.一种基于增强注意力的细粒度手绘草图图像检索方法,其特征在于,具体步骤为:
(1)通过在线采样,生成训练用三元组样本;
在生成用于训练的三元组样本时,使用在线采样策略,以实现在最小批量中生成三元组;包括:
(1.1)基本采样方法,即难样本挖掘方法;
假设有一个用于训练的最小批量其中包含n对草图si及其匹配图像对于每个草图-图像对选择K个图像作为其负样本图像这些负样本图像来自当前最小批量中的其它草图-图像对,并与目标草图-图像对一起构成三元组;K的最大值为n-1,这意味着可将所有可能的三元组都考虑在内;
(1.2)最难样本挖掘方法;
最难样本挖掘看作是在最小批量中选择最困难的样本,其挖掘过程为:首先计算给定草图与所有候选图像之间的距离,然后选取具有最小距离的图像,最终将在一个最小批量中获得n个三元组;
(2)建立残差通道注意力机制
通道注意力机制是为给定的特征图选择不同模式检测器的过程,每个通道都对应一个卷积滤波器,且该卷积滤波器被用作模式检测器;按照CBAM模型中的方法,基本通道注意力机制用如下公式(1)来表示:
其中,F是输入的特征图;AvgPool和MaxPool分别是平均池化和最大池化;MLP是多层感知机;σ是激活函数;W0和W1是多层感知机不同层的权重;和分别是平均池化和最大池化操作输出的特征图;注意力掩码mc是通过通道注意力函数Mc,利用中间特征图作为输入获得;输出特征Fatt_c是通过将注意力掩码mc与输入特征图进行相乘获得,如下述公式(2)所示:
这种注意力机制使用平均池化和最大池化操作来压缩输入特征,这些操作方法会丢失细粒度的信息,对细粒度的特征提取具有破坏性,最终使得网络失去提取细粒度特征的表达能力;为解决此问题,进一步引入残差通道注意力机制,该残差通道注意力机制使用带有可学习参数的残差连接将输入特征图直接与注意力特征图进行连接;带有残差连接的注意力特征图按下述公式(3)进行计算:
其中,δ是一个可学习的参数,在训练开始时会初始化为0;原始特征图和注意力特征图通过自学习自动组合;网络可以先学习原始特征,然后在学习过程中逐渐增加注意力特征的权重;
(3)建立局部自我空间注意力机制
不同的草图或图像区域对检索性能具有不同影响,模型需要找到一种有效方法汇总来自这些区域的信息;为此,引入自我空间注意力机制,以对这些分散的空间区域之间的关系进行建模;按照SAGAN模型中的方法来计算自我空间注意力:
第一步将原始特征图嵌入至不同的特征空间q、k和v中,通过将它们输入至不同的卷积层中来获得不同的特征图Q、K和V;
第二步将这些新的特征图重新调整为N=H×W;
第三步,按下述公式(4)计算在自我注意空间的注意力图中每个元素的值:
最后,将特征图V与Ms的转置和可学习的参数γ相乘,把结果重新调整为然后将其与原始输入特征图相加,如下述公式(5)所示:
其中,γ初始化为0,与残差通道注意力中的δ作用相同;
前述的自我空间注意力机制在特征图上建立一个区域和其他所有区域之间的关系;
进一步采用局部自我空间注意力机制,将整个大空间划分为小区域以进行注意力处理;通过划分空间,可同时获得不同区域的注意力,从而可通过尺寸变换和共享注意力权重来实现并行加速,加快计算过程;局部自我空间注意力机制的计算过程包括:首先将特征图变换为其中N=n2,n为在空间分割中边的长度;其次,将自我空间注意力应用于特征图其中N被视为批大小;最后,结果恢复为原始输入的特征图形状;
(4)通过空间序列(Transformer)按照空间顺序构造草图-图像的对应关系;
将Transformer与CNN结合以对草图空间序列与图像空间序列之间的关系进行建模;在为自然语言建模时,Transformer的输入通常是一个单词嵌入序列;为适应这种输入要求,将特征图视为N=H×W的一个空间序列,其中N是空间序列的长度;采用和BERT中的相同实现方式,使用双向多头注意力Transformer;对于给定的局部空间,其输入表示为相应局部空间特征和位置嵌入的总和;
(5)采用互损失方法,控制单一模态内部两幅草图/图像之间的距离;
所述互损失方法,是采用通常的三元组损失Lt=max(0,m+D(Sa,Ip)-D(Sa,In))和交叉熵损失来优化FG-SBIR模型的基础上,进一步通过限制两幅图像之间的距离来克服上面两个损失的缺点,互损失方法表示为下述公式(6):
Lm(xi,xj)=max(0,m-D(xi,xj)) (6)
其中,m是一个偏置量,用来控制单一模态内部两幅草图/图像之间的距离;
由于模型包含两个经过对应模态训练的网络分支,因此总的损失函数定义为下述公式(7):
其中,和分别表示草图和图像模态,而α、λ和β表示损失权重。
2.根据权利要求1所述的基于增强注意力的细粒度手绘草图图像检索方法,其特征在于:
步骤一、CNN网络训练:
采用ResNet网络作为网络骨架,加入残差通道注意力机制、局部自我空间注意力机制和空间序列;采用在线采样策略,生成训练三元组样本,作为网络输入,使用公式(7)来训练搭建好的网络模型;
步骤二、图像语义特征提取:
使用CNN来提取每幅手绘草图和彩色图像视觉特征;采用带有注意力机制的ResNet网络作为图像语义提取器,最后一层的输出特征表示视觉全局特征;由此,对于输入的每幅图像,网络会输出其全局视觉特征表示;
对于输入的手绘草图和彩色图像分别利用相对应的模态网络分支来提取语义特征,即对于输入的查询草图,利用草图网络分支来提取草图的语义特征;对于检索数据库中的所有彩色图像,利用图像网络分支来提取图像的语义特征;
步骤三、排序选择:
对于已提取到的手绘草图特征和彩色图像特征,直接利用特征之间的欧式距离来衡量查询草图与彩色图像之间的相似性;这是由于所构建的模型是端到端的设计,在经过图像语义特征嵌入后,手绘草图特征和彩色图像特征在高维嵌入空间已完成距离映射,只需要简单计算它们之间的欧式距离就能反应出它们之间的相似度;然后按相似度大小排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010204392.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种从废旧磷酸铁锂粉中提取磷的方法
- 下一篇:一种塑料编织底布的定型方法





