[发明专利]一种基于跨通道融合空间注意力机制的高清图像翻译方法在审
申请号: | 202210695215.4 | 申请日: | 2022-06-20 |
公开(公告)号: | CN115034959A | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 张欣;杨梦宁;简坤元;龙超;邓植夫;柴海洋 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06T3/00 | 分类号: | G06T3/00;G06N3/04;G06N3/08 |
代理公司: | 重庆晟轩知识产权代理事务所(普通合伙) 50238 | 代理人: | 孔玲珑 |
地址: | 400044 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 通道 融合 空间 注意力 机制 图像 翻译 方法 | ||
1.一种基于跨通道融合空间注意力机制的高清图像翻译方法,其特征在于:包括如下步骤:
S100:选用公开真实照片作为原图数据集X,并预设目标域类别标签集C,原图数据集X中为带有真实类别标签的图像数据,目标域类别标签集C中包括Q种样式的人物写真风格类型的类别标签;
S200:构建基于跨通道融合空间注意力机制的高清图像翻译模型M,基于跨通道融合空间注意力机制的高清图像翻译模型M包括基于跨通道融合空间注意力机制的生成器和基于跨通道融合空间注意力机制的判别器;
所述生成器包括4个模块,依次为下采样模块、跨通道融合空间注意力机制模块、基于跨通道融合空间注意力机制的大残差嵌套小残差模块和上采样模块;
S300:令i=1;
从X中选取第i张图片xi,将xi与C所包含的所有标签拼接在一起输入生成器中得到生成图像yi,即G(xi,C)→yi,具体步骤如下:
S310:将xi输入到下采样模块中,得到第i张图片对应的特征图Fi,下采样模块包含有3个卷积层,每个卷积层分别对应一个实例规范化层;
S320:将特征图Fi输入跨通道融合空间注意力机制模块得到特征图Fcsi,跨通道融合空间注意力机制模块记为CSA,具体步骤如下:
S321:将特征图Fi输入CSA中得到特征图Fci,将特征图Fci进行平均池化处理得到平均池化表征;
S322:将特征图Fci进行最大池化处理得到最大池化表征,所述平均池化表征和最大池化表征均为特征图长宽减半和特征图维度为2的空间表示;
S323:将特征图Fci的平均池化表征和特征图Fci的最大池化表征进行连接,将连接结果输入到转置卷积网络中,最后将转置卷积网络的输出结果进行Sigmoid激活函数的激活处理,得到特征图Fcsi,其中,转置卷积网络的步长大小为2、卷积核大小为4;
S330:将特征图Fcsi输入到基于跨通道融合空间注意力机制的大残差嵌套小残差模块中得到特征图Fri,基于跨通道融合空间注意力机制的大残差嵌套小残差模块记为CSRIR,所述CSRIR包括G个大残差块,每个大残差块包含B个基于跨通道融合空间注意力机制的小残差块,基于跨通道融合空间注意力机制的小残差块记为RCSA;
S340:采用CSA模块对特征图Fri进行处理,将处理结果输入上采样模块,得到生成图像yi;
S400:将生成图像yi输入到基于跨通道融合空间注意力机制的判别器中,得到生成图像yi的真实性Dsrc(xi)和生成图像yi对应的图像类别Dcls(c|G(xi,C));
S500:将生成图像yi与目标域标签集C所包含的所有标签拼接在一起输入到的生成器中得到生成图像y′i;
S510:将生成图像y′i输入到基于跨通道融合空间注意力机制的判别器中,得到生成图像y′i对应的图像类别
S520:计算M的生成器总损失函数和判别器总损失函数,所述生成器总损失函数和判别器总损失函数,具体步骤如下:
S521:采用带有梯度惩罚的WassersteinGAN目标损失作为M的对抗性损失函数表达式如下:
yi=Gsrc(xi,C) (2)
其中,Gsrc(xi,C)表示生成器的生成图像,Dsrc(xi)表示判别器对xx的概率分布,表示真实图像与生成图像之间的先行均匀采样,表示微分操作,表示输入数据的数学期望,表示生成数据的数学期望,λgp表示梯度惩罚权重大小;
S522:定义真实图像的域分类损失函数和生成图像的域分类损失函数具体表达式如下:
其中,ci′表示的是输入图像xi对应的真实类别标签,Dcls(c′|xi)表示的是判别器对真实图像的分类结果;
其中,Dcls(C|G(xi,C))表示的是判别器对生成图像的分类结果;
S523:采用感知动机损失作为M的重构损失函数,表达式如下:
其中,α表示的是权重系数,表示的是均方根误差,表示图像的结构相似性损失;
的表达式如下:
其中,p表示像素定义,μx表示x的均值,μG(G(x,c),c′)表示(G(x,c),c′)的均值,C1表示常数,C2表示常数,σxG(G(x,c),c′)表示x和G(G(x,c),c′)的协方差,l(p)表示对像素p的亮度表示,cs(p)表示对像素p的对比度表示;
的计算表达式如下:
其中,表示对重建过程的数学期望,表示得到的重建图;
S524:计算M的生成器总损失函数和判别器总损失函数,表达式如下:
其中,λcls表示控制域分类权重,λrec表示重构损失权重,表示对抗损失函数;
S600:当总损失函数和两者都不再变化时停止训练或当i等于最大迭代次数时,停止训练,得到训练好的基于跨通道融合空间注意力机制的高清图像翻译模型M′,并执行S700;否则更新M中的参数,令i=i+1,并返回S300;
S700:预设M′的目标域类别标签集C′,C′中包含有Q′中类别标签,选取待处理高清图片z,将z输入到训练好的基于跨通道融合空间注意力机制的高清图像翻译模型M′中,得到z对应的Q′种类别标签的图片。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210695215.4/1.html,转载请声明来源钻瓜专利网。