[发明专利]基于Transformer与生成对抗网络的图像着色方法在审
申请号: | 202211247125.5 | 申请日: | 2022-10-12 |
公开(公告)号: | CN115546338A | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 薛涛;马鹏森 | 申请(专利权)人: | 西安工程大学 |
主分类号: | G06T11/00 | 分类号: | G06T11/00;G06T15/00;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 王丹 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 transformer 生成 对抗 网络 图像 着色 方法 | ||
本发明公开了一种基于Transformer与生成对抗网络用于图像着色方法,使用生成对抗网络GAN与Transformer,而不是单纯的使用卷积神经网络CNN来解决图像着色问题,提出的Transformer‑GAN通过基于窗口的多头自注意力机制、计算资源友好的鉴别器减少过多的计算资源。局部增强前向传播网络和跳跃连接确保了浅层特征可以在网络中被有效地传输和利用,使得Transformer‑GAN可以有效地捕获全局和局部信息之间的相关性。还通过数据增强、目标函数选择来探索最佳的训练过程,形成的彩色图像生成器和鉴别器使得Transformer‑GAN在图像彩色化方面表现良好。实现了最佳的视觉效果。
技术领域
本发明属于图像处理技术领域,涉及一种基于Transformer与生成对抗网络的图像着色方法。
背景技术
在图像着色任务中,我们的目标是从输入的灰度图像生成彩色图像。按照类别,从早期传统的基于CNN结构的无跳跃连接算法,到后来出现了由使用者指定图像颜色的网络(这些网络需要用户在特定的图层中输入颜色值)。以及使用生成对抗网络(GAN)的动画图像彩色化的端到端前馈架构,另外还有用于特定领域的红外彩色化、雷达图像彩色化等,以及后来出现的多模态着色模型(基于文本的着色网络)。多样化的彩色化网络通过生成不同的彩色图像来补偿多样性的缺乏,网络架构包含多路径网络,该网络在不同的网络路径或级别中学习不同的特征,并且用户给出参考图像作为着色网络的输入样本。以上所有模型有一个共同点都是它们都是基于卷积神经网络CNN的网络,然而与先前的工作不同,我使用transformer以及生成对抗网络GAN构建图像彩色化网络,据我所知,这是第一个使用Transformer为主要网络进行图像彩色化的研究。
发明内容
本发明的目的是提供一种基于Transformer与生成对抗网络的图像着色方法,解决了现在图像着色网络着色效果差,着色多样性差的问题。
本发明所采用的技术方案是,基于Transformer与生成对抗网络的图像着色方法,该方法按照以下步骤实施:
步骤1、构建基于生成对抗网络的图像着色模型,所述图像着色模型包括彩色图像生成器和鉴别器;所述彩色图像生成器同于生成彩色图像,所述鉴别器用于判断输入的图像是真实彩色图像或伪彩色图像;
步骤2、将灰色图像输入所述图像着色模型的彩色图像生成器生成伪彩色图像;
步骤3、分别更新鉴别器以及彩色图像生成器的参数:
步骤3.1:首先固定彩色图像生成器的参数,将所述伪彩色图像以及所述灰色图像对应的真实彩色图像依次交替输入鉴别器,然后根据损失函数计算所述灰色图像对应的真实彩色图像与标签值为1之间的损失,以及根据损失函数计算所述灰色图像生成的伪彩色图像与标签值为0之间的损失,最后利用反向传播算法,更新所述鉴别器的参数;其中标签值为1代表的是真实的图像,标签值为0代表的是生成的伪彩色图像;
步骤3.2:固定鉴别器的参数,根据损失函数计算生成的伪彩色图像与标签值为1之间的损失,最后利用反向传播算法,更新所述彩色图像生成器的参数。
步骤3.3:不断循环步骤3.1和步骤3.2更新鉴别器和彩色图像生成器参数的过程,直至损失值收敛,彩色图像生成器生成效果不错的伪彩色图像,即获得了优化后图像着色模型;
步骤4、利用优化后的图像着色模型就直接对灰色图像进行着色。
本发明的特点还在于,
步骤1中,所述彩色图像生成器中包含多个MWin-transformer模块,所述Mwin-transformer模块的功能是提取和重建图像的特征,输出3通道有效彩色图像:
所述Mwin-transformer模块由三个核心部分组成:基于窗口的多头自注意力机制、层归一化操作LN和局部增强前向传播网络LeFF。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安工程大学,未经西安工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211247125.5/2.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法