[发明专利]一种基于Transformer的图像颜色增强方法在审
| 申请号: | 202310019740.9 | 申请日: | 2023-01-06 |
| 公开(公告)号: | CN116258640A | 公开(公告)日: | 2023-06-13 |
| 发明(设计)人: | 罗航;胡新荣;彭涛;梁金星;柳正利 | 申请(专利权)人: | 武汉纺织大学 |
| 主分类号: | G06T5/00 | 分类号: | G06T5/00;G06N3/0455;G06N3/084 |
| 代理公司: | 武汉世跃专利代理事务所(普通合伙) 42273 | 代理人: | 万仲达 |
| 地址: | 430073 *** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 transformer 图像 颜色 增强 方法 | ||
1.一种基于Transformer的图像颜色增强方法,其特征在于,包括如下步骤:
步骤1,采集图像,并进行人工标注以及预处理,制作颜色增强数据集,并进一步划分为训练集和测试集;
步骤2,使用训练集中的图像对基于Transformer的颜色增强模型进行训练,具体包括如下子步骤:
步骤2.1,对图像进行均匀分割,得到图元;
步骤2.2,对图元进行块嵌入及位置嵌入;
步骤2.3,构建Transformer编码器,所述Transformer编码器内均包括层标准化、多头注意力模块、多层感知机及残差连接这四个组件,输入为步骤2.2中件块嵌入及位置嵌入后的图元;
步骤2.4,Transformer编码器对各图元计算所得到的特征,将被输入到一个浅层神经网络内,以估计出各图元的颜色转换矩阵,并以各图元转换矩阵的线性组合来构建全局颜色转换矩阵;
步骤2.5,在得到全局颜色转换矩阵之后,将输入图像在通道维度上按进行多项式拓展,将经过多项式拓展的图像与全局颜色转换矩阵相乘,即可得到图像的颜色增强结果;
步骤2.6,计算损失函数并优化基于Transformer的颜色增强模型;
步骤3,在完成模型的训练后,使用训练好的基于Transformer的颜色增强模型,增强测试集中图像的颜色。
2.如权利要求1所述的一种基于Transformer的图像颜色增强方法,其特征在于:步骤1中所述预处理是指,将原始RAW格式的图像渲染到sRGB色彩空间,并下采样为256乘256大小,最后存储为8位PNG格式的图像。
3.如权利要求1所述的一种基于Transformer的图像颜色增强方法,其特征在于:步骤2.1中,使用32乘32大小的滑窗以32的步长在图像上滑动,将图像转化为长度为64,特征维度的大小为1024的序列化输入矩阵I。
4.如权利要求1所述的一种基于Transformer的图像颜色增强方法,其特征在于:步骤2.2的具体实现方式如下;
通过一个大小为1024乘768的线性映射矩阵D,将序列化输入矩阵I嵌入到一个768维的特征空间中,然后,在嵌入结果上叠加一个同大小、可学习的矩阵S,作为序列化输入中各图元位置关系的嵌入,块嵌入与位置嵌入的输出结果X的计算方式可形式化地表示为:
X=I×D+S (1)
5.如权利要求1所述的一种基于Transformer的图像颜色增强方法,其特征在于:步骤2.3中的Transformer编码器的具体处理过程如下;
块嵌入及位置嵌入所得到的结果X随后被传入一个包含12个Transformer特征编码器的序列中,对各图元的特征作进一步的转换,一个Transformer编码器的输出Y可表示为:
对于给定的输入X,Transformer编码器首先对输入执行层标准化,然后多头注意力模块并行地使用12个自注意力线程进行特征变换,在每个自注意力机制线程内,Z均被三个可学习的线性变换映射为三个特征维度为64的矩阵:Q,K,V,再根据Q与K转置的乘积来计算权重,并线性组合V的行向量,得到自注意力机制的输出,上述运算过程可表示为:
最后,12个自注意力机制线程的运算结果在特征维度上进行拼接,并使用一个线性映射对其进行特征变换,得到768维的多头注意力模块的输出;
多头注意力模块的输出结果,通过残差连接与编码器的输入X相结合,然后,再次执行层标准化来标准化特征,并使用一个多层感知机来进行特征的变换;在多层感知机中,设置有一层包含3072个神经元的隐藏层,并以GELU作为非线性函数;输出层设置有768个神经元,以保证特征维度的一致性;最后,再次使用残差连接,将多头注意力模块的输出与多层感知机的输出结果相结合,得到Transformer编码器的特征运算结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉纺织大学,未经武汉纺织大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310019740.9/1.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





