[发明专利]一种基于风格与内容解耦的图像风格迁移方法在审
| 申请号: | 202110322481.8 | 申请日: | 2021-03-25 |
| 公开(公告)号: | CN113112397A | 公开(公告)日: | 2021-07-13 |
| 发明(设计)人: | 马伟;贾晓宇;周显晴 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06T3/00 | 分类号: | G06T3/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 风格 内容 图像 迁移 方法 | ||
1.一种基于风格与内容解耦的图像风格迁移方法,其特征在于,包括以下步骤:
步骤1,模型设计
模型由图像风格转换神经网络和基于风格与内容解耦的损失度量网络两部分组成;
所述基于风格与内容解耦的损失度量网络包含风格特征提取模块、内容特征提取模块;其中,内容特征提取模块采用预训练好的VGG-16网络模型;
步骤2,模型训练,具体包括如下步骤:
步骤2.1,使用风格数据集S预先训练损失度量网络中用于提取风格表征的风格特征提取模块;
步骤2.2,将待渲染的内容图像x输入到图像风格转换网络中,输入图像为RGB彩色图像,将其在图像转换网络中进行批归一化处理转换成风格迁移后的结果图y′进行输出;
步骤2.3,将步骤2.2得到的输出图像y′与原内容图像yc输入到损失度量网络的内容特征提取模块中,计算内容重建损失;
步骤2.4,将步骤2.2得到的输出图像y′与原风格图像ys输入到损失度量网络的风格特征提取模块中,使用Gram矩阵差异计算风格损失;
步骤2.5,基于风格与内容解耦的损失度量网络,使用现有数据集作为内容图像进行训练,通过优化算法优化神经风格迁移模型;
步骤2.6,循环执行步骤2.2-2.5,直到该神经风格迁移网络收敛,保存训练好的模型文件;
步骤3,模型使用;
选取待渲染的图像,将其作为内容图像输入到已保存的模型中,最终得到风格迁移后的结果图。
2.根据权利要求1所述的方法,其特征在于,步骤2.1中风格特征提取模块的训练过程如下:首先使用风格数据集S中不同流派的风格图并通过随机切块的方式对数据集进行增强;然后,将所得到的风格图图像块输入到步骤1的风格特征提取模块中,通过设置学习率为10-3进行风格相似性训练得到风格聚类结果;训练过程使用三元组损失函数引导风格聚类并对聚类结果计算交叉熵损失以约束网络训练学习;最后,固定训练参数得到可移植的风格特征提取模块。
3.根据权利要求1所述的方法,其特征在于:
步骤1中所述图像风格转换网络属于一个残差网络,该网络由3个卷积层、5个残差块、3个上采样卷积层构成;
所述基于风格与内容解耦的损失度量网络包含风格特征提取模块、内容特征提取模块;其中,内容特征提取模块采用预训练好的VGG-16网络模型;风格特征提取模块的具体设计如下:
改进VGG-19深度卷积神经网络的结构,具体做法是用两层全连接层替换原VGG-19网络的全连接层,替换后的第一层全连接层用于风格相似性度量学习,替换后的第二层全连接层用于不同风格种类的分类学习。
4.根据权利要求1所述的方法,其特征在于,步骤具体包括如下步骤:
步骤2.1.1:从风格图数据集S中选取不同风格流派的风格图,通过随机切块的方式对数据集进行增强,将每一张风格图随机切分为10块;
步骤2.1.2:将随机切分后得到的风格图图像块输入到步骤1风格特征提取模块的深度卷积神经网络VGG中进行风格相似性训练得到风格聚类结果;训练时,初始化参数为预训练的VGG网络参数,由于网络的前两层卷积层作为最底层卷积块用于提取图像的底层纹理特征,故不更新网络的前两层Conv1_1、Conv1_2的参数,其他层网络以学习率10-3更新参数;
步骤2.1.3:在步骤1损失度量网络部分的风格特征提取模块改进部分的第一层全连接层所提取特征中,使用三元组损失函数引导风格聚类,该损失函数具体定义如下:
Ltri(Si,Sj,Sk)=|Dik-Djk+m|;
其中Sk表示当前样本称为Anchor,Si表示正样本,Sj表示负样本,Dik、Djk分别代表Anchor与正样本、Anchor与负样本的距离,m代表设定的样本对距离的阈值,当正样本对与负样本对的距离相差小于m时,说明网络模型已训好;
步骤2.1.4,为使步骤1损失度量网络部分的风格特征提取模块专注于提取风格特征,对步骤2.1.2所得的聚类结果进行交叉熵损失计算,交叉熵损失计算的具体定义如下:
其中,Si代表数据集S中的某一风格图像样本,p代表步骤2.1.1输入数据的真实分布,q代表通过步骤1改进版神经网络VGG的预测得来的分布;
步骤2.1.5,循环执行步骤2.1.1-2.1.4,直到该VGG模块收敛,学习率固定为10-3;
步骤2.2,将待渲染的内容图像x输入到图像风格转换网络中,输入图像为RGB彩色图像,通过y=fw(x)映射转换成结果图y′并输出;
步骤2.3,将步骤2.2得到的输出图像y′与原内容图像yc输入到损失度量网络的内容特征提取模块中,计算该模块VGG-16网络relu3_3层输出特征的差异作为内容重建损失,该损失函数定义如下:
其中,F为该层提取到的特征,W、H、C分别为特征的宽、高、通道数,‖·‖22计算的是同一层两个特征图之间的欧氏距离;
步骤2.4,将步骤2.2得到的输出图像y′与原风格图像ys输入到损失度量网络的风格特征提取模块中,使用步骤1风格特征提取模块的Conv1_2层,Conv2_2层,Conv3_3层,Conv4_3层所提取的原风格图ys特征与结果图y′特征并对其进行Gram矩阵计算,将两者Gram矩阵的差异作为风格损失,该损失函数具体定义如下:
其中,W、H、C分别为特征的宽、高、通道数,F为该层提取到的特征,特征F′为特征F的转置,特征与特征转置进行乘积得到由G(·)表示图像y′/ys的C×C的Gram矩阵;
步骤2.5,基于风格与内容解耦的损失度量网络,使用COCO数据集作为内容图像进行训练:
学习率固定为0.001,训练35个以上epoch;
训练时,通过Adam算法优化神经风格迁移模型并在图像风格转换网络中不断更新参数,使得内容重建损失和风格损失达到最小并神经风格迁移网络收敛;
步骤2.6,经过训练,保存该神经风格迁移网络收敛后的模型文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110322481.8/1.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





