[发明专利]一种基于注意力机制的艺术字风格迁移系统在审

专利信息
申请号: 202110478237.0 申请日: 2021-04-30
公开(公告)号: CN113205574A 公开(公告)日: 2021-08-03
发明(设计)人: 何发智;邓杰希;金千千;吴浩然 申请(专利权)人: 武汉大学
主分类号: G06T11/60 分类号: G06T11/60;G06T11/40;G06N3/04;G06N3/08
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 鲁力
地址: 430072 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 注意力 机制 艺术字 风格 迁移 系统
【权利要求书】:

1.一种基于注意力机制的艺术字风格迁移系统,其特征在于,包括:

图像预处理模块:形成风格图的简化结构;与风格图构成成对的训练集;

生成器,用于生成待判别的目标文字图像;

判别器,用于对生成模块生成的图像进行判别;

生成器基于一个生成对抗网络模型,该模型包含三个模块:

反向结构迁移模块:包括一个基于级联注意力的神经网络,先将得到的结构简图做高斯模糊化处理,然后模糊化的图像通过基于级联注意力的神经网络还原成原来没有模糊之前的样子;这样获得的简化结构图与风格图构成成对的训练集;

首先将风景图通过一个基于注意力机制的卷积神经网络进行训练,得到风格图的简化的结构图,这一过程生成了风格图的结构图与简化的结构图,与风格图构成成对的训练集;改进了之前的注意力模式,采用双重注意力模块进行连接,企图获得更好的特征,更好的简化的结构图;基于注意力机制的卷积神经网络是通过两个3*3和5*5两种大小的卷积核进行的一个双向网络,在进行一系列卷积操作之后,采用全连接的方式交互信息;

训练结构迁移模块:通过训练神经网络,使文字轮廓的周围获得风格图的边缘特征;这个模块包括一个基于级联注意力的神经网络;

具体包含两个小阶段,包含结构迁移和纹理迁移;结构迁移是通过一个基于注意力机制的卷积神经网络,将结构图映射回原来的结构图,形成一个对应关系;同时上述网络通过一个参数L控制风格图简化的程度,该参数L取值范围为0到1,参数为0简化程度越低,参数为1简化程度越高;经过结构迁移之后,接下来是纹理迁移;纹理迁移是通过一个基于注意力机制的卷积神经网络,将结构图映射为风格图,也就是为文字增加了纹理;两个网络都是通过两个3*3和5*5两种大小的卷积核进行的一个双向网络,在进行一系列卷积操作以及下采样,池化操作之后,采用全连接的方式还原为原来的风格图;这是一个逆训练过程,还原到原来的风格图,由风格图的简化结构图得到原来的风格图;但是加入了结构迁移和纹理迁移的部分,使得基于注意力机制的卷积神经网络学会为图像增加文字的结构,为文字增添纹理;保存第二个阶段所获得的模型的参数,这就是对应风格图迁移到文字上面的对应的参数集;

纹理迁移模块:通过训练神经网络,给文字添加风格图纹理特征,这个模块也是包括一个基于级联注意力的神经网络;

具体是导入训练结构迁移模块保存的基于注意力机制的神经网络的参数,这些参数对应某一个风格图,如果将任意文字渲染成该风格图的样式,就导入相应风格图的参数;同时,可以通过参数L控制字体的变形程度。

2.如权利要求1所述的基于注意力机制的艺术字风格迁移系统,其特征在于,所述基于级联注意力的神经网络包含一个空间注意力模块和一个通道注意力模块;这两个模块通过串联相连。

3.如权利要求1所述的基于注意力机制的艺术字风格迁移系统,其特征在于,所述结构迁移模块具体包括一个基于级联注意力的神经网络,级联的注意力机制模块包含一个空间注意力模块和一个通道注意力模块;这两个模块通过串联相连;纹理迁移模块包括一个基于级联注意力的前馈神经网络。

4.如权利要求1所述的基于注意力机制的艺术字风格迁移系统,其特征在于,判别器为一个全连接的神经网络层,这个网络和生成器是同时使用;生成器的输出为判别器的输入,判别器是一个全连接的神经网络层,输出为0到1之间的值,通过值的大小判定生成器生成数据的好坏,越接近1表示生成的数据越好。

5.如权利要求1所述的基于注意力机制的艺术字风格迁移系统,其特征在于,纹理迁移模块的具体步骤包括:输入文字集,训练网络,得到具有风格特征的艺术字。

6.如权利要求1所述的基于注意力机制的艺术字风格迁移系统,其特征在于,生成对抗网络模型中的双向注意力机制的模型的损失函数为:

公式中x表示样本,y表示实际的标签,a表示预测的输出,n表示样本总数量

生成对抗网络模型的总的损失函数loss,该损失函数用来约束生成器和判别器之间的关系,使得两者更加均衡,总的损失函数分别由LGAN,内容风格函数Ltotal(p,a,f)两个部分组成:

loss=argminmaxαLGAN+βLtotal(p,a,f)

生成对抗网络的对抗性损失LGAN,该损失函数定义如下:

其中,P,P^和PS分别表示风格图,简化风格图和艺术字的分布,Pt表示目标图像,Pg表示生成图像,Pc为条件图像;

内容风格损失函数由内容损失函数和风格损失函数构成:

Ltotal(p,a,f)=αLcontent(p,f)+βLstyle(a,f)

其中Ltotal(p,a,f)为内容风格损失函数,Lcontent(p,f)为内容损失函数,

Lstyle(a,x)为风格损失函数;α和β分别代表内容和风格损失的权重,其和为1;

内容损失函数为:

Fij和Pij各自表示内容图经过某一层卷积层得到的特征图、生成图经过卷积层生成的特征图

风格损失函数为:

和代表生成图和风格图经过卷积层得到的特征图、然后自相关得到的二维矩阵Gram matrix。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110478237.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top