[发明专利]一种风格字符生成的方法有效
申请号: | 201911138722.2 | 申请日: | 2019-11-20 |
公开(公告)号: | CN111046915B | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 熊盛武;路雄博;朱安娜;张齐洋;曹丹凤 | 申请(专利权)人: | 武汉理工大学;武汉水象电子科技有限公司 |
主分类号: | G06V30/19 | 分类号: | G06V30/19;G06V10/80;G06V10/74;G06V10/774;G06V10/82;G06T11/00;G06N3/04;G06N3/08 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 王琪 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 风格 字符 生成 方法 | ||
1.一种风格字符生成的方法,其特征在于:以若干种风格字符组成的参考字符数据集,以及任意挑选的一组风格字符的全集作为标准集,使用基于深度特征相似性融合生成对抗网络生成风格字符的方法;该方法能够根据任意个来自同一风格的参考字符,和一个标准集中的字符,生成一新的字符,其中生成字符的风格与参考字符一致,其内容与给定的标准集中的字符一致;
所述基于深度特征相似性生成对抗网络由判别器D和生成器G两部分组成;其中生成器G部分由内容提取器Ec,风格特征提取器Es,风格融合器Mf和逆向生成网络Dr四个部分组成;
所述判别器D,输入数据为来自真实的目标文字TC或生成的目标文字GC,输出为样本来自真实分布的概率,若样本为TC则输出为1,若样本为GC则输出为0;判别器的网络结构由三个卷积块组成,每个卷积块包括卷积层、批归一化、激活函数和下采样,其中网络的最后一层输出为Softmax概率;
所述内容提取器Ec,输入数据为来自标准集中的目标字符的内容CT,输出为指定CT的深层内容特征fc,该提取器的网络结构由三个卷积块和六个ResNet块Block组成,每个卷积块包括卷积层、批归一化、激活函数和下采样;
所述风格特征提取器Es,输入数据为给定风格的参考字符RC,来自标准集中的目标字符的内容CT,以及来自标准集中的给定风格的参考字符对应的内容字符CR,输出给相应输入字符的深层风格特征fs;该提取器的网络结构与内容提取器的网络结构一致,也是由三个卷积块和六个ResNet块组成,每个卷积块包括卷积层、批归一化、激活函数和下采样;
所述风格融合器Mf由三个部分组成,分别为目标字符与给定参考风格特征相似性矩阵计算模块,目标字符风格信息生成模块,以及目标文字深度特征融合模块;风格融合器的输入为目标字符对应标准字符CT的内容特征fc,目标字符对应标准字符CT的风格特征fs_c,参考字符RCi的风格特征fs_rci以及参考字符RCi对应的标准字符CRi的风格特征fs_cri,输出为目标字符的深度特征ft;其中目标字符与给定字符风格特征相似性矩阵计算模块的输入为目标字符对应标准字符CT的风格特征fs_c,参考字符RCi对应的标准字符CRi的风格特征fs_cri输入为fs_c与fs_cri的相似性矩阵SM;目标字符风格信息生成模块的输入为相似性矩阵SM以及参考字符RCi的风格特征fs_rci,输出为目标字符的风格特征fs;目标文字深度特征融合模块的输入为目标字符的风格特征fs以及目标字符对应标准字符CT的内容特征fc,输出为目标字符的深度特征ft;
所述逆向生成网络的Dr的输入为目标字符的深度特征ft,输出为目标字符GC,其中GC具有CT的内容,以及与参考字符RC相一致的风格,即无论内容还是风格都与TC一致;逆向生成网络由逆卷积层和批归一化组成,除最后一层采用Sigmoid激活外,其余层仅采用上采样;
上述描述中CT,CR,RC,TC均为H*W*C的RGB图像,其中H表示图片的高,W表示图片的宽,C为图像的通道数;i表示给定参考字符的索引值;
该方法包括如下步骤:
步骤一,将数据集划分为训练集,验证集和测试集,随机挑选一组风格的字符作为标准集,并对基于深度特征相似性生成对抗网络进行随机初始化;
步骤二,在训练集中进行任务的采样,每一组风格中的参考字符采用随机采样的方法,将任务描述为一个四元组(RCi,CRi,CT,TC),其中i=1,2…K,K表示给定风格字符的个数;其中RCi表示第i个给定的参考字符,CRi表示第i个给定参考字符对应的标准内容字符,CT表示目标字符对应的标准内容字符,TC表示要生成的目标字符本身;
步骤三:将RCi,CRi,CT输入风格特征提取器Es中,分别得到对应字符的深度风格特征fs_rci,fs_cri和fs_c,同时将CT输入内容提取器Ec中,得到对应文字的深度内容特征fc;
步骤四:将fs_cri和fs_c输入风格融合器Mf的目标字符与给定参考风格特征相似性矩阵计算模块计算两者之间的深度特征相似性矩阵SM;
步骤五:将fs_rci与SM输入风格融合器Mf的目标字符风格信息生成模块,得到目标字符的风格特征fs;
步骤六:将fs与fc输入征融合器Mf的目标文字深度特征融合模块,得到目标字符的融合深度特征ft;
步骤七:将目标文字的融合深度特征ft输入逆向生成网络的Dr,得到最终的生成文字GC;
步骤八:通过GC和TC,计算其损失,并通过反向传播,采用随机梯度下降法更新网络G和D的参数;
步骤九:通过验证集中采样到的任务(RCi,CRi,CT,TC)验证网络,若达到停止条件,则停止训练,否则返回步骤二;
步骤十:在应用时,GC=G(RCi,CRi,CT)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学;武汉水象电子科技有限公司,未经武汉理工大学;武汉水象电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911138722.2/1.html,转载请声明来源钻瓜专利网。