[发明专利]一种感知联合空间注意力文本生成图像方法在审
申请号: | 202210043174.0 | 申请日: | 2022-01-14 |
公开(公告)号: | CN114387366A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 赵欢;赵玉青;李婷婷;陈恩思;李博 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06T11/00 | 分类号: | G06T11/00;G06F40/284;G06V10/80;G06N3/04;G06N3/08;G06V10/82 |
代理公司: | 长沙永星专利商标事务所(普通合伙) 43001 | 代理人: | 周咏;米中业 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 感知 联合 空间 注意力 文本 生成 图像 方法 | ||
本发明公开了一种感知联合空间注意力文本生成图像方法,包括生成初始图像,绘制对象的基本形状和颜色;进行图像细化,生成从空间维度和单词重要性维度细化的新图像特征;细化过程包括通过细粒度单词级文本信息和图像信息融合,并联合空间注意力机制和动态记忆力机制对初始图像消除缺陷并添加细节,增强图像特征区域表征;通过训练目标函数,鼓励生成器生成更真实更符合文本语义的图像。本发明保证了生成器专注于与最相关的单词对应的图像子区域的内容以及位置和形状,同时避免了生成过程中的随机性,减少了最终生成的图像和目标图像之间的差异,本方法能够提高文本生成图像的感知质量和布局,能够高效准确得生成图像。
技术领域
本发明属于文本合成图像领域,具体涉及一种感知联合空间注意力文本生成图像方法。
背景技术
文本到图像合成技术在艺术生成和计算机辅助设计等领域的应用有很大前景。现在,采用文本生成图像不仅可以大大降低文字创作者匹配图像的成本,还可以提高计算机创作的效率。因此,寻找更有效的方法来生成真实的高分辨率图像,用于文本-图像合成是非常必要的。
生成对抗网络(Generative Adversarial Network,简称GAN)基于博弈论的思想,通过深度神经网络构造生成器模型和判别器模型。生成器以随机噪声为输入生成样本,判别器判断生成样本是否真实。模型训练过程中,生成器不断提高让样本以假乱真的能力,判别器不断提高鉴别的能力。近年来随着GAN理论的不断进步,GAN在一些应用领域上有优异的表现,其中包括GAN在文本生成图像领域取得的成就。
现阶段文本生成图像方法主要分为两种:单阶段方法包括通过对抗式学习进行语义图像合成、文本条件辅助分类器生成对抗网络(TAC-GAN)、即插即用生成网络(PPGAN);多阶段方法包括堆叠的对抗生成网络(StackGAN)、基于注意生成对抗网络的细粒度文本图像生成(AttnGAN)、用于文本图像合成的动态记忆生成对抗网络(DMGAN)。多阶段文本生成图像方法由多个对抗生成网络组成,整个模型分为初始阶段和细化阶段。在初始阶段,随机噪声和编码后的文本联合输入到生成器中生成模糊的初始图像,在后续阶段上一层图像特征向量和词向量拼接输入到对抗生成网络,使得将模糊的初始图像转化为清晰的高分辨率图像,为减少模型复杂度,该阶段一般重复两次,因此多阶段文本生成图像方法一般共有三次生成,其分辨率首先从64*64提升到128*128,然后再提升到256*256。
现有的方法虽然可以产生良好的效果,但它们仍然存在两个问题。首先,大多数先驱方法不能很好地生成真实图像。例如,大多数先驱多阶段方法在生成目标图像时严重依赖初始阶段的布局,原因在于这种策略忽略了信息空间特征,从而导致生成图像布局缺陷(即结构边缘模糊和多对象混淆)。因此,这种方法在文本到图像合成的任务中获得了不真实的图像。其次,根据文本描述生成的图像是随机的。例如,当文本中没有描述对象类别时,生成的图像的内容可能与真实图像有很大不同。此外,尽管多阶段方法是迄今为止最好的生成方法,但在处理具有多个对象的复杂文本(例如COCO数据集)时,它们不能很好地聚焦和细化所有对象,所以生成结果的质量是不准确的。
发明内容
本发明的目的在于提供一种感知联合空间注意力文本生成图像方法,该方法能够提高文本生成图像的感知质量和布局,更加准确高效。
本发明提供的这种感知联合空间注意力文本生成图像方法,包括如下步骤:
S1.生成初始图像,绘制对象的基本形状和颜色;
S2.进行图像细化,生成从空间维度和单词重要性维度细化的新图像特征;包括通过细粒度单词级文本信息和图像信息融合,并联合空间注意力机制和动态记忆力机制对初始图像消除缺陷并添加细节,增强图像特征区域表征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210043174.0/2.html,转载请声明来源钻瓜专利网。