[发明专利]一种感知联合空间注意力文本生成图像方法在审

申请号：	202210043174.0	申请日：	2022-01-14
公开（公告）号：	CN114387366A	公开（公告）日：	2022-04-22
发明（设计）人：	赵欢;赵玉青;李婷婷;陈恩思;李博	申请（专利权）人：	湖南大学
主分类号：	G06T11/00	分类号：	G06T11/00;G06F40/284;G06V10/80;G06N3/04;G06N3/08;G06V10/82
代理公司：	长沙永星专利商标事务所(普通合伙) 43001	代理人：	周咏;米中业
地址：	410082 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种感知联合空间注意力文本生成图像方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种感知联合空间注意力文本生成图像方法，其特征在于包括如下步骤：

S1.生成初始图像，绘制对象的基本形状和颜色；

S2.进行图像细化，生成从空间维度和单词重要性维度细化的新图像特征；包括通过细粒度单词级文本信息和图像信息融合，并联合空间注意力机制和动态记忆力机制对初始图像消除缺陷并添加细节，增强图像特征区域表征；

S3.训练目标函数，通过加入对抗损失和DAMSM损失鼓励生成器生成更真实更符合文本语义的图像，加入条件增强损失生成过程中避免过拟合，同时加入感知损失减少生成过程中的随机性，生成最终图像。

2.根据权利要求1所述的感知联合空间注意力文本生成图像方法，其特征在于所述的步骤S1，生成初始图像包括文本编码器、条件增强模块和对抗生成网络，具体包括：

A1.将描述性的文本输入文本编码器，得到全局句子向量s和细粒度单词向量W；

A2.对全局句子向量s进行条件增强处理转换为低维条件向量s'，并将低维条件向量s'与服从标准正态分布的随机噪声向量z进行维度相加；

A3.将相加后的组合向量输入第一个生成器G₀，输出初始图像的特征向量，并经过神经网络卷积处理得到第一分辨率图像R₀＝G₀(z,s)，z为随机噪声向量；s为全局句子向量。

3.根据权利要求2所述的感知联合空间注意力文本生成图像方法，其特征在于所述的步骤S2，包括如下步骤：

B1.融合文本和图像，对于给定的上一阶段的图像特征R_k-1和单词文本向量W：

其中，r_i表示图像i-th像素的特征向量；N表示图像像素数量；N_r表示图像像素维度；表示维度为N_r实数空间；

其中，w_j表示j-th单词向量；T表示单词的数目；表示维度为N_w实数空间；单词文本向量W通过感知器M将单词文本向量转换到图像特征的公共语义空间中，表示细粒度单词文本向量；包括T个细粒度单词向量；

B2.将空间注意力模块和动态记忆力模块联合并进行细化，包括先采用空间注意力模块对图像特征图上的每一个位置进行注意力调整，再使用动态记忆力模块在细化阶段选择文本信息调整初始图像内容；

B3.基于响应门和双注意力设计联合响应机制，融合记忆力信息、空间信息和当前图像，生成从空间维度和单词重要性维度细化的新图像特征；

B4.在最后一个生成器上引入感知损失，修正从空间维度和单词重要性维度细化的新图像特征。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于湖南大学，未经湖南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210043174.0/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载