[发明专利]基于多头注意力机制的高分辨率的图片的生成方法有效
申请号: | 201811491456.7 | 申请日: | 2018-12-07 |
公开(公告)号: | CN109697694B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 闫然;许少华 | 申请(专利权)人: | 山东科技大学 |
主分类号: | G06T3/40 | 分类号: | G06T3/40;G06N3/0464;G06N3/08 |
代理公司: | 青岛智地领创专利代理有限公司 37252 | 代理人: | 陈海滨 |
地址: | 266590 山东省青岛*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发公开了一种基于多头注意力机制的高分辨率的图片的生成方法,具体涉及计算机视觉算法技术领域。其解决了现有的生成模型如果生成高分辨率的图片,对于图片的细节会生成的质量比较差以及出现图文不符的情况的不足。该方法基于堆积生成对抗网络(StackGAN)提出了一种对文本描述加入多头注意力机制的方法,对于描述图片的关键信息赋予高的权重,对生成不同分辨率图片的生成器加入不同的文本编码向量和类别向量,使最终的高分辨率的生成器能够生成细节完美的图片。 | ||
搜索关键词: | 基于 多头 注意力 机制 高分辨率 图片 生成 方法 | ||
【主权项】:
1.基于多头注意力机制的高分辨率的图片的生成方法,其特征在于,利用多头注意力机制将图片在不同阶段生成不同的图片文本描述向量,利用one‑hot生成图片的类别向量,包括如下步骤:(1)数据预处理:将多个类别的高分辨率的图片进行下采样,分别得到多个类别的低分辨率的图片,将图片、该图片的文件描述以及图片的类别组成“图片‑文本‑类别”对的形式;(2)构建网络结构:利用卷积神经网络构建三个生成器和判别器,生成器的输入端输入相同维度的噪声数据、图片文本描述向量以及类别向量,输出端输出生成器生成的64*64、128*128和256*256的图片;判别器用于对生成的图片真实性和类别进行判断,其输入端输入三种分辨率的“图片‑文本‑类别”对以及生成器生成的图片;(3)对于判别器进行两个判别,第一判别为对生成的图片的真假进行判别,第二判别为对生成的图片的类别进行判断;(4)由于判别器的判别能力高于生成器的生成能力,采取每个判别器迭代一次,三个生成器分别迭代n次,2n次,3n次,其中n为正整数;(5)判别器和生成器不断博弈,直至判别器无法分辨生成器生成的图片是真实的还是假的为止,损失函数如式(1)所述:
其中,x为输入参数代表一张图片,D(x)为输出代表x为真实图片的概率,D(x)为1,就代表100%是真实的图片,D(x)输出为0,就代表不是真实的图片。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东科技大学,未经山东科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811491456.7/,转载请声明来源钻瓜专利网。