[发明专利]一种文本到图像的方法有效
申请号: | 201911033265.0 | 申请日: | 2019-10-28 |
公开(公告)号: | CN110866958B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 袁春;吴航昊;贲有成 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
主分类号: | G06T11/00 | 分类号: | G06T11/00;G06N3/0455;G06N3/0464;G06N3/0475 |
代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 江耀纯 |
地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 图像 方法 | ||
本发明提供一种文本生成图像的方法,包括如下步骤:S1:训练对抗视觉语义嵌入模型,所述对抗视觉语义嵌入模型包括:图像编码器网络,图像解码器网络,生成器网络和与所述生成器网络配对的判别器网络;S2:将文本输入所述生成器网络,所述生成器网络输出文本特征嵌入;S3:将所述文本特征嵌入输入到所述解码器网络,所述解码器网络输出符合所述文本的语义描述的图像。用对抗训练的方式对现有文本数据进行视觉特征嵌入方法进行了增强,从而缩小了文本模态数据和图像模态数据在语义空间当中的分布之间的差异。
技术领域
本发明涉及深度学习技术领域,尤其涉及一种文本到图像的方法。
背景技术
文本到图像生成是近年来计算机视觉领域的一个热门的研究课题。在现有各类方法中,基于生成式对抗网络(GAN)的深度生成模型显得尤为重要,因为在理论上它们能够以相对较少的模型参数来生成各种逼真的图像,这意味着它们有能力抓住自然图像的本质。GAN作为一类生成模型已经引起了广泛的关注,它们有能力拟合自然图像的分布,并被广泛应用于各种图像生成任务,如图像修补,超分辨率,图像到图像的转换和未来的帧预测。
近年来有不少方法尝试去提取文本的语义嵌入,比如经典的word2vec。在计算机视觉领域,人们专注于将文本的视觉语义,例如文本描述中提到的颜色、性质、纹理、位置等信息嵌入到语义空间中。现有的做法大多采用基于判别类型任务的方法来预训练一个提取文本语义嵌入的深度神经网络。具体来说,该判别类任务是判断一张图片和一条文本描述在语义上是否吻合。
随着深度生成模型的发展,尤其是对抗生成网络的在理论和实践上的进步,文本到图像的生成任务取得了阶段性的成果。现有的主流方法一般采用条件生成对抗网的框架,将文本描述作为条件来生成符合文本描述的图像。然而文本到图像生成这一跨模态的任务中,两个不同模态的数据在语义空间当中的分布及其不对等,文本模态的数据较为稀疏,图像模态的数据较为稠密。上述的这些方法在处理文本模态的特征时并没有充分挖掘文本特征提取的潜力,从而跨越这一鸿沟。
发明内容
本发明为了解决现有技术中从文到图像的问题,提供一种文本到图像的方法。
为了解决上述问题,本发明采用的技术方案如下所述:
一种文本生成图像的方法,包括如下步骤:S1:训练对抗视觉语义嵌入模型,所述对抗视觉语义嵌入模型包括:图像编码器网络,图像解码器网络,生成器网络和与所述生成器网络配对的判别器网络;S2:将文本输入所述生成器网络,所述生成器网络输出文本特征嵌入;S3:将所述文本特征嵌入输入到所述解码器网络,所述解码器网络输出符合所述文本的语义描述的图像。
优选地,训练所述对抗视觉语义嵌入模型包括如下步骤:S11:构建对抗视觉语义嵌入模型;S12:应用重构损失函数训练所述图像编码器网络和所述图像解码器网络;S13:应用所述重构损失函数训练所述生成器网络和所述解码器网络;S14:应用沃瑟斯坦距离作为损失函数训练所述生成器网络和所述判别器网。
优选地,所述重构损失函数为:
其中,Enc表示所述图像编码器网络,Dec表示所述图像解码器网络,Z表示Encoder提取的特征,x表示训练图像样本,DKL表示KL散度,P(z)是先验分布。
优选地,在所述重构损失函数中加入感知损失。
优选地,所述沃瑟斯坦距离为:
其中,G为所述生成器网络,D为所述判别器网络,nz为从标准高斯分布中采样出的100维的噪声,x为训练集图片,t为训练集文本描述,1-lipschitz表示一阶李普希斯连续,Pdata为训练集图片的概率分布,E为期望。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911033265.0/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序