[发明专利]基于跨模态相似度和生成对抗网络的文本生成图像方法有效
申请号: | 201910635075.X | 申请日: | 2019-07-15 |
公开(公告)号: | CN110490946B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 赵生捷;缪楠;史清江;张林 | 申请(专利权)人: | 同济大学 |
主分类号: | G06T11/00 | 分类号: | G06T11/00;G06V10/74;G06V10/75;G06F40/30;G06F40/289;G06V10/82;G06N3/0464;G06N3/0442;G06N3/045;G06N3/0475;G06N3/094 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 赵继明 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 跨模态 相似 生成 对抗 网络 文本 图像 方法 | ||
本发明涉及一种基于跨模态相似度和生成对抗网络的文本生成图像方法,包括:步骤S1:使用匹配和不匹配的数据训练全局一致性模型、局部一致性模型和关系一致性模型,其中,三个模型分别用于得到文本与图像的全局表示、局部表示和关系表示;步骤S2:利用训练好的全局一致性模型、局部一致性模型和关系一致性模型得到待处理的文本的全局表示、局部表示和关系表示;步骤S3:将待处理文本的全局表示、局部表示和关系表示串联得到待处理文本的文本表示;步骤S4:利用Fsupgt;ca/supgt;条件增强模块待处理文本的文本表示转换为条件向量;步骤S5:将条件向量输入生成器得到生成的图像。与现有技术相比,本发明具有考虑了局部和关系信息等优点。
技术领域
本发明涉及图像检索匹配技术,尤其是涉及一种基于跨模态相似度和生成对抗网络的文本生成图像方法。
背景技术
近年来,深度神经网络DNNs取得了巨大的成功,尤其是针对判别任务而训练的神经网络模型。例如,卷积神经网络CNNs在计算机视觉中展现了伟大的前景。但是判别模型专注于表征学习,而不能够捕捉到数据分布。学习可以解释复杂数据分布的生成模型是深度学习领域一个长期的难题。作为它的一个子问题,基于生成对抗网络GANs的文本生成图像取得了一系列进展。
将文本作为条件送入生成器和判别器中,这些基于生成对抗网络GANs的深度学习模型可以产生和输入文本语义上相近且丰富多彩的图像结果。但是这些条件生成对抗网络只基于总体的文本表达而缺少详细的局部信息,从而无法生成清晰的高质量图像。因此,现有的基于GAN的成功只局限于小型样本库,对于有很多物体的复杂图像生成,仍然是一个挑战。
但不同于普通的文本生成图像问题,本发明基于多层级的文本描述,分别是全局描述、局部描述和关系描述,生成有很多物体和关系的复杂图像。这使得本发明不仅可以捕捉到全局信息,同时可以注意到详细的局部信息。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于跨模态相似度和生成对抗网络的文本生成图像方法。
本发明的目的可以通过以下技术方案来实现:
一种基于跨模态相似度和生成对抗网络的文本生成图像方法,包括:
步骤S1:使用匹配和不匹配的数据训练全局一致性模型、局部一致性模型和关系一致性模型,其中,所述全局一致性模型、局部一致性模型和关系一致性模型分别用于得到文本与图像的全局表示、局部表示和关系表示;
步骤S2:利用训练好的全局一致性模型、局部一致性模型和关系一致性模型得到待处理的文本的全局表示、局部表示和关系表示;
步骤S3:将待处理文本的全局表示、局部表示和关系表示串联得到待处理文本的文本表示;
步骤S4:利用Fca条件增强模块待处理文本的文本表示转换为条件向量;
步骤S5:将条件向量输入生成器得到生成的图像。
对于全局表示:
每个输入图像被调整为299×299的大小,然后被送入卷积神经网络,获得一个高级的全局视觉特征;
使用递归神经网络来处理文本数据,所述递归神经网络为双向LSTM模型来,所述双向LSTM模型抽取语义向量,在双向LSTM模型中,每个单词对应两个潜在状态,串联这两个潜在状态来表示每个单词的语义信息。
对于局部表示:
每个图像被送入基于VGG-16的Fater R-CNN模型,得到多个边界框,将边界框中的图像从原图中裁出,并当作单个子图像处理,送入卷积神经网络得到各单个子图像的全局表示,并将所有单个子图像的全局表示组合得到图像的局部表示;
分解文本得到多个单词,利用双向LSTM和注意力机制得到文本的局部表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910635075.X/2.html,转载请声明来源钻瓜专利网。