[发明专利]基于调制融合和生成对抗网络的文本生成图像方法有效
申请号: | 202211399263.5 | 申请日: | 2022-11-09 |
公开(公告)号: | CN115527216B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 高文超;周思杰;张杰;陈诗雨;任圣博 | 申请(专利权)人: | 中国矿业大学(北京) |
主分类号: | G06V30/19 | 分类号: | G06V30/19;G06V10/82;G06V10/80;G06N3/0464;G06N3/048;G06N3/0475;G06N3/08 |
代理公司: | 成都方圆聿联专利代理事务所(普通合伙) 51241 | 代理人: | 苟铭 |
地址: | 100083 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 调制 融合 生成 对抗 网络 文本 图像 方法 | ||
本发明公开了一种基于调制融合和对比学习生成对抗网络的文本生成图像方法,包括以下步骤:建立调制融合模块,设计成了残差结构,包含主路的两个文本特征变换层、两个卷积层和支路的一个卷积层;建立生成器,由一个映射网络、八个调制融合模块,六个上采样模块和一个卷积层组成。建立判断器网络结构判别器由一个特征提取器和三个分支组成的,三个分支包括:语义重构分支、无条件损失分支和条件损失分支。建立对比学习网络进行对比损失;优化损失函数,损失函数包括生成对抗损失、语义重构损失。本发明可以生成更加符合文本语义的图像,对于图像的真实度和语义一致性都有提升,对于图像的生成质量有了进一步提升。
技术领域
本发明涉及对抗网络的文本合成图像技术领域,特别涉及一种基于调制融合和对比学习生成对抗网络的文本生成图像方法。
背景技术
文字生成图像技术随着信息技术的不断发展和社会的进步,进入了大众的生活之中。近年来,深度学习的发展推动了研究者将注意力转向了多模态学习的探索和应用。所谓多模态学习是指将不同存在形式的信息,包括文本、图像、视频等进行多模态表示、转化、融合和学习,目前学术研究上较为成熟的是视觉和文本之间的交互,例如将一句描述作为输入,输出包含描述信息的图像,即文本生成图像。人工对文字配画耗时耗力,并且对配画生成的数量也有限,因此,通过机器自动根据文字描述生成对应的图像是非常有必要的。该项研究将会给数据智能领域带来很大的推动力,其落地也会给生产和生活带来极大的便利。
文字生成图像的应用在日常生活中使用的场景数不胜数:业主进行房屋装修时,装修公司提供装修设计图能提高业主的满意程度;公安机关根据目击证人的描述画出嫌疑人的肖像辅助破案;轻小说的插画决定轻小说的初始销量。因此,如何在人工智能不断取得新成果的背景下,利用新兴的技术来展现出文字描述的画面,是一个促进生产、提高生活质量的重要研究方向。
文本生成图像的主要研究集中于三个方面:图像生成、文本语义理解以及图像文本的语义一致性。
图像生成依靠生成对抗网络(Generative Adversarial Networks,GANs)的诞生使之成为可能,GANs是目前图像生成领域使用最广泛的技术,是生成模型发展历史上的一个里程碑。GANs优点和缺点都很明显,优点是相对于传统生成模型可以生成更高分辨率的图像,且纹理清晰,目前可以生成的最大分辨率已经达到1024x1024,其缺点是训练相对困难,容易陷入模式崩溃,并且非常难以解决。
文本语义理解就是让机器理解人类的语言,并做出正确的响应。为此应运而生的研究方向就是自然语言处理,自然语言处理的核心是语义理解,需要根据人类理解事物的规律创造出更加丰富的,灵活的,自适应能力强的特征表示。如今文本的特征表示虽然已经有了很大的进展,然而这些方法大多只能应用到分类方面,并没有办法做到完全理解文本的语义。
文本生成图像任务中,最难解决的就是语义一致性,并且最难衡量的也是语义一致性。图像和文本表达的含义是否相同取决于人类的感官,那么如何让机器能够模仿人类的感官呢?通常的做法就是建立一个深度学习模型,该模型具有两个分支,分别学习视觉感受和语句感受,映射到同一个向量空间,然后计算匹配程度,匹配程度越高,证明图像文本的语义一致性越高。在文本生成图像的系统中,如何在保证具有较高清晰度和分辨率的前提下,确保文本和图像的语义一致性是一个重要问题。
现有技术一
生成对抗网络[1](Generative Adversarial Networks,GAN)是GoodFellow于2014年提出的基于对抗思想进行数据生成的模型,GAN最大的特点就是引入了博弈论中零和博弈的思想,对抗的双方为生成模型G和判别模型D,两个模型交替训练相互竞争。
现有技术一的缺点
GAN具有难以忽视的问题就是由于生成能力过于自由,生成不可控且训练稳定性和收敛性难以保证,容易造成模型崩塌。
现有技术二
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学(北京),未经中国矿业大学(北京)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211399263.5/2.html,转载请声明来源钻瓜专利网。