[发明专利]基于自然语言的图像修改与生成方法在审
申请号: | 202111474605.0 | 申请日: | 2021-12-06 |
公开(公告)号: | CN114140666A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 蒋兴浩;唐致远;许可;孙锬锋 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06F16/33;G06K9/62 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自然语言 图像 修改 生成 方法 | ||
本发明提供了一种基于自然语言的图像修改与生成方法,包括:根据任务类型,基于输入的图像计算获取初始图像隐向量;输入目标文本信息,计算目标文本嵌入向量;输入目标文本,基于所述目标文本计算目标文本嵌入向量;设定不同目标生成策略,基于目标生成策略计算对应的图像生成预训练模型的层更新权重;依据输入图像计算初始图像隐向量、目标文本嵌入向量与层更新权重,对图像生成预训练模型的参数与图像隐向量进行训练调优,以得到更新后的合成图像的隐向量和图像生成预训练模型;基于更新后的合成图像的隐向量和图像生成预训练模型,得到并输出合成的目标图像。本发明填补了通过自然语言进行可精细化控制的图像修改或生成任务的空白,图像修改与生成效果好,能在较短时间内获取输出结果。
技术领域
本发明涉及一种图像修改与生成方法,特别是涉及一种基于自然语言的图像修改与生成方法。
背景技术
随着计算机硬件算力和深度学习算法的发展,计算机智能辅助图像设计已经逐渐成为设计师工作中的关键工具,包括自动上色,自动填充等。这些算法在设计师已有工作的基础上给出参考建议,或补足缺失信息,提高了设计专业人士的工作效率。
然而对于非专业人士,专业知识的匮乏使得创意产出本身变得困难,无法利用辅助设计工具产出图像创意。
传统的基于一定范围内的文本信息进行图像修改与生成的算法多是通过将图像生成模型与语言模型共同训练得到的文本-图像生成能力,其生成能力仅限于训练时提供的文本范围。由于图像生成模型的复杂性,该范围通常较为局限,且生成图像的过程中无法进行精细调整。
发明内容
针对现有技术中存在的上述不足,本发明的目的是提供一种基于自然语言的图像修改与生成方法,该方法填补了通过自然语言进行可精细化控制的图像修改或生成任务的空白,图像修改与生成效果好,能在较短时间内获取输出结果。
本发明是通过下述技术方案来解决上述技术问题的。
一种基于自然语言的图像修改与生成方法,包括如下步骤:
步骤S1,根据任务类型,基于输入的图像计算获取初始图像隐向量;
步骤S2,输入目标文本,基于所述目标文本计算目标文本嵌入向量;
步骤S3,设定不同目标生成策略,基于目标生成策略计算对应的图像生成预训练模型的层更新权重;
步骤S4,依据输入图像计算初始图像隐向量、目标文本嵌入向量与层更新权重,对图像生成预训练模型的参数与图像隐向量进行训练调优,以得到更新后的合成图像的隐向量和图像生成预训练模型;
步骤S5,基于更新后的合成图像的隐向量和图像生成预训练模型,得到并输出合成的目标图像。
优选地,所述步骤S1包括如下步骤:
步骤S1.1,获取用户输入,确定输入中是否存在图像;
步骤S1.2,若步骤S1.1中判断为是,则当前任务为修改图像,使用图像编码器计算输入的图像对应的隐向量,将计算得到的隐向量作为初始图像隐向量;
步骤S1.3,若步骤S1.1中判断为否,则当前任务为生成图像,在输入层的隐空间内随机采样隐向量作为初始图像隐向量;
其中,图像编码器为具有逆向计算对应图像生成器的输入隐向量的编码器,例如对应StyleGAN的ReStyle编码器。
优选地,所述步骤S2包括如下步骤:
步骤S2.1,获取用户输入的目标文本;
步骤S2.2,通过分词器将所述目标文本拆分为符号集;
步骤S2.3,使用预训练文本编码器计算所述符号集的目标文本嵌入向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111474605.0/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序