[发明专利]基于自然语言的图像修改与生成方法在审
申请号: | 202111474605.0 | 申请日: | 2021-12-06 |
公开(公告)号: | CN114140666A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 蒋兴浩;唐致远;许可;孙锬锋 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06F16/33;G06K9/62 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自然语言 图像 修改 生成 方法 | ||
1.一种基于自然语言的图像修改与生成方法,其特征在于,包括如下步骤:
步骤S1,根据任务类型,基于输入的图像计算获取初始图像隐向量;
步骤S2,输入目标文本,基于所述目标文本计算目标文本嵌入向量;
步骤S3,设定不同目标生成策略,基于目标生成策略计算对应的图像生成预训练模型的层更新权重;
步骤S4,依据输入图像计算初始图像隐向量、目标文本嵌入向量与层更新权重生成策略,对图像生成预训练模型的参数与图像隐向量进行训练调优,以得到更新后的合成图像的隐向量和图像生成预训练模型;
步骤S5,基于更新后的合成图像的隐向量和图像生成预训练模型,得到并输出合成的目标图像。
2.如权利要求1所述的基于自然语言的图像修改与生成方法,其特征在于,所述步骤S1包括如下步骤:
步骤S1.1,获取用户输入,确定输入中是否存在图像;
步骤S1.2,若步骤S1.1中判断为是,则当前任务为修改图像,使用图像编码器计算输入的图像对应的隐向量,将计算得到的隐向量作为初始图像隐向量;
步骤S1.3,若步骤S1.1中判断为否,则当前任务为生成图像,在输入层的隐空间内随机采样隐向量作为初始图像隐向量。
3.如权利要求2所述的基于自然语言的图像修改与生成方法,其特征在于,所述图像编码器为具有逆向计算对应图像生成器的输入隐向量的编码器。
4.如权利要求2所述的基于自然语言的图像修改与生成方法,其特征在于,所述步骤S2包括如下步骤:
步骤S2.1,获取用户输入的目标文本;
步骤S2.2,通过分词器将所述目标文本拆分为符号集;
步骤S2.3,使用预训练文本编码器计算所述符号集的目标文本嵌入向量。
5.如权利要求4所述的基于自然语言的图像修改与生成方法,其特征在于,所述分词器为具有对自然语言文本进行单词拆分与符号转化的码本;预训练文本编码器为具有对文本符号集进行向量空间嵌入的文本模型;所述分词器与文本编码器成对使用。
6.如权利要求4所述的基于自然语言的图像修改与生成方法,其特征在于,所述步骤S3包括如下步骤:
步骤S3.1,设定不同目标生成策略,所述目标生成策略包括自由度的设定,所述自由度的设定包括:形状自由度、纹理自由度和内容自由度的设定;
步骤S3.2,根据设定的目标生成策略计算对应图像生成预训练模型的层更新权重,其中,所述层更新权重,用于决定所述图像生成预训练模型的各层的可训练度。
7.如权利要求6所述的基于自然语言的图像修改与生成方法,其特征在于,所述自由度为控制生成图像效果的超参数,自由度越高则生成范围越广,但失真概率越大;自由度越低则生成范围越窄,但失真概率越小。
8.如权利要求6所述的基于自然语言的图像修改与生成方法,其特征在于,图像生成预训练模型为具有层解耦能力的预训练图像生成器。
9.根据权利要求6所述的基于自然语言的图像修改与生成方法,其特征在于,所述步骤S4包括如下步骤:
步骤S4.1,将初始图像隐向量输入图像生成预训练模型,获取输出的合成图像;
步骤S4.2,将输出的合成图像输入预训练视觉嵌入模型,获取合成图像的嵌入向量;
步骤S4.3,将合成图像的嵌入向量与目标文本嵌入向量,输入对比语言图像预训练模型,计算语义距离作为模型训练的对比损失值;
步骤S4.4,将所述对比损失值反向传播到网络各节点,根据层更新权重缩放各节点损失值,再通过优化器更新合成图像的隐向量与图像生成预训练模型的参数。
10.根据权利要求9所述的基于自然语言的图像修改与生成方法,其特征在于,所述对比语言图像预训练模型为根据文本图像进行预训练的模型,具有计算文本与图像之间的语义距离的能力。
11.根据权利要求9所述的基于自然语言的图像修改与生成方法,其特征在于,所述步骤S5包括如下步骤:
步骤S5.1,将更新后的合成图像的隐向量输入更新后的图像生成预训练模型,获取合成的目标图像;
步骤S5.2,将合成的目标图像输出至显示屏并展示结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111474605.0/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序