[发明专利]一种基于特征解耦合的文字-图像对生成方法和装置在审

专利信息
申请号: 202210148651.X 申请日: 2022-02-17
公开(公告)号: CN114677569A 公开(公告)日: 2022-06-28
发明(设计)人: 王蕊;梁栋;李太豪;裴冠雄 申请(专利权)人: 之江实验室;中国科学院信息工程研究所
主分类号: G06V10/80 分类号: G06V10/80;G06V10/40;G06V30/18;G06V10/82;G06K9/62;G06N3/04;G06N3/08
代理公司: 杭州浙科专利事务所(普通合伙) 33213 代理人: 孙孟辉
地址: 311100 浙江省杭*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 特征 耦合 文字 图像 生成 方法 装置
【说明书】:

发明公开一种基于特征解耦合的文字‑图像对生成方法和装置,该方法首先利用带标注的文字‑图像对数据训练编码器,将文字和图像两种模态映射到同一个隐空间;然后利用无标注的图像数据训练图像编码器和解码器,同时利用无标注的文字数据训练文字编码器与解码器;利用训练好的文字‑图像特征编码器网络提取文字‑图像初始特征,在隐空间加入随机采样的噪声后进行解耦合,利用解码器生成多样化的文字‑图像对。本发明在自然场景中,例如改变纹理、颜色等高层语义属性,都可以实现较好的文本‑图像数据编辑。

技术领域

本发明属于计算机视觉技术领域,具体涉及一种基于特征解耦合的文字-图像对生成方法和装置。

背景技术

随着计算机和互联网的高速发展,人类发送和接收信息的形式也变得多样化。其中,文字作为信息传播的载体,蕴含着丰富的语义信息;而图像作为视觉信息的输入,是人类直观感受世界的手段。对这两种模态的知识进行学习和融合理解,有助于机器更好的利用多媒体数据,对很多相关领域都有帮助作用。然而这种文字-图像对的标注需要耗费大量的人力物力,有些专业的图像标注甚至要求标注者有一定的专业知识基础。所以,如何利用生成模型对已有的数据进行有效、准确的增广,成为解决这一问题的重要方法。文字-图像对生成算法包括两个部分,在给定一组文字-图像标注的情况下,首先要对文字进行合理的修改,在保证其语义正确性的同时具备一定的多样性,同时要对图像进行相应的修改,使其与文字描述相符合。

文字图像对生成方法与图像生成方法有很大的不同。目前常见的图像到图像转换方法可以将图像从源域转换到目标域。但它仅限于预定义的域,不能推广到使用任意语义文字操作的图像。例如GANDissection能够通过修改隐空间实现某些对象的添加或删除。然而,它仅限于编辑少量预定义的对象和内容,这些对象和内容必须能够通过语义分割进行识别,并且可以在隐空间中有相应的表达。另一类与本任务较为相关的任务是基于语言的图像编辑。这类方法需要大量的图像和场景标注以及修改指令和修改后的图像。但是,对于大规模数据集,这中标注信息往往难以获取。为了避免标注信息的使用,近期出现了一些方法,仅使用图像和文字注释作为训练数据。给定图像A和不匹配的目标文字描述B,模型需要编辑A以匹配B。损失函数约束生成图像的真实性以及与修改描述的一致性,而不需要真实修改图像作为训练监督。然而,这种方法假设任何随机采样的修改都是可行的。例如,给定一个红色的花朵的图像,所述方法可以使用“黄色花朵”作为修改描述。但是,使用“蓝色小鸟”作为红色花朵图像的修改指令是无意义的。这种方法仅限于每个图像都有人类注释的细粒度描述的数据集,不能推广到其他复杂图像数据集。因此如何利用有限的标注数据,生成合理的文字-图像对,仍是具有挑战性的任务。

发明内容

为了解决现有技术中存在的上述技术问题,本发明提出了一种基于特征解耦合的文字-图像对生成方法和装置,其具体技术方案如下:

本发明方法首先利用带标注的文字-图像对数据训练编码器,将文字和图像两种模态映射到同一个隐空间;然后利用无标注的图像数据训练图像编码器和解码器,同时利用无标注的文字数据训练文字编码器与解码器;利用训练好的文字-图像特征编码器网络提取文字-图像初始特征,加入随机采样的噪声后利用解码器生成多样化的文字-图像对。该方法同时生成文本与图像数据,在文本-图像融合隐空间中随机采样并进行解耦合,利用条件对抗损失函数约束生成文本与图像之间的关联,可以保证文本与图像之间具有密切的语义相关性;利用大量的无标注数据训练编解码器,提升图像与文本的生成效果。本发明在自然场景中,例如改变纹理、颜色等高层语义属性,都可以实现较好的文本-图像数据编辑。

更具体的,一种基于特征解耦合的文字-图像对生成方法,包括以下步骤:

步骤一、基于GAN生成对抗网络构造文字-图像特征编码器,利用带标注的文字-图像对数据,通过最大化三元损失函数约束文字与图像特征的相关性,对文字-图像特征编码器进行训练,将文字和图像两种模态映射到同一个隐空间进行融合,得到编码后的融合特征;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室;中国科学院信息工程研究所,未经之江实验室;中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210148651.X/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top