[发明专利]一种基于特征解耦合的文字-图像对生成方法和装置在审
申请号: | 202210148651.X | 申请日: | 2022-02-17 |
公开(公告)号: | CN114677569A | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 王蕊;梁栋;李太豪;裴冠雄 | 申请(专利权)人: | 之江实验室;中国科学院信息工程研究所 |
主分类号: | G06V10/80 | 分类号: | G06V10/80;G06V10/40;G06V30/18;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 孙孟辉 |
地址: | 311100 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 耦合 文字 图像 生成 方法 装置 | ||
1.一种基于特征解耦合的文字-图像对生成方法,其特征在于,包括以下步骤:
步骤一、基于GAN生成对抗网络构造文字-图像特征编码器,利用带标注的文字-图像对数据,通过最大化三元损失函数约束文字与图像特征的相关性,对文字-图像特征编码器进行训练,将文字和图像两种模态映射到同一个隐空间进行融合,得到编码后的融合特征;
步骤二、基于GAN生成对抗网络构造文字-图像特征解码器,对融合特征进行解耦合,所述图像特征解码器网络由对抗损失函数和感知损失函数约束进行训练,所述文字特征解码器由交叉熵损失函数进行训练,利用无标注的图像数据训练图像特征编码器和解码器,同时利用无标注的文字数据训练文字特征编码器与解码器;
步骤三、利用训练好的文字-图像特征编码器提取文字-图像特征作为初始特征,加入随机采样的噪声后,再利用训练好的文字-图像特征解码器采样出融合的文字-图像特征并进行解耦合,得到具有语义关联的文字和图像特征,生成多样化的文字-图像数据。
2.如权利要求1所述的一种基于特征解耦合的文字-图像对生成方法,其特征在于,所述文字-图像特征编码器由7个带有下采样层的ResNet块和一个LSTM网络组成,将文字-图像对数据中的图像和文字分别输入到图像编码器和文字编码器中,分别输出图像和文字两个模态的特征,将两个模态的特征相乘得到融合特征。
3.如权利要求1所述的一种基于特征解耦合的文字-图像对生成方法,其特征在于,所述三元损失函数表达式为:
其中v和表示是正例和负例图像特征按通道取平均的结果,t和表示正例和负例的文字特征,·表示内积。
4.如权利要求1所述的一种基于特征解耦合的文字-图像对生成方法,其特征在于,所述将文字和图像两种模态映射到同一个隐空间进行融合,得到编码后的融合特征的计算公式为:
f=t⊙V
其中⊙表示按元素相乘,V∈R1024×7×7表示是正例和负例图像特征。
5.如权利要求1所述的一种基于特征解耦合的文字-图像对生成方法,其特征在于,所述对抗损失函数的表达式为:
LGAN=-E[D(I)]+E[D(G(v))]
I是图像数据,G是生成器,D是判别器,E[·]是求均值操作。
6.如权利要求1所述的一种基于特征解耦合的文字-图像对生成方法,其特征在于,所述感知损失函数的表达式为:
其中Fk是目标图像生成VGG网络的第k层输出,nk表示第k层网络输出的通道个数,N为文字序列的长度。
7.如权利要求1所述的一种基于特征解耦合的文字-图像对生成方法,其特征在于,所述交叉熵损失函数的公式如下:
其中S是文字T的词向量表达,St为文字Tt的词向量表达,pt=LSTM(xt-1),t∈{1,…,N}表示LSTM网络的输出,xt是LSTM网络每一时刻的输入,其初始值与计算方法如下:
x-1=CNN(I)
xt=WeSt,t∈{0,…,N-1},
其中CNN为图像特征提取网络,本实验中使用VGG网络进行图像特征的提取;We为可训练参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室;中国科学院信息工程研究所,未经之江实验室;中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210148651.X/1.html,转载请声明来源钻瓜专利网。