[发明专利]基于在线深层主题模型的多模态检索方法有效
申请号: | 201810781063.3 | 申请日: | 2018-07-17 |
公开(公告)号: | CN109033304B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 陈渤;肖肃诚;王超杰 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F16/58 | 分类号: | G06F16/58;G06N3/08 |
代理公司: | 西安睿通知识产权代理事务所(特殊普通合伙) 61218 | 代理人: | 惠文轩 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 在线 深层 主题 模型 多模态 检索 方法 | ||
1.一种基于在线深层主题模型的多模态检索方法,其特征在于,包括以下步骤:
步骤1,确定J张图像和J个相应的文本为数据集,其中每个相应的文本为对应图像包括的若干个单词;对所述数据集进行预处理后,得到文本矩阵和图像特征矩阵;其中,J为大于1的正整数;
在步骤1中,所述文本矩阵和图像特征矩阵,其得到过程为:
1a)设定一个Nj×2维矩阵为第j个词汇表,Nj×2维矩阵中第1列分别为第j张图像的Nj个单词,Nj×2维矩阵中第2列分别为第1列相应单词在第j张图像中出现的次数;j的初始值为1,j的最大值为J,Nj表示第j张图像包括的单词总个数,V=1,2,…,J,V表示最终词汇表中的单词的个数;
1b)令j的值加1,设定第j张图像的Nj个单词中Q个单词在第j-1个词汇表内出现,将第j张图像的Nj个单词中的Q个单词在第j-1个词汇表内相应单词出现的次数加1,0≤Q≤Nj;
然后将Nj-1×2维矩阵增加Nj-Q行后变换为(Nj-1+Nj-Q)×2维矩阵,
(Nj-1+Nj-Q)×2维矩阵中第1列为第j-1张图像的Nj-1个单词和个第j张图像的Nj个单词中的剩余Nj-Q个单词,(Nj-1+Nj-Q)×2维矩阵中第2列为第1列Nj-1+Nj-Q个单词在第j-1张图像和第j张图像中对应出现的次数,所述(Nj-1+Nj-Q)×2维矩阵为第j个词汇表;
1c)重复执行1b),直到得到第J个词汇表,所述第J个词汇表为J个相应的文本词汇表,且设定J个相应的文本词汇表包括Voriginal个单词和对应每个单词出现的次数;然后将j的值初始化为1;
1d)然后对Voriginal个单词按照Voriginal个单词中每个单词出现的次数由高到低进行排序,由于原始有Voriginal个单词的词汇表太过冗长,所以选取排序后出现次数最多的前V个单词作为最终词汇表,所述最终词汇表包括V个单词,其中VVoriginal;
1e)初始化:确定一个V×2维矩阵,V×2维矩阵中第1列分别为最终词汇表中的V个词汇,V×2维矩阵中第2列用于统计J个相应的文本包括的所有单词在最终词汇表中出现的次数,且V×2维矩阵中第2列初始值分别为0;
1f)设定第j张图像的Nj个单词中有Q'个单词在最终词汇表内出现,然后在V×2维矩阵中第1列相应找到Q'个单词,并将Q'个单词在V×2维矩阵中第2列相应值分别加1,其余V-Q'个单词未在最终词汇表内,V-Q'个单词在V×2维矩阵中第2列相应值仍然为0,将此时得到的V×2维矩阵第2列作为第j个相应的文本V维向量;0≤Q'≤Nj;
1g)令j的值分别取1至J,重复执行1f),直到得到第1个相应的文本V维向量至第J个相应的文本V维向量,将所述第1个相应的文本V维向量至第J个相应的文本V维向量记为V×J维文本矩阵Xtext;
用尺度不变特征变换算法提取每幅图像特征,进而得到一个以特征维度Vimg为行数、图像总张数J为列数的图像特征矩阵Ximg,Ximg是Vimg×J维矩阵,J为图像总张数,Vimg为每幅图像特征的维度;
步骤2,建立包括T层的泊松伽马置信网络,并得到文本矩阵的每一层变量权重矩阵;其中,T为大于1的正整数;
在步骤2中,所述文本矩阵的每一层变量权重矩阵,具体为V×J维文本矩阵Xtext的第t层变量权重矩阵θ(t),其得到过程为:
2.1确定T层全局主题参数矩阵,分别为第一层全局主题参数矩阵Φ(1)、第二层全局主题参数矩阵Φ(2)、…、第t层全局主题参数矩阵Φ(t)、…、第T层全局主题参数矩阵Φ(T),第t层全局主题参数矩阵Φ(t)为Kt-1×Kt维,Kt表示第t层全局主题参数矩阵Φ(t)包括的主题总个数,t=1,2,…,T;其中,当t=1时K0=V;
定义第t层全局主题重构参数矩阵为若t取值为1时,且为V×Kt维;将V×J维文本矩阵Xtext中每一个相应的文本V维向量分别记为一个样本,进而得到J个样本,并将V×J维文本矩阵Xtext中第j个样本记为j=1,2,3...,J;
第t层全局主题重构参数矩阵的第kt列是一个V维向量,记为的第kt列V维向量所述的第kt列V维向量表示第t层全局主题参数矩阵Φ(t)的第kt个主题,且的第kt列V维向量对应最终词汇表中的V个单词;
的第kt列V维向量中第v个元素为的第kt列V维向量中每一个元素的值均为一个概率值,概率越大,那么最终词汇表中第v个单词出现的概率越大,且满足
2.2将V×J维文本矩阵Xtext中第j个样本表示成:
其中,kt=1,2,3,...,Kt,表示第t层全局主题重构参数矩阵的第kt个主题,表示第j个样本对应第kt个主题的权重;将这Kt个元素合并成一个向量,记为第t层全局主题重构参数矩阵的Kt维向量,将所述第t层全局主题重构参数矩阵的Kt维向量作为第j个样本的第t层变量权重向量
令j分别取1至J,进而分别得到第1个样本的第t层变量权重向量至第J个样本的第t层变量权重向量并记为V×J维文本矩阵Xtext的第t层变量权重矩阵θ(t),θ(t)的大小为Kt×J维,然后将j的值初始化为1;
步骤3,根据文本矩阵的每一层变量权重矩阵,并基于在线深层主题模型得到图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵;
在步骤3中,所述图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵,具体为图像特征矩阵Ximg的第1层最优全局主题参数矩阵和V×J维文本矩阵Xtext的第1层最优全局主题参数矩阵其得到过程为:
3.1将V×J维文本矩阵Xtext和图像特征矩阵Ximg分别划分L个迷你块,Jm表示每个迷你块包括的文本总个数;将V×J维文本矩阵Xtext的第l'个迷你块记为第l'个文本迷你块将图像特征矩阵Ximg的第l'个迷你块记为第l'个图像特征迷你块l'=1,2,3...,L;
定义图像特征矩阵Ximg的第j列图像的第v'个元素的第1层层内增广向量为表示图像特征矩阵Ximg的第j列图像的第v'个元素的第1层层内增广元素,其服从如下分布:
其中,表示的第k1个主题的第v'个元素,表示图像特征矩阵Ximg的第1层全局主题参数矩阵;表示图像特征矩阵Ximg的第j列图像的第1层变量权重向量的第k1个元素,v'=1,2,3,...,Vimg,j=1,2,3,...,J,k1=1,2,…,K1,K1表示第1层全局主题参数矩阵Φ(1)包括的主题总个数;~表示服从,Mult表示分布;
定义V×J维文本矩阵Xtext的第j列文本的第v个元素的第1层层内增广向量为表示V×J维文本矩阵Xtext的第j列文本的第v个元素的第1层层内增广元素,其服从如下分布:
其中,表示的第k1个主题的第v个元素,表示V×J维文本矩阵Xtext的第1层全局主题参数矩阵,表示V×J维文本矩阵Xtext的第j列文本的第1层变量权重向量的第k1个元素,v=1,2,3,...,V,j=1,2,3,...,J,k1=1,2,…,K1,K1表示第1层全局主题参数矩阵Φ(1)包括的主题总个数;
定义图像特征矩阵Ximg的第1层全局主题参数矩阵使用第l+1个图像特征迷你块进行第e次更新后的向量为
表示图像特征矩阵Ximg的第1层全局主题参数矩阵的第k1个主题使用第l+1个图像特征迷你块进行第e次更新后的第k1个在线全局主题,k1=1,2,…,K1,K1表示第1层全局主题参数矩阵Φ(1)包括的主题总个数;
定义V×J维文本矩阵Xtext的第1层全局主题参数矩阵使用第l+1个文本迷你块进行第e次更新后的向量为
表示V×J维文本矩阵Xtext的第1层全局主题参数矩阵的第k1个主题使用第l+1个文本迷你块进行第e次更新后的第k1个在线全局主题,k1=1,2,…,K1,K1表示第1层全局主题参数矩阵Φ(1)包括的主题总个数;
初始化:令e表示第e次更新,e=1,2,3,...,E,e的初始值为1,E表示设定的总更新次数;令l=1,2,…,L-1,l+1=2,…,L;
3.2计算图像特征矩阵Ximg的第1层全局主题参数矩阵的第k1个主题使用第l+1个图像特征迷你块进行第e次更新后的第k1个在线全局主题和V×J维文本矩阵Xtext的第1层全局主题参数矩阵的第k1个主题使用第l+1个文本迷你块进行第e次更新后的第k1个在线全局主题其计算公式分别为:
其中,表示图像特征矩阵Ximg的第1层全局主题参数矩阵的第k1个主题使用第l个图像特征迷你块进行第e次更新后的第k1个在线全局主题,表示图像特征矩阵Ximg的第1层全局主题参数矩阵的第k1个主题,表示V×J维文本矩阵Xtext的第1层全局主题参数矩阵的第k1个主题使用第l个文本迷你块进行第e次更新后的第k1个在线全局主题,表示V×J维文本矩阵Xtext的第1层全局主题参数矩阵的第k1个主题,
ρ=L,εl表示第l次梯度更新后的学习率,
v'=1,2,…,Vimg;c表示设定常数,上标T表示转置操作,N表示正态分布,diag表示对角矩阵;
3.3令l的值加1,如果l≥L,则转至3.4;如果lL,返回3.2;
3.4令e的值加1,如果e≤E,则将l的值初始化为1,返回3.2;如果eE,则停止更新,并将更新停止时对应得到的图像特征矩阵Ximg的第1层全局主题参数矩阵的第k1个主题使用第L个图像特征迷你块进行第E次更新后的第k1个在线全局主题和V×J维文本矩阵Xtext的第1层全局主题参数矩阵的第k1个主题使用第L个文本迷你块进行第E次更新后的第k1个在线全局主题分别作为图像特征矩阵Ximg的第1层全局主题参数矩阵的第k1个主题的最优在线全局主题向量以及V×J维文本矩阵Xtext的第1层全局主题参数矩阵的第k1个主题的最优在线全局主题向量
令k1分别取1至K1,进而分别得到图像特征矩阵Ximg的第1层全局主题参数矩阵的第1个主题的最优在线全局主题向量至图像特征矩阵Ximg的第1层全局主题参数矩阵的第K1个主题的最优在线全局主题向量以及V×J维文本矩阵Xtext的第1层全局主题参数矩阵的第1个主题的最优在线全局主题向量至V×J维文本矩阵Xtext的第1层全局主题参数矩阵的第K1个主题的最优在线全局主题向量分别记为图像特征矩阵Ximg的第1层最优全局主题参数矩阵和V×J维文本矩阵Xtext的第1层最优全局主题参数矩阵
步骤4,根据图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵,以及图像特征矩阵,得到文本矩阵的预测单词矩阵,所述文本矩阵的预测单词矩阵为本方法 的一种基于在线深层主题模型的多模态检索结果;
在步骤4中,所述文本矩阵的预测单词矩阵,具体为V×J维文本矩阵Xtext的预测单词矩阵,其得到过程为:
计算得到V×J维文本矩阵Xtext的第j列最终文本表示V×J维文本矩阵Xtext和图像特征矩阵Ximg的第1层共享变量权重矩阵的第j列,
r~Gam(γ0,1/c0),c0=Gam(e0,1/f0),γ0~Gam(a0,1/b0),b0=0.01,a0=0.01;令表示V×J维文本矩阵Xtext的第j列文本和图像特征矩阵Ximg的第j列图像的第t层共享变量权重矩阵对应的先验分布参数,
e0=1,f0=1,t=1,2,3,~表示服从,Gam表示Gamma分布,Dir表示狄利克雷分布,表示的第k2个主题的先验分布参数,表示的第k3个主题的先验分布参数,表示V×J维文本矩阵Xtext和图像特征矩阵Ximg的第2层共享全局主题参数矩阵,表示V×J维文本矩阵Xtext和图像特征矩阵Ximg的第3层共享全局主题参数矩阵;kt=1,2,…,Kt,Kt表示第t层全局主题参数矩阵Φ(t)包括的主题总个数;
将V×J维文本矩阵Xtext的第j列最终文本中所有元素从大到小排序后选取前s个元素,选取的前s个元素中每个元素对于一个单词,进而得到s个单词,并记为V×J维文本矩阵Xtext的第j列s个预测单词;
令j=1,2,…J,进而分别得到V×J维文本矩阵Xtext的第1列s个预测单词至V×J维文本矩阵Xtext的第J列s个预测单词,记为V×J维文本矩阵Xtext的预测单词矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810781063.3/1.html,转载请声明来源钻瓜专利网。