[发明专利]基于在线深层主题模型的多模态检索方法有效

申请号：	201810781063.3	申请日：	2018-07-17
公开（公告）号：	CN109033304B	公开（公告）日：	2022-05-03
发明（设计）人：	陈渤;肖肃诚;王超杰	申请（专利权）人：	西安电子科技大学
主分类号：	G06F16/58	分类号：	G06F16/58;G06N3/08
代理公司：	西安睿通知识产权代理事务所(特殊普通合伙) 61218	代理人：	惠文轩
地址：	710071***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于在线深层主题模型多模态检索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于在线深层主题模型的多模态检索方法，其特征在于，包括以下步骤：

步骤1，确定J张图像和J个相应的文本为数据集，其中每个相应的文本为对应图像包括的若干个单词；对所述数据集进行预处理后，得到文本矩阵和图像特征矩阵；其中，J为大于1的正整数；

在步骤1中，所述文本矩阵和图像特征矩阵，其得到过程为：

1a)设定一个N_j×2维矩阵为第j个词汇表，N_j×2维矩阵中第1列分别为第j张图像的N_j个单词，N_j×2维矩阵中第2列分别为第1列相应单词在第j张图像中出现的次数；j的初始值为1，j的最大值为J，N_j表示第j张图像包括的单词总个数，V＝1,2,…,J，V表示最终词汇表中的单词的个数；

1b)令j的值加1，设定第j张图像的N_j个单词中Q个单词在第j-1个词汇表内出现，将第j张图像的N_j个单词中的Q个单词在第j-1个词汇表内相应单词出现的次数加1，0≤Q≤N_j；

然后将N_j-1×2维矩阵增加N_j-Q行后变换为(N_j-1+N_j-Q)×2维矩阵，

(N_j-1+N_j-Q)×2维矩阵中第1列为第j-1张图像的N_j-1个单词和个第j张图像的N_j个单词中的剩余N_j-Q个单词，(N_j-1+N_j-Q)×2维矩阵中第2列为第1列N_j-1+N_j-Q个单词在第j-1张图像和第j张图像中对应出现的次数，所述(N_j-1+N_j-Q)×2维矩阵为第j个词汇表；

1c)重复执行1b)，直到得到第J个词汇表，所述第J个词汇表为J个相应的文本词汇表，且设定J个相应的文本词汇表包括V_original个单词和对应每个单词出现的次数；然后将j的值初始化为1；

1d)然后对V_original个单词按照V_original个单词中每个单词出现的次数由高到低进行排序，由于原始有V_original个单词的词汇表太过冗长，所以选取排序后出现次数最多的前V个单词作为最终词汇表，所述最终词汇表包括V个单词，其中VV_original；

1e)初始化：确定一个V×2维矩阵，V×2维矩阵中第1列分别为最终词汇表中的V个词汇，V×2维矩阵中第2列用于统计J个相应的文本包括的所有单词在最终词汇表中出现的次数，且V×2维矩阵中第2列初始值分别为0；

1f)设定第j张图像的N_j个单词中有Q'个单词在最终词汇表内出现，然后在V×2维矩阵中第1列相应找到Q'个单词，并将Q'个单词在V×2维矩阵中第2列相应值分别加1，其余V-Q'个单词未在最终词汇表内，V-Q'个单词在V×2维矩阵中第2列相应值仍然为0，将此时得到的V×2维矩阵第2列作为第j个相应的文本V维向量；0≤Q'≤N_j；

1g)令j的值分别取1至J，重复执行1f)，直到得到第1个相应的文本V维向量至第J个相应的文本V维向量，将所述第1个相应的文本V维向量至第J个相应的文本V维向量记为V×J维文本矩阵X_text；

用尺度不变特征变换算法提取每幅图像特征，进而得到一个以特征维度V_img为行数、图像总张数J为列数的图像特征矩阵X_img，X_img是V_img×J维矩阵，J为图像总张数，V_img为每幅图像特征的维度；

步骤2，建立包括T层的泊松伽马置信网络，并得到文本矩阵的每一层变量权重矩阵；其中，T为大于1的正整数；

在步骤2中，所述文本矩阵的每一层变量权重矩阵，具体为V×J维文本矩阵X_text的第t层变量权重矩阵θ^(t)，其得到过程为：

2.1确定T层全局主题参数矩阵，分别为第一层全局主题参数矩阵Φ⁽¹⁾、第二层全局主题参数矩阵Φ⁽²⁾、…、第t层全局主题参数矩阵Φ^(t)、…、第T层全局主题参数矩阵Φ^(T)，第t层全局主题参数矩阵Φ^(t)为K_t-1×K_t维，K_t表示第t层全局主题参数矩阵Φ^(t)包括的主题总个数，t＝1,2,…,T；其中，当t＝1时K₀＝V；

定义第t层全局主题重构参数矩阵为若t取值为1时，且为V×K_t维；将V×J维文本矩阵X_text中每一个相应的文本V维向量分别记为一个样本，进而得到J个样本，并将V×J维文本矩阵X_text中第j个样本记为j＝1,2,3...,J；

第t层全局主题重构参数矩阵的第k_t列是一个V维向量，记为的第k_t列V维向量所述的第k_t列V维向量表示第t层全局主题参数矩阵Φ^(t)的第k_t个主题，且的第k_t列V维向量对应最终词汇表中的V个单词；

的第k_t列V维向量中第v个元素为的第k_t列V维向量中每一个元素的值均为一个概率值，概率越大，那么最终词汇表中第v个单词出现的概率越大，且满足

2.2将V×J维文本矩阵X_text中第j个样本表示成：

其中，k_t＝1,2,3,...,K_t，表示第t层全局主题重构参数矩阵的第k_t个主题，表示第j个样本对应第k_t个主题的权重；将这K_t个元素合并成一个向量，记为第t层全局主题重构参数矩阵的K_t维向量，将所述第t层全局主题重构参数矩阵的K_t维向量作为第j个样本的第t层变量权重向量

令j分别取1至J，进而分别得到第1个样本的第t层变量权重向量至第J个样本的第t层变量权重向量并记为V×J维文本矩阵X_text的第t层变量权重矩阵θ^(t)，θ^(t)的大小为K_t×J维，然后将j的值初始化为1；

步骤3，根据文本矩阵的每一层变量权重矩阵，并基于在线深层主题模型得到图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵；

在步骤3中，所述图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵，具体为图像特征矩阵X_img的第1层最优全局主题参数矩阵和V×J维文本矩阵X_text的第1层最优全局主题参数矩阵其得到过程为：

3.1将V×J维文本矩阵X_text和图像特征矩阵X_img分别划分L个迷你块，J_m表示每个迷你块包括的文本总个数；将V×J维文本矩阵X_text的第l'个迷你块记为第l'个文本迷你块将图像特征矩阵X_img的第l'个迷你块记为第l'个图像特征迷你块l'＝1,2,3...,L；

定义图像特征矩阵X_img的第j列图像的第v'个元素的第1层层内增广向量为表示图像特征矩阵X_img的第j列图像的第v'个元素的第1层层内增广元素，其服从如下分布：

其中，表示的第k₁个主题的第v'个元素，表示图像特征矩阵X_img的第1层全局主题参数矩阵；表示图像特征矩阵X_img的第j列图像的第1层变量权重向量的第k₁个元素，v'＝1,2,3,...,V_img,j＝1,2,3,...,J，k₁＝1,2,…,K₁，K₁表示第1层全局主题参数矩阵Φ⁽¹⁾包括的主题总个数；～表示服从，Mult表示分布；

定义V×J维文本矩阵X_text的第j列文本的第v个元素的第1层层内增广向量为表示V×J维文本矩阵X_text的第j列文本的第v个元素的第1层层内增广元素，其服从如下分布：

其中，表示的第k₁个主题的第v个元素，表示V×J维文本矩阵X_text的第1层全局主题参数矩阵，表示V×J维文本矩阵X_text的第j列文本的第1层变量权重向量的第k₁个元素，v＝1,2,3,...,V,j＝1,2,3,...,J，k₁＝1,2,…,K₁，K₁表示第1层全局主题参数矩阵Φ⁽¹⁾包括的主题总个数；

定义图像特征矩阵X_img的第1层全局主题参数矩阵使用第l+1个图像特征迷你块进行第e次更新后的向量为

表示图像特征矩阵X_img的第1层全局主题参数矩阵的第k₁个主题使用第l+1个图像特征迷你块进行第e次更新后的第k₁个在线全局主题，k₁＝1,2,…,K₁，K₁表示第1层全局主题参数矩阵Φ⁽¹⁾包括的主题总个数；

定义V×J维文本矩阵X_text的第1层全局主题参数矩阵使用第l+1个文本迷你块进行第e次更新后的向量为

表示V×J维文本矩阵X_text的第1层全局主题参数矩阵的第k₁个主题使用第l+1个文本迷你块进行第e次更新后的第k₁个在线全局主题，k₁＝1,2,…,K₁，K₁表示第1层全局主题参数矩阵Φ⁽¹⁾包括的主题总个数；

初始化：令e表示第e次更新，e＝1,2,3,...,E，e的初始值为1，E表示设定的总更新次数；令l＝1,2,…,L-1，l+1＝2,…,L；

3.2计算图像特征矩阵X_img的第1层全局主题参数矩阵的第k₁个主题使用第l+1个图像特征迷你块进行第e次更新后的第k₁个在线全局主题和V×J维文本矩阵X_text的第1层全局主题参数矩阵的第k₁个主题使用第l+1个文本迷你块进行第e次更新后的第k₁个在线全局主题其计算公式分别为：

其中，表示图像特征矩阵X_img的第1层全局主题参数矩阵的第k₁个主题使用第l个图像特征迷你块进行第e次更新后的第k₁个在线全局主题，表示图像特征矩阵X_img的第1层全局主题参数矩阵的第k₁个主题，表示V×J维文本矩阵X_text的第1层全局主题参数矩阵的第k₁个主题使用第l个文本迷你块进行第e次更新后的第k₁个在线全局主题，表示V×J维文本矩阵X_text的第1层全局主题参数矩阵的第k₁个主题，

ρ＝L，ε_l表示第l次梯度更新后的学习率，

v'＝1,2,…,V_img；c表示设定常数，上标T表示转置操作，N表示正态分布，diag表示对角矩阵；

3.3令l的值加1，如果l≥L，则转至3.4；如果lL，返回3.2；

3.4令e的值加1，如果e≤E，则将l的值初始化为1，返回3.2；如果eE，则停止更新，并将更新停止时对应得到的图像特征矩阵X_img的第1层全局主题参数矩阵的第k₁个主题使用第L个图像特征迷你块进行第E次更新后的第k₁个在线全局主题和V×J维文本矩阵X_text的第1层全局主题参数矩阵的第k₁个主题使用第L个文本迷你块进行第E次更新后的第k₁个在线全局主题分别作为图像特征矩阵X_img的第1层全局主题参数矩阵的第k₁个主题的最优在线全局主题向量以及V×J维文本矩阵X_text的第1层全局主题参数矩阵的第k₁个主题的最优在线全局主题向量

令k₁分别取1至K₁，进而分别得到图像特征矩阵X_img的第1层全局主题参数矩阵的第1个主题的最优在线全局主题向量至图像特征矩阵X_img的第1层全局主题参数矩阵的第K₁个主题的最优在线全局主题向量以及V×J维文本矩阵X_text的第1层全局主题参数矩阵的第1个主题的最优在线全局主题向量至V×J维文本矩阵X_text的第1层全局主题参数矩阵的第K₁个主题的最优在线全局主题向量分别记为图像特征矩阵X_img的第1层最优全局主题参数矩阵和V×J维文本矩阵X_text的第1层最优全局主题参数矩阵

步骤4，根据图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵，以及图像特征矩阵，得到文本矩阵的预测单词矩阵，所述文本矩阵的预测单词矩阵为本方法的一种基于在线深层主题模型的多模态检索结果；

在步骤4中，所述文本矩阵的预测单词矩阵，具体为V×J维文本矩阵X_text的预测单词矩阵，其得到过程为：

计算得到V×J维文本矩阵X_text的第j列最终文本表示V×J维文本矩阵X_text和图像特征矩阵X_img的第1层共享变量权重矩阵的第j列，

r～Gam(γ₀,1/c₀)，c₀＝Gam(e₀,1/f₀)，γ₀～Gam(a₀,1/b₀)，b₀＝0.01，a₀＝0.01；令表示V×J维文本矩阵X_text的第j列文本和图像特征矩阵X_img的第j列图像的第t层共享变量权重矩阵对应的先验分布参数，

e₀＝1,f₀＝1，t＝1,2,3，～表示服从，Gam表示Gamma分布，Dir表示狄利克雷分布，表示的第k₂个主题的先验分布参数，表示的第k₃个主题的先验分布参数，表示V×J维文本矩阵X_text和图像特征矩阵X_img的第2层共享全局主题参数矩阵，表示V×J维文本矩阵X_text和图像特征矩阵X_img的第3层共享全局主题参数矩阵；k_t＝1,2,…,K_t，K_t表示第t层全局主题参数矩阵Φ(^t)包括的主题总个数；

将V×J维文本矩阵X_text的第j列最终文本中所有元素从大到小排序后选取前s个元素，选取的前s个元素中每个元素对于一个单词，进而得到s个单词，并记为V×J维文本矩阵X_text的第j列s个预测单词；

令j＝1,2,…J，进而分别得到V×J维文本矩阵X_text的第1列s个预测单词至V×J维文本矩阵X_text的第J列s个预测单词，记为V×J维文本矩阵X_text的预测单词矩阵。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安电子科技大学，未经西安电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810781063.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于约简锚点的大规模知识图谱融合方法
下一篇：问题回答方法、设备及计算机可读存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于在线深层主题模型的多模态检索方法有效

专利文献下载