[发明专利]一种基于单向监督注意力的多模态标签推荐方法在审
申请号: | 202110987708.0 | 申请日: | 2021-08-26 |
公开(公告)号: | CN113704547A | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 凌海峰;徐旺;钱洋;姜元春;刘业政;柴一栋;孙见山;袁昆;孟祥睿 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F16/78 | 分类号: | G06F16/78;G06F16/735;G06F16/783;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 单向 监督 注意力 多模态 标签 推荐 方法 | ||
1.一种基于单向监督注意力的多模态标签推荐方法,其特征是按如下步骤进行:
步骤1、构建多模态数据集合A;
步骤1.1、构建多模态数据的文本信息集合,记为T={t1,t2,…,tk,…,tK},其中,tk表示第k条文本信息,K为文本信息的总条数;所述第k条文本信息tk包含的单词,记为tk={w1,k,w2,k,…,wn,k,…,wN,k},其中,wn,k表示所述第k条文本信息tk中第n个文本词,N表示文本信息的最大词汇长度;
步骤1.2、构建多模态数据的视觉信息集合,记为P={U1,U2,…,Uk,…,UK},其中,Uk表示第k条视觉信息,所述第k条视觉信息Uk包含的图片,记为Uk={p1,k,p2,k,…,pm,k,…,pM,k},其中,pm,k表示所述第k条视觉信息Uk中第m张图片,M表示视觉信息的最大图片数;
步骤1.3、构建多模态数据中的标签信息集合,记为Λ={Λ1,Λ2,…,Λk,…,ΛK},其中,Λk表示第k条标签信息,所述第k条标签信息Λk包含的标签,记为Λk={λ1,k,λ2,k,…,λo,k,…,λO,k},其中,λo,k表示所述第k条标签信息Λk中第o个标签,O表示标签信息的最大标签数;由所有不同的标签信息构成标签空间Φ;
步骤1.4、由所述文本信息集合T、视觉信息集合P以及标签信息集合Λ构建多模态数据集合A={T,P,Λ};
步骤2、获取文本信息的特征表示;
步骤2.1、对第k条文本信息tk进行词嵌入,得到词向量Xk={x1,k,x2,k,…,xn,k,…,xN,k},其中,xn,k表示所述第k条文本信息tk中第n个词向量,对于长度小于N的文本数据,填充零向量以达到长度N;
步骤2.2、采用双向GRU对词向量Xk进行处理,得到词级别的文本特征表示,记为其中,表示所述第k条文本信息tk中第n个词级别的文本特征;
以n为当前时间步,对于第n个词向量xn,k,GRU单元利用式(1)-式(3)分别得到更新门zn,k、重置门rn,k、候选状态从而根据第n-1个时间步的GRU单元输出hn-1,k,利用式(4)得到第n个时间步的GRU单元输出hn,k:
zn,k=σ(Wz·[hn-1,k,xn,k]+bz) (1)
rn,k=σ(Wr·[hn-1,k,xn,k]+br) (2)
式(1)-式(4)中,⊙表示元素乘,σ表示sigmoid激活函数,Wz表示更新门zn,k的权重矩阵,bz表示更新门zn,k的偏置向量,Wr表示重置门rn,k的权重矩阵,br表示重置门rn,k的偏置向量,Wh表示候选状态的权重矩阵,bh表示候选状态的偏置向量,当n=1时,令hn-1,k=0;
利用式(5)和式(6)分别得到前向GRU单元提取的前向隐特征表示后向GRU单元提取的后向隐特征表示从而利用式(7)得到词级别的文本特征表示
式(5)和式(6)中,分别代表前向、后向GRU单元;
步骤2.3、引入如式(8)和式(9)所示的自注意力机制,从而利用式(10)得到文本信息的特征表示
式(8)-式(10)中,为词级别的文本特征表示的隐藏表示,D为隐藏层维度,Ww为隐藏表示的权重矩阵,bw为隐藏表示的偏置向量,为文本特征表示的注意力得分,为文本注意力得分的权重矩阵,L为文本特征维度;
步骤3、获取视觉信息的特征表示;
步骤3.1、通过预训练的VGG-16网络来提取图片区域特征:
将第m张图片pm,k划分为G个区域,则得到图片区域集合其中,表示第m张图片pm,k中第g个区域;并通过VGG-16网络,获取第m张图片pm,k中第g个区域的特征表示
步骤3.2、通过基于文本的视觉注意力学习每张图片的特征表示:
利用式(11)和式(12)分别得到结合文本情境的图片区域特征表示和第g个区域的注意力得分从而利用式(13)得到第m张图片pm,k的特征表示
式(11)-式(13)中,为图片区域特征表示的权重矩阵,为文本特征的权重矩阵,为图片区域注意力得分的权重矩阵,为图片区域注意力得分的偏置向量;
步骤3.3、通过注意力机制融合多张图片,最终得到视觉信息的特征表示:
式(14)-式(16)中,为第k条视觉信息中第m张图片的隐特征表示,为图片隐特征表示的权重矩阵,为图片隐特征表示的偏置向量,为第m张图片pm,k的注意力得分,为图片注意力得分的权重矩阵,表示最终学习到的视觉特征;
步骤4、深度融合文本与视觉特征:
利用式(20)得到深度神经网络中第f层输出的中间特征从而得到深度神经网络输出的全局特征
式(20)中,ReLU表示线性整流函数,Wf表示中间特征的权重矩阵,bf表示中间特征的偏置向量,f=1,2,…,F,F表示深度神经网络的层数,当f=1时,由文本特征与视觉特征进行拼接得到初始特征
步骤5、利用融合后的全局特征进行标签推荐;
步骤5.1、将全局特征输入分类器,从而利用式(18)得到标签的概率分布
式(18)中,Wp,bp为分类器的权重矩阵与偏差向量;
步骤5.2、采用如式(19)所示的二元交叉熵作为目标函数J:
式(19)中,S表示所述多模态数据集合A中作为训练集的数据条数,表示训练集中第s条数据含有标签λ的实际概率,表示训练集中第s条数据含有标签λ的预测概率,λ∈Φ;
步骤5.3、设置最大迭代次数epoch_number,利用反向传播和梯度下降法对所述目标函数J进行训练,当迭代次数达到epoch_number时,停止训练,使得目标函数J达到最小,从而得到最优推荐模型用于对所输入的文本信息集合T、视觉信息集合P输出标签的概率分布并从中选取概率最大的前top个标签进行推荐。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110987708.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种烟弹及电子烟
- 下一篇:一种解理装置及解理方法