[发明专利]基于架构短句约束向量和双重视觉关注机制的图像描述生成方法有效
申请号: | 201811408575.1 | 申请日: | 2018-11-23 |
公开(公告)号: | CN109543820B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 胡海峰;杨梁 | 申请(专利权)人: | 中山大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06F16/50 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510260 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 架构 短句 约束 向量 双重 视觉 关注 机制 图像 描述 生成 方法 | ||
1.基于架构短句约束向量和双重视觉关注机制的图像描述生成方法,其特征在于,包括以下步骤:
S10.训练集中的训练图片数据包含5个参考句子,每个句子中的单词经过one-hot编码,再经过嵌入矩阵,投影到嵌入空间,成为具有语义的字表达向量Wt;
S20.字表达向量用于循环卷积神经网络RNN某时刻帧t的输入,该时刻帧t的循环层激活Rt是由当前时刻帧的字表达向量和之前时刻帧t-1的循环层Rt-1共同决定的,在每一时刻的单词输入都会与双重视觉关注机制求得视觉特征相拼接,作为该时刻的LSTM输入;
S30.图像经过Faster-RCNN提取全局特征和中间卷积层的局部特征,并采用决策性’soft’关注机制及上一时刻预测的单词表达,算出所有的局部特征图在该时刻的权重值,权值∈(0~1),采用Faster-RCNN对每张图片提取20个主要目标的局部区域表达,并同样借助决策性’soft’关注机制对20个局部区域求得关注权重值,获得基于目标级别的视觉关注,最终结合空间及目标级别的两个关注过程,获得了具有超强视觉表征能力的关注特征,图像的关注特征作为步骤S20中与单词特征同等地位的LSTM输入;
S40.架构短句的获得及使用,借助S30中获得的20个显著目标,精提取10个显著目标及其对应的边界框和标签;对10个标签进行排序,生成了具有视觉意义的架构短句,并采用另一个预训练好编解码LSTM的中学习得到该短句的表达,且将该短句的表达和全局视觉特征一起作为语言模型LSTM的初始化;
S50.将以上的字表达向量Wt、循环层激活Rt、图像的图像特征和构架短句通过转换矩阵投影至同一维度的多模态空间上并直接元素相加,再用元素比例双曲线正切函数激活,最后通过softmax层得到下一字的概率分布;
S60.整个模型的损失函数看成是对应图片的文本标注的混乱度,其等价于字集的平均对数似然值,对其使用标准梯度下降算法,通过反向传播算法学习模型参数。
2.根据权利要求1所述的基于神经网络及图像区域关注点的图像描述生成方法,其特征在于,所述S10中,用one-hot码对子集编码,相应位置置1,代表某一特定字,其余置0;通过两个嵌入层将one-hot码投影至一个稠密字表达空间,其能将字的句法和语义含义编码出来,语义相关的字通过计算两个稠密字向量的欧式距离找出;其中由于每个图片会对应5个参考句子,将其看作5组训练数据对。
3.根据权利要求1所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,所述S20中,对于每一时刻帧的循环层激活Rt,是与当前时刻帧的字表达向量Wt和之前时刻帧t-1的循环层Rt-1共同决定的;首先将Rt-1到和Wt相同向量空间上,并将它们相加:
Rt=f1(Ur·Rt-1+Wt)
其中,f1设置为ReLU,Ur是投影转换矩阵;
在每一时刻加入双重视觉关注机制求得的视觉特征vt,在时刻0即初始时刻,将图形的全局特征vg和架构短句的向量拼接形态作为LSTM的初始化,即LSTM每一时刻的输入如下所示:
X={[vg,hsN],[w1,v1],…,[wL,vL],wL+1}
其中L是句子长度,vi是第i时刻的关注后的视觉特征,i∈{1,2,…,L}。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811408575.1/1.html,转载请声明来源钻瓜专利网。