[发明专利]基于架构短句约束向量和双重视觉关注机制的图像描述生成方法有效
申请号: | 201811408575.1 | 申请日: | 2018-11-23 |
公开(公告)号: | CN109543820B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 胡海峰;杨梁 | 申请(专利权)人: | 中山大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06F16/50 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510260 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于架构短句约束向量和双重视觉关注机制的图像描述生成方法,通过对海量已标注文本描述的图像训练得到一个自动描述图像视觉内容信息的语义模型,其由三部分:架构短句生成模型,双重视觉关注机制和约束化语言模型。并实现对任意输入测试图像,自动生成文本描述。本发明能够有效地建立文本描述中单词和图像的联系,对基于语义上,图像显著目标或场景间的描述有很好的表现。 | ||
搜索关键词: | 基于 架构 短句 约束 向量 双重 视觉 关注 机制 图像 描述 生成 方法 | ||
【主权项】:
1.基于架构短句约束向量和双重视觉关注机制的图像描述生成方法,其特征在于,包括以下步骤:S10.训练集中的训练图片数据包含5个参考句子,每个句子中的单词经过one‑hot编码,再经过嵌入矩阵,投影到嵌入空间,成为具有语义的字表达向量Wt;S20.字表达向量用于循环卷积神经网络RNN某时刻帧t的输入,该时刻帧t的循环层激活Rt是由当前时刻帧的字表达向量和之前时刻帧t‑1的循环层Rt‑1共同决定的,在每一时刻的单词输入都会与双重视觉关注机制求得视觉特征相拼接,作为该时刻的LSTM输入;S30.图像经过Faster‑RCNN提取全局特征和中间卷积层的局部特征,并采用决策性’soft’关注机制及上一时刻预测的单词表达,算出所有的局部特征图在该时刻的权重值,权值∈(0~1),采用Faster‑RCNN对每张图片提取20个主要目标的局部区域表达,并同样借助决策性’soft’关注机制对20个局部区域求得关注权重值,获得基于目标级别的视觉关注,最终结合空间及目标级别的两个关注过程,获得了具有超强视觉表征能力的关注特征,图像的关注特征作为步骤S20中与单词特征同等地位的LSTM输入;S40.架构短句的获得及使用,借助S30中获得的20个显著目标,精提取10个显著目标及其对应的边界框和标签;对10个标签进行排序,生成了具有视觉意义的架构短句,并采用另一个预训练好编解码LSTM的中学习得到该短句的表达,且将该短句的表达和全局视觉特征一起作为语言模型LSTM的初始化;S50.将以上的字表达向量Wt、循环层激活Rt、图像的图像特征和构架短句通过转换矩阵投影至同一维度的多模态空间上并直接元素相加,再用元素比例双曲线正切函数激活,最后通过softmax层得到下一字的概率分布;S60.整个模型的损失函数看成是对应图片的文本标注的混乱度,其等价于字集的平均对数似然值,对其使用标准梯度下降算法,通过反向传播算法学习模型参数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811408575.1/,转载请声明来源钻瓜专利网。