[发明专利]基于Tri-LSTMs模型的图像描述方法有效
申请号: | 201910565977.0 | 申请日: | 2019-06-27 |
公开(公告)号: | CN110288029B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 王爽;侯彪;张磊;孟芸;叶秀眺;田敬贤 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06V10/82 | 分类号: | G06V10/82;G06V10/774;G06V20/70;G06N3/04;G06N3/08 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 田文英;王品华 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Tri‑LSTMs模型的图像描述方法,其步骤为:生成训练集并映射词向量,搭建并训练RPN卷积神经网络与Faster‑RCNN卷积神经网络,提取图像全连接层特征,构建并训练Tri‑LSTMs模型,生成图像描述。本发明组合了多个长短时记忆网路LSTM,同时利用了图像的全连接层特征和单词的300维GLOVE词向量,有效提高了生成字幕的多样性,生成了更准确的图像描述。 | ||
搜索关键词: | 基于 tri lstms 模型 图像 描述 方法 | ||
【主权项】:
1.一种基于Tri‑LSTMs模型的图像描述方法,其特征在于,搭建由语义LSTM模块、视觉LSTM模块和语言LSTM模块组成的Tri‑LSTMs模型,对任意一张自然图像生成语句描述图像内容,该方法的步骤如下:(1)生成训练集并映射词向量:(1a)从带有图像描述的图像数据集中选取至少80000个样本组成训练集,所选取的每个样本是一个图像‑描述对,每个图像‑描述对中包含了一幅图像以及五条对应的图像描述;(1b)训练集中每个样本的图像描述由若多个英文单词组成,统计所有样本的所有图像描述中英文单词出现的频率并降幂排序,选取前1000个单词,将所选的每个单词映射为对应的300维GLOVE词向量,并将其存储到计算机中;(2)搭建RPN卷积神经网络模型与faster‑RCNN网络模型:(2a)搭建一个由八个卷积层和一个Softmax层构成的RPN卷积神经网络模型并设置各层参数;(2b)搭建一个由五个卷积层、一个ROIpooling层、四个全连接层和一个Softmax层构成的faster‑RCNN网络模型并设置各层参数;(3)训练RPN卷积神经网络和fast‑RCNN卷积神经网络:采用交替训练方法,对RPN卷积神经网络和fast‑RCNN卷积神经网络进行交替训练,得到训练好的RPN卷积神经网络和fast‑RCNN卷积神经网络;(4)提取训练集中每个样本图像的全连接层特征:(4a)将训练集中的每个样本图像依次输入到训练好的RPN卷积神经网络中,输出每个样本图像中所有目标粗选框的位置和框中目标的种类;(4b)将每个目标粗选框中的图像区域分别输入到在ImageNet数据库上训练好的resnet101网络中,将该网络最后一层全连接层输出的全部全连接层特征存储到计算机中;(5)构建Tri‑LSTMs模型:(5a)将一个长短期记忆网络LSTM和一个注意力网络依次组成语义LSTM模块,长短期记忆网络LSTM包含了1024个神经元;(5b)将一个长短期记忆网络LSTM和一个注意力网络依次组成视觉LSTM模块,长短期记忆网络LSTM包含了1024个神经元;(5c)将一个长短期记忆网络LSTM、一个全连接层依次组成语言LSTM模块,长短期记忆网络LSTM包含了1024个神经元,全连接层的神经元数目设定为训练集中所有图像描述包含的单词总数;(5d)将语义LSTM模块、视觉LSTM模块、语言LSTM模块依次组成Tri‑LSTMs模型;(6)训练Tri‑LSTMs模型:(6a)在不同的时刻,将训练样本图像描述中不同位置的单词作为输入,从零时刻开始,训练Tri‑LSTMs模型;(6b)读取步骤(4b)计算机中存储的resnet101网络最后一层全连接层输出的全部全连接层特征,将全部全连接层特征的平均值作为特征向量;(6c)将特征向量与图像描述中当前时刻的单词映射的词向量相加,输入到语义LSTM模块中的长短期记忆网络LSTM中,长短期记忆网络LSTM前向传导输出隐藏态;(6d)读取步骤(1)计算机中存储的1000个300维GLOVE词向量,输入到语义LSTM模块的注意力网络中,注意力网络前向传导后输出加权后的GLOVE词向量;(6e)将语义LSTM模块当前时刻的隐藏态与语义LSTM模块中注意力网络的输出相加,将得到的和向量作为语义LSTM模块的输出;(6f)将语义LSTM模块输出的和向量,输入到视觉LSTM模块中长短期记忆网络LSTM中,长短期记忆网络LSTM前向传导输出隐藏态;(6g)读取步骤(4b)计算机中存储的resnet101网络最后一层全连接层输出的全部全连接层特征,输入到视觉LSTM模块的注意力网络中,注意力网络前向传导,输出加权后的全连接层特征向量;(6h)将视觉LSTM模块当前时刻的隐藏态与视觉LSTM模块中注意力网络的输出,将得到的和向量作为视觉LSTM模块的输出;(6i)将语义LSTM模块的输出的和向量,输入到语言LSTM模块中长短期记忆网络LSTM中,长短期记忆网络LSTM前向传导输出隐藏态,将隐藏态输入到全连接层中,输出下一个时刻单词的概率向量;(6j)判断下一个时刻图像描述中是否存在单词,若是,计算单词概率向量与图像描述下一个时刻的单词向量之间的交叉熵损失后执行步骤(6b),否则,执行步骤(6k);(6k)将所有时刻的交叉熵损失相加得到总损失,使用BP算法优化模型中的所有参数,使总损失最小,当总损失收敛时停止训练,得到训练好的Tri‑LSTMs模型;(7)生成图像描述:(7a)将一张自然图像输入到预训练好的faster‑RCNN中,输出目标粗选框;(7b)将目标粗选框中的图像区域输入到训练好的resnet101网络中,输出全连接层图像特征;(7c)将全连接层图像特征输入到Tri‑LSTMs模型中,生成图像描述。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910565977.0/,转载请声明来源钻瓜专利网。