[发明专利]基于视觉与语义注意力相结合策略的图像描述方法及系统有效
申请号: | 201710806029.2 | 申请日: | 2017-09-08 |
公开(公告)号: | CN107563498B | 公开(公告)日: | 2020-07-14 |
发明(设计)人: | 王雷全;褚晓亮;魏燚伟;吴春雷;崔学荣 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/46 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 266580 山东省*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于视觉与语义注意力相结合策略的图像描述方法及系统,步骤:利用卷积神经网络CNN从待生成图像描述的图像中提取图像特征;利用图像的视觉注意力模型对图像特征进行处理,将视觉注意力模型处理过的图像特征送入第一LSTM网络产生单词,然后利用语义注意力模型对产生的单词和预定义的标签进行处理得到语义信息,然后利用第二LSTM网络对语义进行处理得到语义注意力模型生成的单词,重复上述步骤,最后将所有得到的单词进行串联组合,产生图像描述;本发明的方法不仅利用了输入图像的概述,而且还丰富了视觉语义方面的信息,让生成的句子更能够真实的反应图像的内容。 | ||
搜索关键词: | 基于 视觉 语义 注意力 相结合 策略 图像 描述 方法 系统 | ||
【主权项】:
基于视觉与语义注意力相结合策略的图像描述方法,其特征是,包括:步骤(1):利用卷积神经网络CNN从待生成图像描述的图像中提取图像特征V;步骤(2):建立视觉注意力模型,判断是否是首次执行,若是,则将步骤(1)的图像特征V输入到视觉注意力模型中,得到经过视觉注意力模型处理后的图像特征Vatt;若不是,则将步骤(1)的图像特征V和t‑1时刻语义注意力模型生成的单词Wt‑1输入到视觉注意力模型中,得到经过视觉注意力模型处理后的图像特征Vatt;步骤(3):建立第一个LSTM网络,称之为LSTM1网络,LSTM1网络是指供视觉注意力模型使用的LSTM网络;将LSTM1网络的t‑1时刻的隐藏层状态和经过视觉注意力模型处理以后的图像特征Vatt送入LSTM1网络,得到视觉注意力模型在t时刻产生的单词Wt';步骤(4):建立语义注意力模型,将视觉注意力模型在t时刻产生的单词Wt'与预定义的标签A一起输入到语义注意力模型中;得到语义注意力模型在t时刻生成的语义信息Et;步骤(5):建立第二个LSTM网络,称之为LSTM2网络,LSTM2网络是指供语义注意力模型使用的LSTM网络;将LSTM2网络在t‑1时刻的隐藏层的状态和语义注意力模型在t时刻生成的语义信息Et输入到LSTM2网络中,得到语义注意力模型在t时刻生成的单词Wt;步骤(6):判断是否检测到停止标识,若是,则将得到的所有单词进行串联组合,产生图像描述;若不是,则用步骤(5)得到的单词Wt更新步骤(2)中的Wt‑1;同时返回步骤(2),继续执行步骤(2)‑(5),直至检测到停止标识。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710806029.2/,转载请声明来源钻瓜专利网。