[发明专利]一种协同门控循环融合LSTM图像标注方法有效
申请号: | 202110794816.6 | 申请日: | 2021-07-14 |
公开(公告)号: | CN113627424B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 杨有;陈立志;胡峻滔;余平;杨学森 | 申请(专利权)人: | 重庆师范大学 |
主分类号: | G06V30/146 | 分类号: | G06V30/146;G06V30/19;G06V10/82;G06N3/0464;G06N3/049;G06N3/08 |
代理公司: | 重庆莫斯专利代理事务所(普通合伙) 50279 | 代理人: | 刘强 |
地址: | 401331 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 协同 门控 循环 融合 lstm 图像 标注 方法 | ||
1.一种协同门控循环融合LSTM图像标注方法,其特征在于,包括如下步骤,
通过协同门控注意方法执行图像-文本匹配的多模态任务;
由生成注意权值的注意LSTM循环融合组成注意rLSTM,表示为rLSTMa;
由生成单词的语言LSTM循环融合组成语言rLSTM,表示为rLSTMl;循环融合LSTM的第一层是rLSTMa,第二层是rLSTMl,表示为rLSTM;
把协同门控注意SGA和循环融合LSTM整合在一起,形成rLSTM-SGA;
使用数据集对方法进行评论;
在“由生成注意权值的注意LSTM循环融合组成注意rLSTM”中,所述方法还包括,
在第一层上,rLSTMa网络的隐藏状态计算公式如下:
其中,是rLSTMa网络的输入矢量;是rLSTMa网络前一时刻的隐藏状态;是t时刻rLSTMa的第i次输出;LSTMa代表注意力LSTM;rLSTMa代表循环融合LSTMa;P代表LSTMa的个数;
在“由生成注意权值的注意LSTM循环融合组成注意rLSTM”中,所述方法还包括,
第一层rLSTMa的输入由嵌入在当前时间步输入的词以及视觉矢量组成,其中Iv为Faster-RCNN提取的池化特征,是rLSTMl前一个时间步的上下文矢量:
其中,E是单词的嵌入矩阵,wt-1是前一个时间步rLSTMl生成的单词,符号“[·]”代表矢量拼接操作;
在“由生成单词的语言LSTM循环融合组成语言rLSTM,表示为rLSTMl”中,所述方法还包括,
在第二层上,rLSTMl的隐藏状态计算公式如下:
其中,是rLSTMl网络的输入矢量,是rLSTMl网络前一时刻的隐藏状态,是t时刻rLSTMl的第i次输出;LSTMl代表语言LSTM;rLSTMl代表循环融合LSTMl;P代表LSTMl的个数;
在“由生成单词的语言LSTM循环融合组成语言rLSTM,表示为rLSTMl”中,所述方法还包括,
第二层rLSTMl的输入矢量,记为定义如下:
其中,st表示协同门控注意SGA的输出,表示当前时刻rLSTMa的隐藏状态,符号“[·]”代表矢量拼接操作;
在“把协同门控注意SGA和循环融合LSTM整合在一起,形成rLSTM-SGA”中,所述方法还包括,
rLSTM-SGA图像描述模型在t时刻输出单词的概率记为p(yt∣y1:t-1),其计算公式定义为:
式中,softmax(·)代表归一化函数,Wp代表rLSTMl隐藏状态的学习参数,代表rLSTMl在t时刻的隐藏状态。
2.如权利要求1所述的协同门控循环融合LSTM图像标注方法,其特征在于,在“通过协同门控注意方法执行图像-文本匹配的多模态任务”中,所述方法还包括,
使用卷积神经网络模型提取空间语义信息;
使用Faster-RCNN提取显著区域信息;
将提取的空间语义信息和显著区域信息融合在一起,同时利用图像不同的区域信息和空间信息生成当前的描述文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆师范大学,未经重庆师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110794816.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高压输电斜体铁塔
- 下一篇:一种便于切割相同长度的自动化五金管材切割装置