[发明专利]一种三通路残差注意力图像描述方法在审

申请号：	202210680166.7	申请日：	2022-06-15
公开（公告）号：	CN114863222A	公开（公告）日：	2022-08-05
发明（设计）人：	杨有;安永志;胡峻滔;何丽	申请（专利权）人：	重庆师范大学
主分类号：	G06V10/774	分类号：	G06V10/774;G06V10/80;G06V10/82;G06N3/04;G06N3/08
代理公司：	北京康达联禾知识产权代理事务所(普通合伙) 11461	代理人：	刘莹
地址：	400000 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种通路注意力图像描述方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种三通路残差注意力图像描述方法，其特征在于，包括以下步骤：

提取输入图片的网络特征；

构建三个残差注意力路径；

通过在三个所述残差注意力路径之间添加跳过连接来生成注意力分数；

在编码器中引入相对位置的残差注意力模块将相对位置分数与所述注意力分数结合，得到更新编码器；

在解码器中引入带有层归一化查询向量的残差注意力模块，得到更新解码器；

基于三个所述残差注意力路径、所述更新编码器和所述更新解码器构建并训练注意力机制模型；

将所述网格特征输入训练后的所述注意力机制模型进行融合后输出，得到图像文字描述。

2.如权利要求1所述的三通路残差注意力图像描述方法，其特征在于，

所述提取输入图片的网络特征的具体方式为：

设定网格提取参数；

利用视觉特征基于所述网特提取参数提取输入图片的网格特征。

3.如权利要求2所述的三通路残差注意力图像描述方法，其特征在于，

所述基于三个所述残差注意力路径、所述更新编码器和所述更新解码器构建并训练注意力机制模型的具体方式为：

基于三个所述残差注意力路径、所述更新编码器和所述更新解码器构建网络模型；

获取图像字幕基准数据集；

删除所述图像字幕基准数据集中所有句子的标点符号，并将所述图像字幕基准数据集中的所有单词转换为小写，得到训练数据集；

使用所述训练数据集对所述网络模型进行训练、验证和测试，得到注意力机制模型。

4.如权利要求3所述的三通路残差注意力图像描述方法，其特征在于，

所述使用所述训练数据集对所述网络模型进行训练、验证和测试，得到注意力机制模型的具体方式为：

计算所述训练数据集的注意力，得到计算值；

基于所述计算值对所述训练数据集进行图像标注，得到标注数据集；

使用所述标注数据集对所述网络模型进行训练、验证和测试，得到注意力机制模型。

5.如权利要求4所述的三通路残差注意力图像描述方法，其特征在于，

所述将所述网格特征输入训练后的所述注意力机制模型进行融合后输出，得到图像文字描述的具体方式为：

将所述网格特征展平，得到展平特征；

将所述展平特征馈入训练后的所述注意力机制模型进行融合后输出，得到图像文字描述。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆师范大学，未经重庆师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210680166.7/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载