[发明专利]一种多标签图像识别方法及装置在审
申请号: | 201711366072.8 | 申请日: | 2017-12-18 |
公开(公告)号: | CN108133233A | 公开(公告)日: | 2018-06-08 |
发明(设计)人: | 林倞;陈添水;王州霞;李冠彬;余伟浩;许琳 | 申请(专利权)人: | 中山大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46;G06N3/04 |
代理公司: | 广州番禺容大专利代理事务所(普通合伙) 44326 | 代理人: | 刘新年 |
地址: | 510000 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标签图像 感知模块 标签 特征图 注意力机制 计算效率 区域特征 图片特征 一次循环 最终结果 剪切 调用 融合 输出 分类 学习 | ||
1.一种多标签图像识别方法,包括如下步骤:
步骤S1,获取多标签图像,提取图片特征,获得所述多标签图像的特征图;
步骤S2,于所述特征图上进行剪切获得区域特征,多次调用已训练好的循环注意感知模块进行处理,以获得所有区域的标签分数;
步骤S3,融合每一次循环注意感知模块得到的各区域的标签分数,获得最终的标签分布,输出最终结果。
2.如权利要求1所述的一种多标签图像识别方法,其特征在于:所述循环注意感知模块包括长短时记忆网络和全连接网络,其输入为截取的各个特征区域和上一次运行该模块得到的隐藏状态,输出为各个特征区域的分类向量以及预测的下一次运行最佳位置。
3.如权利要求2所述的一种多标签图像识别方法,其特征在于,步骤S2进一步包括:
在特征图上截取不同形状、不同尺度的区域,并把该些区域缩放到统一尺度;
于该些区域特征提取后,利用长短时记忆网络将之前运行的隐藏态以及该些区域特征作为输入,输出为每个区域的分类分数和搜索到的下一次运行的最优位置,该过程不断重复直到达到最大运行次数,获得各区域的标签分数。
4.如权利要求2所述的一种多标签图像识别方法,其特征在于:于步骤S3中,对于每一次循环注意感知模块得到的各区域的标签分数的融合,使用种类最大池化方法来得到最终的结果。
5.如权利要求2所述的一种多标签图像识别方法,其特征在于,于步骤S1之前,还包括如下步骤:
步骤S0,获取多标签图像,通过提取特征获得所述多标签图像的特征图,设计循环注意感知模块,根据所述特征图多次调用循环注意感知模块进行训练。
6.如权利要求5所述的一种多标签图像识别方法,其特征在于,步骤S0进一步包括:
获取多标签图像,利用深度卷积神经网络提取图片特征,获得该多标签图像的特征图;
在所述特征图上截取不同形状、不同尺度的区域,并把该些区域缩放到统一尺度;
设计该循环注意感知模块;
多次调用循环注意感知模块,使得模型能考虑图片的各个部分和全局信息,以此进行训练而调整整个模型的参数。
7.如权利要求6所述的一种多标签图像识别方法,其特征在于:所述循环注意感知模块每次运行时预测当前各个区域的标签分数和搜索为下一次运行搜索最相关的区域,在每一次运行中,它给出当前值得注意的区域预测标签分数然后根据当前状态预测下一次运行的最优位置,这个过程不断重复直到达到最大运行次数,最后,所有区域的标签分数通过融合得到最终的标签分布。
8.如权利要求7所述的一种多标签图像识别方法,其特征在于:于训练过程中,根据最终融合的结果定义一延迟奖励函数,并指导循环注意感知模块的训练过程。
9.如权利要求8所述的一种多标签图像识别方法,其特征在于:
于训练过程中,设计分类损失函数,利用所述分类损失函数与延迟奖励函数指导循环注意感知模块的训练过程。
10.一种多标签图像识别装置,包括:
特征提取单元,用于获取多标签图像,提取图片特征,获得该多标签图像的特征图;
识别处理单元,于所述特征图上进行剪切获得区域特征,多次调用已训练好的循环注意感知模块进行处理,以获得所有区域的标签分数;
融合单元,用于融合每一次循环注意感知模块得到的各区域的标签分数,获得最终的标签分布,输出最终结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711366072.8/1.html,转载请声明来源钻瓜专利网。