[发明专利]一种细粒度场景级基于草图的图像检索方法及系统在审
申请号: | 202111004545.6 | 申请日: | 2021-08-30 |
公开(公告)号: | CN113868448A | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 马翠霞;刘舫;陈科圻;邓小明;王宏安 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F16/53 | 分类号: | G06F16/53;G06N3/04;G06N3/08 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 李文涛 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 细粒度 场景 基于 草图 图像 检索 方法 系统 | ||
1.一种细粒度场景级基于草图的图像检索方法,其特征在于,步骤包括:
1)对场景草图与待检索的场景图像分别构建图结构,其中图结构中的每个节点代表场景中的一个物体类别,图结构中的边代表场景中物体类别与类别之间的关系;
2)利用基于注意力机制的自适应图卷积神经网络,根据构建的图结构提取场景草图和场景图像的图结构特征;
3)在训练阶段,对训练用的图像数据进行步骤1)和2)的处理,提取场景草图和场景图像的图结构特征,利用三元组网络对提取的图结构特征进行正负样本的欧式距离计算,根据计算的欧式距离计算三元组损失;根据三元组损失,反向传播以更新自适应图卷积神经网络,优化网络参数,得到训练好的自适应图卷积神经网络;
4)在测试阶段,对场景草图和待检索的场景图像进行步骤1)和2)的处理,利用训练好的自适应图卷积神经网络,提取场景草图和场景图像的图结构特征,根据场景草图和场景图像的图结构特征的欧氏距离对场景草图和待检索的场景图像进行匹配,得到图像检索结果。
2.如权利要求1所述的方法,其特征在于,构建图结构包括对节点的构建和对边的构建,其中对点的构建方法为:对场景中的各实例按物体类别进行聚类,根据聚类后的各实例来获取节点特征,节点特征包括类别类别标签、各实例的视觉特征和各类别实例的位置信息。
3.如权利要求2所述的方法,其特征在于,获取节点特征的步骤包括:
1)通过训练好的目标检测网络Yolo-V4检测场景草图或场景图像,得到场景中各实例的位置和类别信息;
2)通过视觉特征提取网络Inception-V3提取场景的每个类别中各实例的视觉特征,并将各实例的视觉特征与位置信息相连接,构成实例特征;
3)将每个类别中所有实例特征通过一个卷积神经网络进行特征融合,得到每个节点特征。
4.如权利要求3所述的方法,其特征在于,基于CoCo-Stuff数据库训练Yolo-V4,基于ImageNet数据集训练Inception-V3。
5.如权利要求2所述的方法,其特征在于,实例的位置信息用一个四维向量进行表示,向量的四维数值分别表示实例的矩形边界框左上角和右下角的坐标点。
6.如权利要求3所述的方法,其特征在于,视觉特征为2048维的向量,将各实例的视觉特征与位置信息相连接后得到2052维的实例特征向量。
7.如权利要求2所述的方法,其特征在于,对边的构建方法为:计算两个节点的欧式距离,再对欧式距离进行归一化,将归一化的欧氏距离作为边的权值来构建边。
8.如权利要求2所述的方法,其特征在于,通过构建三种不同的邻接矩阵来模拟三种不同的图结构,包括以下步骤:
1)计算各类别中各实例的中心位置之间的欧式距离,并进行归一化,得到图结构的边A1;
2)通过Word2Vec词嵌入算法提取各类别标签的词向量,计算各类别标签词向量之间的余弦距离,作为图结构的边A2;
3)引入可学习邻接矩阵作为图结构的边A3,并对其进行随机初始化;
4)根据所述边A1、A2、A3得到三种邻接矩阵,并将该三种邻接矩阵相加,得到图卷积神经网络的更新的邻接矩阵,用该更新的邻接矩阵表示图结构。
9.如权利要求9所述的方法,其特征在于,图卷积神经网络通过一个仿射函数从图结构中提取特征;图卷积神经网络含有多个网络层,从第二层开始的每一层都是将上一层的输出与图结构的邻接矩阵作为输入。
10.一种细粒度场景级基于草图的图像检索系统,用于实现权利要求1-9任一项所述的方法,其特征在于,包括:
目标检测网络,用于检测场景草图和场景图像,得到场景中各实例的位置和类别信息;
视觉特征提取网络,用于提取场景的每个类别中各实例的视觉特征,并将各实例的视觉特征与位置信息相连接,构成实例特征;
单层卷积神经网络,用于对每个类别中所有实例特征进行融合,得到每个节点特征;
基于注意力机制的自适应图卷积神经网络,用于根据构建的图结构提取场景草图和场景图像的图结构特征;根据场景草图和场景图像的图结构特征,计算该两个图结构特征之间的欧氏距离,对场景草图和待检索的场景图像进行匹配;
三元组网络,用于在训练阶段对提取的图结构特征进行正负样本的欧式距离计算,根据计算的欧式距离计算三元组损失;根据三元组损失,反向传播以更新自适应图卷积神经网络,优化网络参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111004545.6/1.html,转载请声明来源钻瓜专利网。