[发明专利]一种用于场景图检测的关系图学习方法在审
申请号: | 202110256665.9 | 申请日: | 2021-03-09 |
公开(公告)号: | CN113139423A | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 俞俊;张昊文;李亚楠 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 场景 检测 关系 学习方法 | ||
1.一种用于场景图检测的关系图学习方法,其特征在于包括如下步骤:
步骤(1)数据预处理
对于大型数据集中的图像,按照标准数据集处理方法,提取出现频次最高的150个目标和50个关系作为数据集Ⅰ的目标和关系,忽略其余目标和关系;
步骤(2)目标提取和关系检测
分别对数据集Ⅰ中的每张图像用目标检测网络Faster R-CNN来提取目标,并获得每对目标之间的关系建议,提取的目标和关系建议构成关系数据;
步骤(3)关系提取
利用关系提取网络对步骤(2)得到的关系数据进行筛选,过滤冗余信息关系和无效性关系,从而提高时间有效性;
步骤(4)关系图学习
构建一个关系图注意力网络,该网络由两部分组成:视觉-空间图注意力子网络和语义-空间图注意力子网络;通过融合两个子网络的结果获得最终关系图。
2.根据权利要求1所述的一种用于场景图检测的关系图学习方法,其特征在于步骤(1)所述的数据预处理:
1-1、VRD数据集是一个包含5000多张图片、100种目标、70种关系的目标检测数据集;
1-2、VG数据集是一个包含108000多张图片,且每张图片平均包含38种目标、22种关系的大型目标检测数据集;由于VG数据集包含大量稀疏的目标和关系,为了降低数据的稀疏性,根据目标和关系出现的频次进行筛选;筛选后的VG数据集包含150个目标和50个关系;
1-3、按照标准数据集划分方法,将VRD数据集和筛选后的VG数据集,随机取80%的图片作为训练集,其余20%的数据集作为测试集。
3.根据权利要求2所述的一种用于场景图检测的关系图学习方法,其特征在于步骤(2)所述的目标提取和关系检测:
2-1、通过FasterR-CNN网络对每张图像进行目标提取和关系检测;Faster R-CNN网络主要包含4部分内容:
2-2、Conv Layers:将Conv Layers作为CNN网络目标检测的方法,提取图像的特征;Conv Layers主要包含了13个卷积层和13个激活层和4个池化层,并且所有的卷积都做了扩边处理,确保卷积层输入和输出矩阵的大小不变;
2-3、Region Proposal Networks即区域判断网络:RPN网络用于生成区域提议;该RPN网络通过softmax判断锚点属于真或者假,再利用边界框回归修正锚点获得精确的区域提议;
2-4、Roi Pooling:该层通过收集输入的图像特征和区域提议,综合生成区域提议特征;
2-5、Classification:利用区域提议特征在全连接层中计算提议目标类别,同时再次通过边界框回归获得检测框最终的精确位置。
4.根据权利要求3所述的一种用于场景图检测的关系图学习方法,其特征在于步骤(3)所述的关系提取:
首先假设(Oi,Oj)是一对目标,将该对目标中每个目标的语义特征和视觉特征进行拼接,得到拼接特征;将两个拼接特征分别通过两个全连接网络映射到一个低纬度的特征表示空间;然后对映射完后的两个特征表示进行点乘运算得到同时根据得到的该对目标的空间特征输入到第三个全连接网络中得到将和两值相加后送入sigmoid层得出最终评分;对所有得到的评分进行排序,然后选取前面K个评分,并进行进一步条件筛选。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110256665.9/1.html,转载请声明来源钻瓜专利网。