[发明专利]一种基于超关系学习网络的场景图生成方法有效

专利信息
申请号: 202110309285.7 申请日: 2021-03-23
公开(公告)号: CN113065587B 公开(公告)日: 2022-04-08
发明(设计)人: 俞俊;陈志;刘晓鹏;张健;张驰;詹忆冰 申请(专利权)人: 杭州电子科技大学;人民日报社
主分类号: G06V10/764 分类号: G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 朱月芬
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 关系 学习 网络 场景 生成 方法
【说明书】:

发明公开了一种基于超关系学习的场景图生成方法。本发明包括以下步骤:1、通过目标自注意力网络加强目标交互,融合目标的特征。2、通过目标‑关系注意力网络加强目标和关系的交互,融合目标和关系之间的特征。3、通过超关系注意力网络去整合超关系的传递推理。4、模型训练,将目标损失函数和关系损失函数放入优化器,通过反向传播算法对网络参数进行梯度回传和更新。本发明提出一种针对场景图生成的深度神经网络,特别是提出一种超关系学习网络,充分利用目标和关系之间的交互和传递推理,提高了场景图生成中关系的推理能力,并且在场景图生成领域中的性能得到了很大的提升。

技术领域

本发明提出一种基于超关系学习(Hyper-relationship Learning Network)的场景图生成方法(HLN)。HLN起源于超图,使用多层的注意力网络是目标之间相互作用。进一步提出了目标关系注意力网络(OR-GAT)去自主在目标和关系之间相互作用,融合特征。本发明首次提出了超关系注意力网络去整合超关系的传递推理。其中超关系指的是三个目标之间关系的子集。通过目标之间相互作用,目标和关系之间的相互作用以及超关系的传递推理明显的提升了关系的预测效果。

背景技术

场景图生成(SGG)目的是为了检测物体并预测对象关系。然后,这些检测到的对象和关系构成图像的场景图。场景图生成不仅能基于视觉内容提供去理解图像的关系,也同样有益于那些高层次的视觉应用的知识表示,例如视觉问答。场景图生成任务的目标就是让计算机能自动生成一种语义化的图结构,从而作为图像的表示。图像中的目标对应场景图中的节点,目标间的关系对应场景图中的边,边也能表示目标的各种属性,如颜色等。相对于向量表示来说,这种结构化表示的方法显得更加直观,场景图也可以看成是小型的知识图谱,因此能广泛的应用于知识管理、推理、检索、推荐等领域。除此之外,场景图的表示方法是模态无关的,自然语言、视频、语音等数据同样可以表示成类似结构,因此对于融合多模态信息很有潜力。

早期的视觉关系检测工作将视觉关系三元组作为整体进行检测,即同时预测主语-谓语-宾语。然而由于视觉关系类别众多,这类方法需要大量的训练数据,且受限于早期标注数据规模和模型计算能力,其预测关系类别有限、精度不高,比如Sadeghi等人提出的视觉关系检测方法仅能对13种常见的简单关系进行预测,而Desai等人提出的人与周围环境互动方法仅能检测8种简单的人的动作。2016年, Lu等人将视觉关系检测任务拆分为目标检测和谓语检测两个子任务,并分别采用不同的模块进行处理。此时,目标检测模块仅需要获取目标类别的训练数据,而谓语检测模块仅需要获取谓语类别的训练数据。这种策略将原本的乘积式训练标注空间,转换为相加式的训练标注空间,不仅降低了视觉关系检测方法对数据标注的依赖,并且由于不同模块负责不同的子任务,有效地提升了检测结果。Lu等人的方法将视觉关系检测类别提升到了70类。直到现在,几乎所有的视觉关系检测方法均采用这种做法。

另一类视觉关系检测方法则注重于挖掘主语和宾语信息本身的关联。Zhang等人提出的VTransE方法中,利用VGG-16网络提取主语和宾语的视觉特征,利用Faster R-CNN目标识别网络获取主语和宾语的类别信息,同时结合主语和宾语在图像中的位置提取空间信息,然后采用文本中的词嵌入模型,将主语和宾语进行嵌入组合获取最终的关系预测。而Zoom-Net网络则充分利用主语和宾语之间的空间特性,构建多尺度金字塔网络,对主语、宾语、以及主语宾语联合目标提取视觉信息并融合,充分利用主语和宾语的视觉特性获取最终的预测结果。而Liang等人则利用张量理论对现有的关系对进行分解,从而在获取主语和宾语目标类别基础上,直接预测两者之间的关系。Jae 等人则构建了强化学习网络,同时利用目标属性这一额外信息联合训练预测关系。Dai等人构建深度神经网络对目标的关系进行深度融合,从而获取最终的预测结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学;人民日报社,未经杭州电子科技大学;人民日报社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110309285.7/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top