[发明专利]一种基于知识引导下双向注意力机制的人物交互检测方法在审
申请号: | 202210169189.1 | 申请日: | 2022-02-23 |
公开(公告)号: | CN114529842A | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 李革;杨百祥;高伟 | 申请(专利权)人: | 北京大学深圳研究生院 |
主分类号: | G06V20/20 | 分类号: | G06V20/20;G06V40/20;G06N3/04;G06N3/08 |
代理公司: | 北京京万通知识产权代理有限公司 11440 | 代理人: | 万学堂 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 引导 双向 注意力 机制 人物 交互 检测 方法 | ||
本发明公开了一种基于知识引导下双向注意力机制的人物交互检测方法,包括如下五个步骤:目标检测、分组、自底向上编码器、自顶向下编码器、二分类;对复杂场景中存在的多个人、物实例进行人物交互检测的关键有效地对场景中的对象进行关系建模解析,通过将知识引导下的自顶向下注意力机制引入到了人物交互检测任务,使得模型能够为给定的人‑物对自适应地搜寻场景中的相关信息,以进行交互行为判别,从而实现人物交互检测;本发明具有更好的检测性能(mAP)和更好的可解释性。
技术领域
本发明涉及图片中人物交互识别检测,特别地一种基于知识引导下双向注意力机制的人物交互检测方法,为一种两阶段设置下的人物交互识别检测方法。
技术背景
近几年来,随着计算机视觉发展的不断深入,以人为主体的人物交互检测任务受到了人们的广泛关注。人物交互检测任务的核心问题是对场景中的人和其周边对象间的关系的理解和检测,该任务有着诸多广阔的应用场景:既可以直接应用于监控系统、机器人视觉系统、人机交互中,同时又可以作为基础接口,为下游的一系列复杂视觉任务,如图像、视频推荐与检索,多媒体数据摘要等应用提供支持。人物交互检测任务即:给定一张图片,模型需要输出人、交互类别、物体所构成的三元组,其不仅需要对人和物体进行定位,同时也需要识别出二者之间所存在的交互关系。
人物交互检测是场景理解中的基础问题,它不仅需要回答“在什么地方?”(即对象识别和定位)的问题,还要回答“正在发生什么?”的问题。区别于其它以实体(如物体、人)作为研究对象的计算机视觉任务,虽然行为产生的主体是“人”这一实体,但其研究对象却是“行为”这一抽象的概念。对抽象概念的理解是实现未来人工智能发展与进步的必经之路。为了实现对于这一抽象概念的理解,只通过外观特征是远远不够的,还需要对场景中多元对象间的空间位置关系,甚至数据外部的知识先验信息进行分析和推理。
人物交互检测任务更注重对视觉数据中多个实体对象间的关系进行分析,要求对视觉数据做出更为细粒度、结构化的解析。但在当前方法中,大多数关系解析是以一种自底向上的方式进行的。在人类视觉系统中,自底向上是指注意力自动集中于显著或含有信息更多的信号上的过程,而自顶向下是指在特定目的引导下注意力选择性地集中在某些信号上的过程。自底向上是指,在进行人-物配对前,学习给定实例对于环境中其他实例的注意力的机制。当图中存在同一个人实例和不同的物体实例组成多个人-物对(例如,坐在椅子上的人正在使用计算机打字)时,给定这个实例人,模型应该具备分别为“坐在椅子上”和“用计算机打字”这两个行为各自寻找相关视觉线索的能力,即学到不同的注意力分布。但是,在自底向上的注意力机制中,在这两个不同交互行为中,此人对环境中其他实例的注意力分布时相同的。这说明,自底向上的注意力机制无法直接为不同的人-物对进行定制化的关系解析。详见参考文献[1]和[2]。在这种情况下,如何为不同的人-物对进行定制化的关系解析是一个难点所在,而在此场景下准确地进行人物关系解析是一个具有挑战性的问题。
发明内容
本发明的目的在于公开一种基于知识引导下双向注意力机制的人物交互检测方法,在复杂场景中往往存在着多个人、物实例,对这些实例进行人物交互检测的关键就在于,如何有效地对场景中的对象进行关系建模解析。
本发明的工作原理为:将知识引导下的自顶向下注意力机制引入到了人物交互检测任务中,赋予模型能够为给定的人-物对灵活地搜寻场景中的相关信息以进行交互判别的能力。
为了达到本发明的技术目的,本发明采取如下技术方案:
一种基于知识引导下双向注意力机制的人物交互检测方法,包括如下步骤:
P1、目标检测:首先在给定图片上运行预训练过的目标检测器,进行目标检测,得到实例的位置坐标及类别预测信息的检测结果;
P2、分组:根据P1的检测结果中的位置坐标信息,使用ROI Pooling的方式,在骨干网络提取得到的特征图上进行crop操作,得到实例的外观特征,并根据类别预测将其分为人 (Human Group)和物体(Object Group)两组;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210169189.1/2.html,转载请声明来源钻瓜专利网。