[发明专利]一种基于多帧特征聚合的动态目标检测方法及装置在审
申请号: | 202110758306.3 | 申请日: | 2021-07-05 |
公开(公告)号: | CN113449662A | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 许海涛;时月红;林福宏;周贤伟 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波;付忠林 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 聚合 动态 目标 检测 方法 装置 | ||
本发明公开了一种基于多帧特征聚合的动态目标检测方法及装置,该方法包括:在Faster RCNN的全连接层后添加关系模块;通过全局关系模块将全局帧的语义特征聚合到局部帧和关键帧,得到增强局部帧和第一增强关键帧;通过局部关系模块将增强局部帧的语义特征和位置特征聚合到第一增强关键帧,得到第二增强关键帧;通过局部关系模块将第二增强关键帧其他候选区域的语义特征和位置特征聚合到某一候选区域,得到第三增强关键帧;基于第三增强关键帧得到动态目标检测结果。本发明在动态目标检测的过程中充分利用了视频中的上下文信息来辅助当前关键帧目标的检测和定位,提高了检测的精确度。
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种基于多帧特征聚合的动态目标检测方法及装置。
背景技术
在动态目标检测的研究中,人们尝试将静态图像的目标检测直接应用于视频的每一帧中,但这种方法没有利用好视频是一个空间与时间信息集合体的特征,因此容易受到遮挡、模糊以及光照条件等变化带来的准确性降低等问题。
发明内容
本发明提供了一种基于多帧特征聚合的动态目标检测方法及装置,以解决现有的动态目标检测方法容易受到遮挡、模糊以及光照条件等变化带来的准确性降低的技术问题。
为解决上述技术问题,本发明提供了如下技术方案:
一方面,本发明提供了一种基于多帧特征聚合的动态目标检测方法,包括:
在Faster RCNN的全连接层后添加关系模块;其中,所述关系模块包括全局关系模块和局部关系模块;
从视频中与关键帧相邻的帧中随机选取多帧作为局部帧;从视频中随机选取多帧作为全局帧;其中,所述关键帧中包含待检测的动态目标;
通过所述全局关系模块将所述全局帧的语义特征聚合到所述局部帧和所述关键帧,得到增强局部帧和第一增强关键帧;通过所述局部关系模块将所述增强局部帧的语义特征和位置特征聚合到所述第一增强关键帧,得到第二增强关键帧;通过所述局部关系模块将所述第二增强关键帧中除选定候选区域外的其他候选区域的语义特征和位置特征聚合到选定候选区域,得到第三增强关键帧;
基于所述第三增强关键帧,得到当前动态目标的检测结果。
进一步地,将所述全局帧的语义特征聚合到所述局部帧和所述关键帧,包括:
使用广义余弦相似度来度量两个候选区域之间的语义相似度,从而判断两个候选区域是否同属一个类别,表达式为:
其中,φ(.)和ψ(.)代表变换函数,表示第k帧第i个候选区域,表示第f帧第j个候选区域;表示和之间的语义相似度,T表示转置;
使用softmax函数对所有候选区域进行相似性归一化处理,将各个输出节点的输出值范围映射到[0,1],并且约束各个输出节点的输出值和为1,表达式为:
其中,表示语义相似度的归一化处理结果;
将所述全局帧的语义特征聚合到所述局部帧和所述关键帧,表达式为:
其中,表示第k帧第i个候选区域的语义特征聚合结果,Ω是为聚合全局帧的语义特征随机选择的帧索引集,N为每帧中的候选区域个数。
进一步地,将所述增强局部帧的语义特征和位置特征聚合到所述第一增强关键帧,包括:
构造关系函数,将B中候选区域对象集的语义特征和位置特征聚合到P帧中第n个候选区域,即关系特征fR(n)表示为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110758306.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种病理用精确取材装置
- 下一篇:一种整车排放结果的仿真方法及系统