[发明专利]目标检测中的多尺度特征图融合方法、装置、设备及介质有效
| 申请号: | 202310266930.0 | 申请日: | 2023-03-20 |
| 公开(公告)号: | CN115984661B | 公开(公告)日: | 2023-08-29 |
| 发明(设计)人: | 黄泽元 | 申请(专利权)人: | 北京龙智数科科技服务有限公司 |
| 主分类号: | G06V10/80 | 分类号: | G06V10/80;G06V10/82;G06N3/0464;G06N3/048 |
| 代理公司: | 北京嘉科知识产权代理事务所(特殊普通合伙) 11687 | 代理人: | 陈美君 |
| 地址: | 100020 北京市朝*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 目标 检测 中的 尺度 特征 融合 方法 装置 设备 介质 | ||
本申请提供一种目标检测中的多尺度特征图融合方法、装置、设备及介质。该方法包括:将第一多尺度特征图进行融合得到第二多尺度特征图;对第二多尺度特征图依次进行卷积、批量归一化和激活处理,得到第三多尺度特征图;将第三多尺度特征图进行堆叠,并对堆叠后的多尺度特征图进行卷积、批量归一化和激活处理,得到第四多尺度特征图;将第四多尺度特征图按照第一维度进行归一化计算,得到第一维度权重特征图,将第一维度权重特征图进行拆分,得到空间权重特征图;依据第二多尺度特征图以及空间权重特征图,确定空间融合后的多尺度特征图。本申请提高多目标检测任务的检测精确率和召回率,提升模型检测精度,保证检测器得到更好的优化。
技术领域
本申请涉及计算机技术领域,尤其涉及一种目标检测中的多尺度特征图融合方法、装置、设备及介质。
背景技术
在深度学习的很多工作中(比如目标检测、图像分割等),融合不同尺度的特征是提高性能的一个重要手段。基于深度学习的目标检测器中通常包含主干网络(backbone)和特征金字塔。
现有的多目标检测技术中,一般会使用特征金字塔(Feature Pyramid Network,FPN),FPN在对多尺度特征图做融合时,只是简单的相加,这种简单的相加,是没有明确意义的,也是网络不可学习的。多尺度特征简单相加,在网络训练时梯度会产生冲突,不容易优化;简单的融合技术也会增加检测多尺度目标的难度,造成检测精度的下滑。
发明内容
有鉴于此,本申请实施例提供了一种目标检测中的多尺度特征图融合方法、装置、设备及介质,以解决现有技术存在的多尺度特征图融合时的梯度冲突,不容易优化,检测精度降低的问题。
本申请实施例的第一方面,提供了一种目标检测中的多尺度特征图融合方法,包括:获取目标检测器中特征金字塔输出的第一多尺度特征图;将第一多尺度特征图依次基于每个第一多尺度特征图进行融合,得到多个第二多尺度特征图;对第二多尺度特征图依次进行卷积、批量归一化和激活处理,得到第二多尺度特征图对应的第三多尺度特征图;将第三多尺度特征图进行堆叠,并对堆叠后的多尺度特征图进行卷积、批量归一化和激活处理,得到第四多尺度特征图;将第四多尺度特征图按照第一维度进行归一化计算,得到第一维度权重特征图,并将第一维度权重特征图按照通道进行拆分,得到每个通道对应的空间权重特征图;依据第二多尺度特征图以及每个通道对应的空间权重特征图,确定每个第一多尺度特征图进行第一空间融合后的多尺度特征图。
本申请实施例的第二方面,提供了一种目标检测中的多尺度特征图融合装置,包括:获取模块,被配置为获取目标检测器中特征金字塔输出的第一多尺度特征图;融合模块,被配置为将第一多尺度特征图依次基于每个第一多尺度特征图进行融合,得到多个第二多尺度特征图;处理模块,被配置为对第二多尺度特征图依次进行卷积、批量归一化和激活处理,得到第二多尺度特征图对应的第三多尺度特征图;堆叠模块,被配置为将第三多尺度特征图进行堆叠,并对堆叠后的多尺度特征图进行卷积、批量归一化和激活处理,得到第四多尺度特征图;拆分模块,被配置为将第四多尺度特征图按照第一维度进行归一化计算,得到第一维度权重特征图,并将第一维度权重特征图按照通道进行拆分,得到每个通道对应的空间权重特征图;确定模块,被配置为依据第二多尺度特征图以及每个通道对应的空间权重特征图,确定每个第一多尺度特征图进行第一空间融合后的多尺度特征图。
本申请实施例的第三方面,提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述方法的步骤。
本申请实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京龙智数科科技服务有限公司,未经北京龙智数科科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310266930.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于人脸和语音双重认证的远程急停控制系统及方法
- 下一篇:人群计数方法及装置





