[发明专利]多阶特征交互的目标检测模型及其构建方法、装置及应用有效
申请号: | 202310159962.0 | 申请日: | 2023-02-24 |
公开(公告)号: | CN115937655B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 方剑锋;张香伟;程洁;黎维;曹喆 | 申请(专利权)人: | 城云科技(中国)有限公司 |
主分类号: | G06V10/82 | 分类号: | G06V10/82;G06V10/25;G06V10/764;G06V10/80;G06V20/50;G06F18/22;G06N3/045;G06N3/0464;G06N3/0442;G06N3/048;G06N3/082;G06N3/084;G06N5/04 |
代理公司: | 杭州汇和信专利代理有限公司 33475 | 代理人: | 陈江 |
地址: | 310052 浙江省杭州市滨江区长*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 交互 目标 检测 模型 及其 构建 方法 装置 应用 | ||
本方案提出了一种多阶特征交互的目标检测模型及其构建方法、装置及应用,包括以下步骤:获取包含待检测目标的至少一待检测图像,所述待检测图像进行标记后送入构建好的多阶特征交互的目标检测模型中;所述多阶特征交互的目标检测模型中的主干网络和颈部网络对所述待检测图像进行处理得到待检测图像特征,在所述多阶特征交互的目标检测模型的头部网络中使用空间聚合模块对所述待检测图像特征的上下文信息进行聚合得到空间聚合结果后进行输出得到检测目标框。本方案通过对YOLOv8的头部网络进行改进,使得YOLOv8可以有效捕捉上下文中的多阶交互从而精准的进行目标识别。
技术领域
本申请涉及深度学习多模态视频处理领域,尤其涉及一种多阶特征交互的目标检测模型及其构建方法、装置及应用。
背景技术
多模态指的是多种模态的信息,包括:文本、图像、视频、音频等,它像人类利用视觉、嗅觉、味觉、听觉等多感官理解现实世界一样,充分利用文本、图像、语音和视频等多种模态来进行学习,这就是多模态学习,在信息飞速发展的今天,多模态数据已经成为近年来数据来源的主要形式,在互联网时代,在搜索引擎中使用文本(关键词)来搜索图片、视频,或以图搜图,以图搜视频等都是使用多模态数据进行模型训练的应用,当然,以文本到图像、以视频到文本、以文本到视频等生成任务也可以用多模态数据进行模型训练来得到。
zero-shot表示0样本学习的模型训练方法,其利用训练数据集来对模型进行训练,使得模型能够对测试集的对象进行分类,且训练数据集合测试集在类别之间没有任何交集,在对测试集的对象进行分类时需要借助类别的描述来建立训练数据集合和测试集之间的联系,从而使得模型有效,比如:假设我们的模型已经能够识别马、老虎了,现在需要该模型也识别斑马,但并不能让模型通过斑马的图像进行训练,那么我们就需要将斑马的描述来输入模型让其对斑马进行判断。
常规的目标检测模型如现在最为先进的YOLOv8为例,其更加倾向于关注低阶或高阶相互作用,忽略了最丰富的中阶特征交互,所以在一些场景下便容易造成一些误判,例如在检测出店经营方面,由于出店经营的场景复杂度高,并没有一个严格的判定标准,所以如果常规的目标检测模型忽略中阶特征交互则会导致误判的问题,从而影响后续目标类别的判定,所以,亟需一种在不忽略中阶特征交互的情况下可以对目标进行准确识别的方法。
发明内容
本申请方案提供一种多阶特征交互的目标检测模型及其构建方法、装置及应用,通过对YOLOv8中的头部网络进行改进,使得模型可以更好的捕获中间阶特征,提高目标检测的准确率。
第一方面,本申请提供一种多阶特征交互的目标检测模型的构建方法,包括:
获取包含待检测目标的至少一待检测图像,所述待检测图像进行标记后送入构建好的多阶特征交互的目标检测模型中,使用所述多阶特征交互的目标检测模型对所述待检测图像进行检测得到检测目标框,所述多阶特征交互的目标检测模型以YOLOv8为原型,所述多阶特征交互的目标检测模型中的主干网络和颈部网络对所述待检测图像进行处理得到待检测图像特征,在所述多阶特征交互的目标检测模型的头部网络中使用空间聚合模块对所述待检测图像特征的上下文信息进行聚合得到空间聚合结果,再使用通道聚合模块对所述空间聚合结果进行聚合得到通道聚合结果,对所述通道聚合结果进行输出得到检测目标框;
所述空间聚合模块由归一化层、卷积层、池化层、激活层、多阶门控聚合模块依次串联组成,所述归一化层对待检测图像特征进行归一化得到空间归一结果,将空间归一结果输入到卷积层中得到空间卷积特征,所述池化层对空间卷积特征进行全局平均池化得到空间池化特征,使用所述空间卷积特征减去所述空间池化特征再与缩放因子进行点积得到空间缩放特征,所述缩放因子为模型参数,将所述空间缩放特征与所述空间卷积特征进行元素级相加得到空间相加特征,所述激活层对所述空间相加特征进行激活输出得到空间激活特征;
所述多阶门控聚合模块对所述空间激活特征进行聚合得到空间门控聚合结果,将所述空间门控聚合结果与所述待检测图像特征进行元素级相加得到所述空间聚合结果,所述空间聚合结果经过通道聚合模块得到通道聚合结果,对所述通道聚合结果进行卷积输出得到检测目标框。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于城云科技(中国)有限公司,未经城云科技(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310159962.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车制动钳性能模拟测试设备
- 下一篇:一种具有收集功能的皮革加工用开槽机