[发明专利]一种基于深度神经网络的开集目标检测与识别方法有效
申请号: | 202111527240.3 | 申请日: | 2021-12-14 |
公开(公告)号: | CN114241260B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 朱敏;明章强;杨勇;程俊龙;高承睿;李龙兴;李希垚 | 申请(专利权)人: | 四川大学 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/762;G06V10/764;G06V10/766;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 成都禾创知家知识产权代理有限公司 51284 | 代理人: | 刘凯 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 神经网络 目标 检测 识别 方法 | ||
本发明公开了一种基于深度神经网络的开集目标检测与识别方法,首先构造常见已知类别的图像作为训练集,然后设计一种UOD,利用改进的RPN保留对未知类别的检测能力,对未知类别赋予unknown标签;再增加对比聚类损失减少类内距离增大不同类别间的距离,引入韦布尔分布对不同类别的概率密度函数进行建模,区分已知和未知类别对象;并利用特征聚类的方式对未知类别对象进行初步分类和生成伪标签,最后提出改进的zero‑shot方案,对未知类别进行超类划分,利用CLIP方法先识别出未知类别的粗糙标签,再在粗糙标签对应的精细标签中识别出对应未知对象的类别。本发明能够用于对开放世界未经训练的对象进行检测,并实现了对未知类别的zero‑shot预测,减少了人工标注和网络更新的成本。
技术领域
本发明涉及目标检测识别和智能监控技术领域,具体为一种基于深度神经网络的开集目标检测与识别方法。
背景技术
训练集和测试集中的对象都属于已知具体类别的检测任务属于闭集检测任务。相反地,当训练集中的对象属于已知类别,测试集中的对象属于未知类别的检测任务属于开集检测任务。传统的检测任务大多属于闭集检测任务,只能对已知类别进行检出,但现实世界中包含的对象很多不属于训练数据集中的类别,即需要对未知类别进行检测。开放世界的目标对象是典型的开集类别,即开放世界的目标检测与识别也是典型的开集目标检测和识别任务。一方面开放世界未知类别种类繁多,且随着场景的不同会出现新的未知类别;另一方面,存在不确定的和其他(混合)目标不包含标签,常规分类器无法对其进行分类识别(未能正确区分已知类别和未知类别)。
与开放世界的目标种类相比,目前公开的标准大规模目标检测与识别的数据集,如Pascal VOC和MS-COCO等标注的类别的数量仍然相对较少,对未知类别的检测和识别需要模型具有很强泛化能力,或者使模型具有自学习能力能够自动更新对新引入类别的检测和识别。先前的研究者通过利用支持向量机(SVM)和深度学习模型尝试解决这一挑战性的问题。也有研究者通过引入一个新的模型层称作OpenMax,提出了一种使深度网络适应开放集识别的方法。OpenMax层估计输入来自未知类的概率,估计未知概率的一个关键要素是使元识别概念适应网络倒数第二层的激活模式。OpenMax允许拒绝呈现给系统的“欺骗”和不相关的开放集图像,OpenMax大大减少了深度网络产生的明显错误的数量。但这类方法只是对已知类别和未知类别进行分类,不太适应开放识别对象的检测。因此如何像在封闭世界检测已知类别那样检测和识别开放世界的未知类别,依然是一个值得研究的问题。
针对上述问题,开放世界目标检测的需求可归纳为以下几点:(1)正确检测出并识别常见的乱堆物料子类,防止乱堆物料类别检测结果的误报,即确保乱堆物料检测识别的准确率,在没有明确监督的情况下将尚未引入的乱堆物料子类识别为“unknown”,而不是将其归纳为现有的子类;(2)保留未标注乱堆物料的检测能力(不能将未知对象检测作为背景),即虽然有些乱堆物料前期未对其进行标注分类,但需要保留对其的检出能力;(3)如果在逐渐接收到相应乱堆物料的标签时,模型可以逐步学习这些已识别的未知类别,而不会遗忘先前学习的类别,即能够自适应的学习标注的未知类别。
发明内容
针对上述问题,本发明的目的在于提供一种基于深度神经网络的开集目标检测与识别方法,能够用于对开放世界未经训练的对象进行检测,并实现了对未知类别的zero-shot预测,减少人工标注和网络更新的成本,解决真实识别场景下的检测和识别问题。技术方案如下:
步骤1:构造常见已知类别的图像作为训练集,对于未知类别统一设置标签为“unknown”,并利用Faster R-CNN作为基准网络训练模型;
步骤2:设计一种未知目标检测器,所述未知目标检测器利用改进的RPN同时保留检测图像的前景和背景,将改进的RPN检测到的高于预设对象分数但不属于已知类别的提议边界框标记为未知类别,从而保留对未知类别的检测能力;
步骤3:增加对比聚类损失以减少类内距离,并增大不同类别间的距离;引入韦布尔分布以对不同类别的概率密度函数进行建模,用以区分已知类别和未知类别对象;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111527240.3/2.html,转载请声明来源钻瓜专利网。