[发明专利]一种适用于单目3D目标检测任务的半监督学习方法有效
申请号: | 202210166805.8 | 申请日: | 2022-02-23 |
公开(公告)号: | CN114581350B | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 李骏;杨磊;张新钰;王力;吴新刚 | 申请(专利权)人: | 清华大学 |
主分类号: | G06T5/50 | 分类号: | G06T5/50;G06T7/11;G06T7/12;G06T11/40;G06V10/762;G06V10/774 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 张建纲 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 适用于 目标 检测 任务 监督 学习方法 | ||
1.一种适用于单目3D目标检测任务的半监督学习方法,所述方法包括:
基于标注数据训练初始教师模型,根据得到的教师模型进行面向数据库的伪标签生成和基于合成图像的学生模型训练,将本轮次训练所得到的学生模型作为下一轮次的教师模型,如此迭代进行多轮次训练直至达到训练要求,得到训练好的学生模型即为单目3D目标检测模型;在训练中采用目标边界框位置不确定度估计方法过滤噪声伪标签,进一步提升半监督训练效果;
所述目标边界框位置不确定度估计方法具体包括:
步骤s1)对于不同参数相同结构的N个教师模型,针对同一帧图像数据,得到M个检测框;
步骤s2)设置列表B包含所有教师模型的M个三维边界框,设置列表S存储与每个三维边界框对应的分类置信度;
步骤s3)设置三个空列表G、H和U,其中,列表G用于保存三维边界框聚类,每个聚类代表N个同构异参模型对图像上同一的目标对象的检测结果,列表H用于保存每个聚类中置信度分数最高的三维边界框,列表U用于保存列表H中每个三维边界框对应的位置不确定度;
步骤s4)依次遍历列表B中的每一个三维边界框bi,当IoU3D(bi,bm)≥thr,则转至步骤s5),当IoU3D(bi,bm)<thr,若已遍历完毕列表B,转至步骤s6),否则继续执行步骤s4),其中,IoU3D表示三维目标框交并比,bm为列表B中置信度最高的边界框,thr为交并比阈值;
步骤s5)判定bi属于当前聚类C,将bi由列表B转移到聚类C,列表S作相应更新,当列表B不为空则转至步骤s4),否则转至步骤s7);
步骤s6)将当前聚类C加入到列表G,重新选取列表B中置信度最高的边界框bm,将bm由列表B转移至列表H,列表S同步更新,基于框bm初始化新的聚类C,当列表B不为空则转至步骤s4),否则转至步骤s7);
步骤s7)计算列表G中每个聚类C的不确定性u,并将计算结果加入至列表U;
步骤s8)返回位置不确定度列表U和对应边界框列表H。
2.根据权利要求1所述的适用于单目3D目标检测任务的半监督学习方法,其特征在于,所述根据得到的教师模型进行面向数据库的伪标签生成具体包括:
使用教师模型通过类别执行度和边界框位置不确定度筛选高质量伪标签,创建由实例图像块和对应伪标签组成的实例数据库;
筛选不包含任何检测结果的未标注数据作为背景图像,创建背景数据库;
基于实例数据库和背景数据库构建合成图像。
3.根据权利要求2所述的适用于单目3D目标检测任务的半监督学习方法,其特征在于,所述基于实例数据库和背景数据库构建合成图像;具体包括:
对实例数据库中的图像块进行预处理实现图像增强;
将预处理后的图像块以贴图方式融合到有标签图像,或将预处理后的图像块以贴图方式融合到来自背景数据集的背景图像。
4.根据权利要求3所述的适用于单目3D目标检测任务的半监督学习方法,其特征在于,所述预处理具体包括:
按一定比例剪切实例图像块的水平边框边缘区域和垂直边框边缘区域;
和/或按一定比例用随机颜色填充实例图像块的水平边框边缘区域和垂直边框边缘区域;
和/或将实例图像块与有标签图像之间进行随机权重的加权平均以实现混合;
和/或将实例图像块与背景图片之间进行随机权重的加权平均以实现混合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210166805.8/1.html,转载请声明来源钻瓜专利网。