[发明专利]一种移动式面向2D图像的3D河蟹实时检测方法有效
申请号: | 202011064927.3 | 申请日: | 2020-09-30 |
公开(公告)号: | CN112215116B | 公开(公告)日: | 2022-06-24 |
发明(设计)人: | 赵德安;曹硕;孙月平;戚浩;盛亮;石子坚;潘望俊;周文全 | 申请(专利权)人: | 江苏大学;常州市金坛区水产技术指导站 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V10/26;G06V10/44;G06V10/82;G06T7/60;G06T7/70;G06N3/04 |
代理公司: | 南京智造力知识产权代理有限公司 32382 | 代理人: | 张明明 |
地址: | 212013 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 移动式 面向 图像 河蟹 实时 检测 方法 | ||
1.一种移动式面向2D图像的3D河蟹实时检测方法,其特征在于,包括以下步骤:
步骤1,通过安装在自动投饵船下方的CMOS摄像头进行俯拍,随船运动,连续采集能够反映河蟹自然生活状态的水下二维RGB图像;
步骤2,利用新颖的标注工具以3D矩形边界框方式,快速标记采集的真实2D视频帧/图像数据中的河蟹,并与利用增强现实会话数据合成的具有3D边界框、分割和坐标图标签的3D数据,共同建立具有标注姿态且形状多变的河蟹数据集;
步骤3,构建超轻量型单阶3D河蟹检测模型,采用高斯中心分布仅从单个RGB图像出发,在编码器-解码器架构提取特征后,采用形状、检测和回归相辅的多任务联合学习方式预测未知河蟹的2D边界框;再通过完善的姿态估计算法EPnP,将2D预测扩展到3D边界框以估计河蟹的姿态和物理尺寸,该3D检测模型主要由主干网、预测头和后处理三部分构成,具体如下:
步骤3.1,以编码器-解码器架构作为3D河蟹检测模型的主干,并选择超轻量的MobileNetV3来构建主干网络的编码器;
步骤3.2,在主干网络后的预测头采用多任务联合学习:形状预测、目标检测和回归任务,通过检测和回归共同预测河蟹的形状,预测的河蟹形状会在网络输出用于构建2D-3D的对应关系;
步骤3.3,后处理部分提取检测输出的峰值,利用完善的姿态估计算法EPnP,在无需先验了解河蟹尺寸的情况下恢复并最终获取河蟹的3D黏连边界框,然后基于获取的3D黏连边界框,可以估算河蟹的姿态和大小;
步骤4,采用建立的河蟹数据集在TensorFlow框架中训练3D河蟹检测模型,使用Adam优化器更新和计算影响模型训练和模型输出的网络参数,使其逼近或达到最优值,从而训练出最优的模型实现未知河蟹快速精准的3D检测和大小测量;
步骤5,为了能够在自动投饵船上部署训练的3D检测模型,将其转换为TFLite模型,并在转换过程中删除一些推理计算不需要的层。
2.根据权利要求1所述的一种移动式面向2D图像的3D河蟹实时检测方法,其特征在于,所述步骤2训练数据的具体建立过程为:标注工具使用分屏视图显示2D视频帧,左边是3D边界框,右边是3D点云、摄像机位置和检测到的平面视图,标注者在3D视图中绘制3D边界框,并通过查看2D视频帧中的投影来验证其位置,而对于静态目标,标注者只需要在单帧中对目标进行注释,然后利用增强现实会话数据中的真值相机姿态信息将其位置更高效传播到所有帧,最终建立相互补充的数据集,即在不同位置采集的具有3D边界框的真实图像数据、具有准确且完整标签的合成3D数据以及含有大量目标和分割标签的合成2D数据,以一种低成本的方式准备2D和3D标签训练数据。
3.根据权利要求1所述的一种移动式面向2D图像的3D河蟹实时检测方法,其特征在于,所述步骤3.1中超轻量型主干的具体架构为:编码器-解码器架构,其中编码器由基于MobileNetV2的线性瓶颈残差结构和MnasNet的挤压-激励注意力建立的MobileNetV3结构快组成,解码器由反卷积、级联和具有激励-挤压注意力机制的线性瓶颈残差结构组成。
4.根据权利要求1所述的一种移动式面向2D图像的3D河蟹实时检测方法,其特征在于,所述步骤3.2中多任务联合学习的具体过程为:(a)形状预测任务根据可用的分割真值注释预测形状特征,以弱监督的方式引入高分辨率形状预测改善河蟹姿态估计;(b)目标检测任务根据带注释的边界框将目标建模为高斯分布,通过寻找峰值来检测河蟹;(c)回归任务根据边界框顶点的位移场来估计矩形边界框八个边界框顶点的2D投影。
5.根据权利要求1所述的一种移动式面向2D图像的3D河蟹实时检测方法,其特征在于,所述步骤3.3中后处理部分提取检测输出的峰值,利用完善的姿态估计算法EPnP的具体操作为:提取目标检测任务输出的峰值,即热图,计算3D边界框的投影顶点;根据投影的2D框顶点和相机内在函数,采用EPnP算法按比例恢复3D黏连边界框,然后进一步估算目标的姿态和尺寸。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学;常州市金坛区水产技术指导站,未经江苏大学;常州市金坛区水产技术指导站许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011064927.3/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序