[发明专利]一种基于神经网络的水下视频鱼类识别方法有效
| 申请号: | 202011319361.4 | 申请日: | 2020-11-23 |
| 公开(公告)号: | CN112418087B | 公开(公告)日: | 2023-06-09 |
| 发明(设计)人: | 纪庆革;魏兆基;陈寒阳;郭珊珊 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V20/40;G06V20/05;G06V10/82;G06N3/0464;G06N3/048;G06N3/096;G06T5/00;G06T7/11;G06T7/194 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 林梅繁 |
| 地址: | 510275 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 神经网络 水下 视频 鱼类 识别 方法 | ||
1.一种基于神经网络的水下视频鱼类识别方法,其特征在于,包括以下步骤:
(1)、训练神经网络模型;
得到的神经网络模型包括依次连接的输入层、第一卷积层、第二卷积层、第三卷积层、最大池化层、全连接层和输出层,输入层针对每个输入图像的每个通道各有一个输入层输出到第一卷积层;第一卷积层针对输入层中的每个通道,各有一层卷积层对不同通道的信息进行不同的特征提取后,进行特征图融合,再输出到第二卷积层;第二卷积层采用多重卷积的方法对不同尺度的目标提取到不同感受野的尺度,然后进行特征图融合、批归一化处理,输出到第三卷积层;第三卷积层采用卷积权重复用的方法,进行下采样和特征提取,最后输出至最大池化层;
(2)、将水下视频数据中彩色图像的每个通道及其灰度图像作为神经网络模型的输入数据;
(3)、在神经网络模型的输出端输出多个目标定位框及其置信度,根据置信度进行目标筛除;
步骤(1)中的训练包括:
S11、对学习率进行微调;
S12、输入当前帧图像的RGB三个通道以及灰度图通道,对这4个输入通道分别进行处理后再融合;
S13、对于不同通道的输入设置不同的卷积核大小;
S14、在训练时灰度图通道的输出权重高于RGB三个彩色图像通道的输出权重;
S15、设置浅卷积层和深卷积层信息相融合的层;
S16、使用视频抽帧训练。
2.根据权利要求1所述的水下视频鱼类识别方法,其特征在于,所述识别方法还包括步骤:
(4)、参考相邻帧的识别结果,矫正当前帧的识别结果。
3.根据权利要求1所述的水下视频鱼类识别方法,其特征在于,神经网络模型的第一卷积层中,其中针对R、B通道和灰度图通道的卷积核大小设置为3*3,针对G通道的卷积核大小设置为1*1。
4.根据权利要求1所述的水下视频鱼类识别方法,其特征在于,神经网络模型的第一卷积层包括4个卷积层和1个特征图融合层,4个卷积层对RGB三个通道和灰度图通道分别进行卷积操作;特征图融合层对RGB三个通道的特征信息分别只提取最大值,将原来的通道压缩为1个通道,而对灰度图通道的特征信息分别提取最大值、平均值和最小值,将原来的通道压缩为3个通道;特征图融合层最后将得到的6个通道信息进行排列,即为最终的输出结果,输出到第二卷积层。
5.根据权利要求1所述的水下视频鱼类识别方法,其特征在于,步骤S12进行融合时,采用提取最大值的方式将RGB通道卷积后得到的通道分别压缩为1个通道,从而对应得到压缩后的3个通道;同时,采用提取最大值、平均值、最小值的方法,将灰度图通道卷积得到的通道压缩为3个通道;将上述6个通道排列在一起,得到融合后的输出。
6.根据权利要求1所述的水下视频鱼类识别方法,其特征在于,神经网络模型的第二卷积层包括3个卷积层和1个特征图融合层,3个卷积层的卷积核大小相同;从第一卷积层输入的特征图信息通过一个卷积层后,同时输出到特征图融合层和另一卷积层;另一卷积层也是同时输出到特征融合层和再一卷积层;再一卷积层则直接输出到特征图融合层;在特征图融合层,直接将3个卷积层的输出排列在一起,做批归一化处理,然后输出到第三卷积层。
7.根据权利要求1所述的水下视频鱼类识别方法,其特征在于,神经网络模型的第三卷积层包括用于进行下采样的卷积层和用于进行特征提取的卷积层,用于进行下采样的卷积层的输出作为用于进行特征提取的卷积层的输入,用于进行特征提取的卷积层的输出再反过来作为用于进行下采样的卷积层的输入,循环若干次后,用于进行特征提取的卷积层再输出至最大池化层。
8.根据权利要求1所述的水下视频鱼类识别方法,其特征在于,神经网络模型的输出层中,将整个神经网络模型的输出分割为若干小块,每个小块负责检测B个目标,每个目标用一个5元组(x,y,w,h,det)表示,x表示左上角x坐标在该小块中的相对位置,y表示左上角y坐标在该小块中的相对位置,w表示目标定位框的宽度,h表示目标定位框的高度,det表示目标识别的置信度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011319361.4/1.html,转载请声明来源钻瓜专利网。





