[发明专利]一种在相机失焦情况下的数字检测识别方法有效
申请号: | 202011070896.2 | 申请日: | 2020-10-09 |
公开(公告)号: | CN112183650B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 吴书涵;吴泳 | 申请(专利权)人: | 青岛中瑞车云工业互联网科技有限公司 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/80;G06V20/62;G06V30/146;G06V30/18;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 青岛海誉知识产权代理有限公司 37421 | 代理人: | 唐修豪 |
地址: | 266199 山东省青岛市李*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 相机 情况 数字 检测 识别 方法 | ||
1.一种在相机失焦情况下的数字检测识别方法,其特征在于,所述方法包括以下操作:
S1、构建带有数字位置和内容标注的数据集;具体为:每个场景下采集5张失焦图像和1张对焦正确的图像,并标注图像中数字的位置和内容;对采集的数据集进行数据增强处理;生成一串固定长度的随机数字,将随机数字转化为图像,拼接到随机背景上,同时生成图像中数字的位置和内容,并对每一张生成图像通过卷积操作进行失焦处理;所述通过卷积操作进行失焦处理具体为:
生成1-7之间的随机整数R,R为卷积核的半径,并生成1-2之间的随机数σ,生成卷积核:
其中,r为(x,y)到卷积核中心的距离,G(x,y)为初步得到的卷积核,F(x,y)为进行归一化处理之后的卷积核,将F(x,y)和生成的图像进行卷积操作,得到失焦图像;
S2、搭建二级卷积神经网络,进行特征提取、特征融合以及失焦修正得到失焦修正后的图像,再提取位置特征,对位置特征进行修正,识别数字内容和位置;
S3、将采集和生成的数据集训练所述二级卷积神经网络;
S4、在应用时,将图像输入到二级网络中,得到网络输出的数字位置和内容。
2.根据权利要求1所述的一种在相机失焦情况下的数字检测识别方法,其特征在于,所述二级卷积神经网络中,第一级为失焦修正网络,第二级为数字定位与识别网络;所述失焦修正网络包括特征提取模块、特征融合模块以及失焦修正模块;所述数字定位与识别网络包括位置特征模块、位置参数模块、位置修正模块以及数字识别模块。
3.根据权利要求2所述的一种在相机失焦情况下的数字检测识别方法,其特征在于,所述特征提取模块的输入为5张失焦图像,输出为各个失焦图像的特征图;所述特征融合模块的输入为5张失焦图像的特征图合并后的总特征图,输出为融合后的特征图;所述失焦修正模块的输入为5张失焦图像的平均值和融合后的特征图合并后的结果,输出为失焦图像平均值的修正值。
4.根据权利要求2所述的一种在相机失焦情况下的数字检测识别方法,其特征在于,所述位置特征模块的输入为失焦修正网络的输出,输出位置特征图;所述位置参数模块的输入为位置特征图,输出维度为4的数字位置参数φ,通过使用区域池化操作根据数字位置参数截取位置特征图,生成位置修正特征图;所述位置修正模块的输入为位置修正特征图,输出维度为4的数字位置修正参数δφ,通过计算得到每个数字的位置参数,使用区域池化操作根据每个数字的位置参数截取合并特征图,生成数字特征图;所述数字识别模块的输入为数字特征图,输出为one-hot编码的预测向量。
5.根据权利要求4所述的一种在相机失焦情况下的数字检测识别方法,其特征在于,所述使用区域池化操作根据数字位置参数截取位置特征图具体为:
根据输入的矩形框参数在特征图中截取相应的区域,并将区域划分为10*5C个感受野,在每个感受野中选取距离相等的4个点,坐标为(xi,yi),i=1,2,3,4,对于每个点(xi,yi)根据以下公式计算该点的采样值:
其中,Si为坐标(xi,yi)处的采样值,表示向上取整,表示向下取整,f(x,y)为特征图在坐标(x,y)处的值,感受野的输出根据以下公式计算:
Soutput=max{S1,S2.S3,S4}。
6.根据权利要求4所述的一种在相机失焦情况下的数字检测识别方法,其特征在于,所述通过计算得到每个数字的位置参数具体为:
φ′=φ+δφ
其中,φ′为修正后的数字位置,φ为数字位置参数,δφ为数字位置修正参数。
7.根据权利要求2所述的一种在相机失焦情况下的数字检测识别方法,其特征在于,所述二级卷积神经网络的损失函数为:
L=L1+L2+L3+L4
式中,L1为失焦修正网络的损失函数,Ximg为失焦修正网络的输出,Yimg为对焦正确的图像,⊙表示矩阵点乘,Ymask为根据数字位置信息生成的掩码;
L2=IOU(Ymask,Xmask)
其中,Ymask为根据标注的数字位置信息生成的掩码,Xmask为根据位置参数模块输出的数字位置参数φ生成的掩码;
L3=IOU(Ymask,X′mask)
其中,Ymask为根据标注的数字位置信息生成的掩码,X′mask为根据修正后的数字位置φ′生成的掩码;
其中,Ynum为one-hot编码的数字标注真实值,Xnum为one-hot编码的数字预测值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛中瑞车云工业互联网科技有限公司,未经青岛中瑞车云工业互联网科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011070896.2/1.html,转载请声明来源钻瓜专利网。