[发明专利]基于字符图像智能识别获得矿山井下设备位置的方法在审
申请号: | 202010114364.8 | 申请日: | 2020-02-25 |
公开(公告)号: | CN111401139A | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 巫乔顺;陈甫刚;尹业华;李云财;许斌;梁伟 | 申请(专利权)人: | 云南昆钢电子信息科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F16/29;G06N3/04;G06N3/08 |
代理公司: | 昆明正原专利商标代理有限公司 53100 | 代理人: | 徐玲菊;蒋文睿 |
地址: | 650302 *** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 字符 图像 智能 识别 获得 矿山 井下 设备 位置 方法 | ||
1.一种基于字符图像智能识别获得矿山井下设备位置的方法,其特征在于包括下列步骤:
1)在矿山井下铁轨旁,间隔安装若干个字符牌,每个字符牌上标注多个字符,将每个字符编号所对应的铁轨位置记录在生产调度中心的数据库中;
2)在矿井下的无人机车上安装图像采集设备,行驶中采集对应字符牌上标注的所有字符图像;
3)用开源图像处理库OpenCV中的VideoCapture类读取所采集的字符图像数据,帧率为每秒15帧,像素格式RGB三通道图像,原始像素为1024900;
4)对每帧图像数据进行常规的缩放和滤波预处理,其中:缩放处理是将图像尺寸进行缩或放,以减少深度学习网络模型数据处理量,加速每帧图像分割和识别速度,使用Lanczos算法将图像压缩成800600的像素,像素格式为RGB的彩色图像;图像数据滤波处理是对压缩后的图像存在的毛刺进行平滑处理,减少图像边缘特征毛刺,使图像更加清晰易于识别;
5)将预处理后的800600像素的图像交由U-Net网络进行检测,检测到图像中有8个字符的图像后,将该图像分割为8个不重叠的子图像,每个子图像中应含有1个字符;
所述U-Net网络为Encoder-Decoder网络结构,其中:Encoder网络用于卷积操作,Decoder网络用于上采样操作,Encoder网络为五层卷积网络结构,每层卷积网络结构的卷积核为 55,padding 为 0 ,striding 为 1,Decoder网络为五层卷积网络结构,每层卷积网络的卷积核为11,步长为1;
采用下列算法进行卷积操作和下采样操作:
5-1)卷积操作如下:将800600像素的图像经过五层卷积操作处理成780580的像素,用22的卷积核进行步长为2的池化操作成390290的像素;如此进行三次重复操作,得到图像为6045的像素;卷积操作公式如下:
式中X是图像数据, i和j是图像的大小,分别为800和600,W是卷积核,m和n是卷积核的大小,这里分别是5和5,s(i,j)是经过卷积操作后的新图像数据;
每做一次卷积操作后,都要使用激活函数进行非线性化计算,整个网络的激活函数使用Maxout激活函数,激活函数公式为:,其中,式中xT是网络神经元数值,Wij是卷积核值,i和j为卷积核中的坐标位置,k是图像的通道数,该图像是RGB彩色图像,k值为3,bij是每个神经元对应的常数,c是激活计算后的一个经验常数,初始值0, j是下标,是max Zij;
因卷积操作是线性操作,需使用损失函数进行非线性化处理,损失函数使用pixel-wise softmax,像素对应的输出单独做softmax,公式为:
,
式中x为二维平面上的像素位置,a为学习系数,初始值为1,w(x)是交叉熵中的权重项,pl(x) 表示x在真实label所在通道上的输出概率,c为常数项,初始值为0;
5-2)下采样操作如下:将卷积操作得到的像素为6045的图像送入Decoder网络,经过上采样操作后使图像长和宽均增加二倍成为12090的像素,重复Decoder网络上采样操作二次,图像成为480360的像素,再使用55 的卷积核进行卷积操作,得到图像为420300的像素,再用51的卷积核进行一次卷积操作,得到图像为400300的橡素,之后在进行一次上采样操作,恢复得到与原始图像相同的800600橡素;
5-3)对恢复的800600橡素图像进行全连接运算,得到单个字符在原始图像中的具体位置,将该位置用子图像的左上角坐标和右下角坐标表示;
所述全连接运算如下:全连接主要输出8个字符图像的位置,每个图像坐标由左上角和右下角共4个值组成,8个图像共32个输出值;图像是800600的二维数组,按行转成一位数组,长度480000,然后用32组长度为48000的一维数组参数与图像一位数组像素值相乘求和,在加一个截距参数,得到的32个值就是8个字符的坐标位置;
全连接计算公式:
式中xi是32个坐标值,i取值从1到32,anm是图像一维数组,wi是一维数组参数,长度n*m,ci是截距参数,wi和ci都是可学习参数,n和m分别是源图像的长和宽,即n是800,m是600;
6)分类识别:对步骤5)分割出的含有单个字符的子图像,分别交由卷积神经网络依次进行分类识别,每个子图像识别一次,得到一个字符值和可信值,共进行8次分类识别,得到8个字符值和8个对应的可信值,且每个可信值均大于90%;
所述卷积神经网络结构共8层,其中:1-3层网络使用9类卷积核提取9种特征,每类卷积核为33,4-6层网络使用12类卷积核,每个卷积核为33,第7层卷积核使用1024类卷积核,每个卷积核为11,第8层是全连接层,输出62个可信值,可信值最大的位置对应的字符就是识别出来的字符值;
每个卷积操作后都要使用激活函数进行非线性操作,激活函数使用指数线性单元ELU函数;
7)将得到的8个字符值通过无线网络实时传输给生产调度中心,以字符编号为查询条件,在数据库系统里面查阅出具体位置,即可确定该无人机车在井下的位置,实现矿井下无人机车定位,同时自动保存识别结果概率值低的图像数据,每月将保存的图像进行针对性训练,训练达到99.89%的准确率在更新生产上的网络模型,达到持续学习的目的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南昆钢电子信息科技有限公司,未经云南昆钢电子信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010114364.8/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序