[发明专利]一种基于计算机视觉的仓储货物数量估算方法在审
申请号: | 202211298789.4 | 申请日: | 2022-10-24 |
公开(公告)号: | CN115661747A | 公开(公告)日: | 2023-01-31 |
发明(设计)人: | 张广渊;吴杰昊;李克峰;王朋;靳华磊;王国锋;赵峰 | 申请(专利权)人: | 山东交通学院 |
主分类号: | G06V20/52 | 分类号: | G06V20/52;G06V20/40;G06Q10/0875;G06V10/82;G06V10/26;G06V10/774 |
代理公司: | 济南帮友知识产权代理事务所(普通合伙) 37269 | 代理人: | 张华 |
地址: | 250357 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 计算机 视觉 仓储 货物 数量 估算 方法 | ||
1.一种基于计算机视觉的仓储货物数量估算方法,其特征为,包括三个步骤:
第一步、货物区域分割数据集与货物数量估算数据集构建;
建立基于固定位置摄像头的货物盘点图像采集系统,包括仓库内固定位置的摄像头m台;摄像头直接安装在仓库内预设的m个固定点位,记录仓库内货物的视频数据,并将记录的视频传输至计算机进行存储;摄像头的数量m由仓位数量决定,仓位数为n时,摄像头数量≥n/2;
选择其中a台摄像头所覆盖的2a个货物区域即仓位的视频进行实验,从货物视频数据中截取视频帧,并人工标注记录货物数量;
随后,由视频帧获得RGB颜色空间、jpg格式的货物图像;
对视频图像进行筛选,剔除相似度达到两张图片中有80%的位置像素值差值小于5的图像后,使用labelme数据标注工具对两种货物区域进行标注,获得包含左右仓位这2种语义信息、X张图片的语义分割数据集;图片张数X为不少于摄像头数100倍,即≥100M;
对分割出的X张图片进一步细分,并通过人工标记货物数量,构建覆盖2a个不同仓位、共2X条数据记录的货物数量估算数据集,并采用7:2:1的比例划分训练集、验证集与测试集;
第二步、用于货物区域分割的CSwin-Unet模型构建与训练;
通过语义分割算法构建货物区域分割模型,实现对货物区域的精确分割;
选用U-Net型语义分割模型中基于vision transformer(ViT)的Swin-Unet语义分割模型,U-Net结构包括encoder和decoder两部分,采用U-Net中的encoder-decoder结构以及跳连接对图像中每个像素分类,完成语义分割任务;
在encoder部分,使用ViT中的Swin transformer block结构进行特征提取,使用patchmerging进行下采样进行特征融合;
在decoder部分,同样采用Swin transformerblock对融合的特征进行解码,使用patchexpanding进行上采样恢复分辨率;
使用更精确的货物区域分割模型以及在模型训练时使用损失函数;
选择使用CSwin的block结构对Swin-Unet中的Swin block进行改进,构建CSwin-Unet语义分割模型;使用十字形状的自注意力窗口和局部增强的位置编码;
Cross-Shaped window将查询点周围横向、纵向两条自注意力区域拼接为十字形状的注意力窗口;
LePE通过深度卷积学习出value的位置信息,用残差的方式相加,嵌入到block中,假设对于特定的输入元素,最重要的位置信息来自附近,因此对位置编码进行局部增强,使用深度卷积算子实现,由此有
attention函数表示LEPE的自注意力函数,输入的Q为查询向量,K为索引向量,V为内容向量即value的值;Softmax为softmax函数,d为Q向量与K向量的转置的积的方差;depth_wise Conv(V)为对V向量进行深度可分离卷积的结果;
在对CSwin-Unet的训练上,首先使用COCO Stuff数据集对CSwin-Unet进行预训练,之后再对模型在构建的货物区域分割数据集上进行微调;
在微调时在交叉熵损失中加入像素位置权重(PPW),设置PPW损失函数,为距离相机视线中心越远的像素,赋予更大权重,交叉熵损失公式如下:
其中M为类别数,yc为样本预测值,类别相同取1,不同取0,pc为样本预测为类别c的概率;
Dice Loss来自一种用于评估两个样本区域相似性的度量函数Dice coefficient,Dice coefficient定义如下:
其中|X∩Y|为区域X和区域Y的交集,|X|,|Y|分别表示区域X和区域Y的元素个数,为保证分母重复计算后Dice的取值范围在[0,1]之间,将分子乘以2;由此DiceLoss的公式如下:
设置相机垂直视角45度,拍摄图像下边界位于相机正下方,此时图像中上下边界在世界坐标系中的距离与相机到下边界的距离相同,其中h为相机到图像下边界距离,w为图像左右边界在世界坐标系内的距离,灰色区域为相机视野范围;构建像素位置权重矩阵W,对其中元素进行最大最小值归一化并通过添加平滑系数k,其中任一元素w有:
在计算交叉熵损失时将权重矩阵与输出张量O和标签张量L进行点积获得基于像素位置权重的交叉熵损失并与DiceLoss结合构成PPWLoss:
PPW Loss=CEL(W×O,W×L)+LossDice(O,L),
使用此损失函数对模型进行微调,获得适用于货物区域分割数据集的分割模型;在进行货物数量估算时使用此模型进行货物区域的分割;
第三步、货物摆放与数量计算模型构建:
预先对图片中货物区域建模,构建货物单位掩码;通过对分割出的货物区域与掩码进行匹配,完成对单位货物的单元化并转换成在三维模型中对应的单元,此时构建出的每个单元为所有可见的货物;根据货物单元在三维模型中对应的位置将货物单元分为三类:位于角上的单元、位于棱上的单元、位于平面内部的单元;由此,图像问题被转换成三维数学模型的数学问题;
根据不同类型的货物单元应具备不同的物理特性,如:上层的单元下方必定有不可见的单位;角上的单元的三个侧面和上面必无其他单元;根据不同类型的货物单元的不同的物理特性在三维模型中构建出所有可确定的货物边界,填补出不可见的单位,对于无法确定的单元则穷举出所有可能情况;
根据摆放规则设计合理性损失函数,对每种可能的情况进行计算,追求合理性最优;
对于合理性损失函数,由于每个单元有6个面,而摆放规则要求货物的摆放由一侧开始摆放,摆满一个侧面后再摆放下一个侧面,或摆满一层再开始摆放下一层;因此对于一个存在的单元,该单元下层存在非掩码边界而有侧面空缺的单元,即下层未摆满的情况;或该单元本层存在非掩码边界而有侧面空缺的单元,即本层未摆满的情况,而该单元上方存在其他单元,该单元的损失值与该单元上方的单元数成正线性相关;
在计算合理性损失时,首先根据已存在的单元的行、列、层的数量,判断摆放方向,每种摆放方向需要计算对应的两个侧面的损失;如当层数小于行数和列数时,判定为沿层摆放,需要对某个单元的上下两个面进行计算;下面的损失为下层缺失的单位数量乘以下方对应的权重;当本层未摆满时,上面的损失为上层存在的单位数量乘以上方对应的权重;由此对于此单元有合理性损失函数:
Loss=num(MAXlayer-n1)×w1+num(MAXlayer-n2)×w2
其中,MAXlayer为单层最大数量,n1为下层存在的单位数量,n2为上层存在的单位数量,w1为下层损失对应的权重,w2为上层损失对应的权重,当本层摆满时w2值为0;当摆放方向为沿行和沿列摆放时,计算的两个面为前后或左右的面,函数与该合理性损失函数相同;
对于一种摆放情况计算其中每个单元的合理性损失并相加获得此情况的合理性损失,选择穷举的所有情况中合理性损失最小的模型作为货物摆放模型并获得该货物摆放模型单元的数量为货物数量估算结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东交通学院,未经山东交通学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211298789.4/1.html,转载请声明来源钻瓜专利网。