[发明专利]基于视觉检测和重识别的多源两阶段菜品识别方法有效

专利信息
申请号: 202110441072.X 申请日: 2021-04-23
公开(公告)号: CN113033706B 公开(公告)日: 2022-04-29
发明(设计)人: 钟必能;程思远;李先贤;刘昕 申请(专利权)人: 广西师范大学;中科视拓(南京)科技有限公司
主分类号: G06V10/764 分类号: G06V10/764;G06K9/62;G06N3/04;G06V10/774;G06V10/44
代理公司: 桂林市华杰专利商标事务所有限责任公司 45112 代理人: 覃永峰
地址: 541004 广西壮*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 视觉 检测 识别 多源两 阶段 菜品 方法
【权利要求书】:

1.一种基于视觉检测和重识别的多源两阶段菜品识别方法,其特征在于,包括训练流程和测试流程,其中训练流程包括如下步骤:

1-1)建立餐盘检测数据集:在真实的不同餐厅和食堂环境中采集餐盘检测数据集,餐盘检测数据集中每张图片中的托盘上的餐盘中都有盛着不同菜品、或菜品以外的其它物品或空餐盘,餐盘的图片采用垂直向下视角进行图像采集,对采集的图像进行标注,标注包括采集的图像矩形边框的旋转角度、餐盘的颜色、餐盘的形状和菜品的名称,将餐盘检测数据集分为训练集和测试集,测试集中餐盘中的菜品种类不包含在训练集中餐盘中的菜品种类中;

1-2)训练全方位餐盘检测器:首先定义全方位餐盘检测器,全方位餐盘检测器采用旋转的边界框来定位餐盘,全方位餐盘检测器为单阶段检测器即能够一次性预测出目标的位置和类别、并且参数量小于10M,全方位餐盘检测器采用图片的长边为计算角度的参考轴、设为h,图片的短边表示为w,以水平线为参考,设逆时针方向为正方向、角度的定义域为[0°,180°],将角度预测作为一个包含180个类别的分类任务,其中180个类别对应180度的分类任务,全方位餐盘检测器的训练过程为:全方位餐盘检测器的检测模型以Yolo v5为基准模型进行训练,训练全方位检测器的训练样本从步骤1-1)得到的训练集中选取,训练样本类别总数为3类,包括餐盘类、空盘类、饮料类,然后再加上旋转边界框的中心点位置、宽、高、旋转角度这些在训练过程中使模型要去拟合的对象,每次输入一个批次的图片,一个批次含有16张图片,然后对这些图片进行尺度处理即将这些图片的长边缩放到480像素,再对短边不足480像素的部分用黑色填充,就得到了尺寸为480*480像素的一批次图片,接着将这些处理好的图片输入到模型中,输出得到网络的预测值,包括目标类别、边界框的中心点、宽、高、旋转角度,然后,将这些预测值与真实值进行损失计算即采用如公式(1)所示损失函数对目标类别预测、旋转角度预测进行优化:

其中,L代表损失函数,y*表示角度的真实值,表示预测的角度值,α和γ是用来平衡正负样本的参数,然后采用如公示(2)所示损失函数对边界框中心点、宽、高预测进行优化:

其中,Liou为损失函数,IoU为预测边界框和真实边界框的交并比,A为预测边界框的面积,B为真实边界框的面积,S为将A和B包围在里面的最小封闭形状的面积;

1-3)构建菜品重识别数据集:将餐盘检测数据集中的所有图片里盛有餐品的餐盘按照所标注的边界框裁剪保存,并且记录下所裁剪图片中对应的菜品的名称构成菜品重识别数据集,菜品重识别数据集共包含18870张菜品图片,然后将所有的图片分成训练集和测试集两部分;

1-4)训练餐盘形状识别模型:对每一个餐盘的图像进行了有规则的数据增强即将分类模型的输入设置为224*224,在调整大小之前先对图像进行填充:将每一个餐盘的图像的长边缩放到224像素,并且用黑色像素填充短边不足224像素的部分,得到224*224像素的图片,然后将处理好的图片作为分类模型的输入数据,分类模型包括多尺度的特征提取网络和分类头网络,首先定义如下:

卷积块1的输入为通道数为C的特征向量,包括顺序连接的特征输出通道数为6C的卷积核尺寸为1*1的卷积层、批归一化层、Swish激活函数、卷积核尺寸为k*k的深度可分离卷积层,作通道相乘操作的批归一化层、Swish激活函数、池化层、全连接层-作用为降维、Swish激活函数、全连接层-作用为升维、Sigmoid激活函数、特征输出通道数为C的卷积核尺寸为1*1的卷积层、批归一化层、随机丢弃层,其中,最后一个随机丢弃层的输出特征与卷积块1最开始的输入特征作累加操作,以及k的值在使用时候确定;

卷积块2的输入为通道数为C的特征向量,包括顺序连接的特征输出通道数为C的卷积核尺寸为3*3的深度可分离卷积层、批归一化层、Swish激活函数、作通道相乘操作的池化层、全连接层、Swish激活函数、全连接层、Sigmoid激活函数、卷积核尺寸为1*1的卷积层、批归一化层;

卷积块3的输入为通道数为C的特征向量,包括顺序连接的特征输出通道数为6C的卷积核尺寸为1*1的卷积层、批归一化层、Swish激活函数、作通道相乘操作的卷积核尺寸为k*k的深度可分离卷积层,批归一化层、Swish激活函数、池化层、全连接层、Swish激活函数、全连接层、Sigmoid激活函数、特征输出通道数为C的卷积核尺寸为1*1的卷积层、批归一化层,其中k在不同地方取不同的值,

所述多尺度的特征提取网络为顺序连接的输出为尺寸为112*112*16卷积块2、卷积核尺寸为3*3的卷积层、批归一化层、输出为尺寸为56*56*24激活函数、卷积块3-其中参数k为3、输出为尺寸为28*28*40卷积块1-其中卷积块3中的参数k为3、卷积块3-其中卷积块3中的参数k为5、输出为尺寸为14*14*80卷积块1-其中卷积块3中的参数k为5、卷积块3-其中卷积块3中的参数k为3、卷积块1-其中卷积块3中的参数k为3、卷积块3-其中卷积块3中的参数k为3、输出为尺寸为14*14*112卷积块1-其中卷积块3中的参数k为3、卷积块3-其中卷积块3中的参数k为5、卷积块1-其中卷积块3中的参数k为5、卷积块3-其中卷积块3中的参数k为5、卷积块1-其中卷积块3中的参数k为5、卷积块3-其中卷积块3中的参数k为5、卷积块1-其中卷积块3中的参数k为5、卷积块3-其中卷积块3中的参数k为5、卷积块1-其中卷积块3中的参数k为5、卷积块3-其中卷积块3中的参数k为5、输出为尺寸为7*7*192卷积块1-其中卷积块3中的参数k为5、输出尺寸为7*7*320卷积块3-其中卷积块3中的参数k为3、卷积核尺寸为3*3的卷积层、批归一化层、7*7*1280Swish激活函数,多尺度特征提取网络的输入是尺寸为224*224*3的图片;

所述分类头网络包括顺序连接的全局池化层、随机失活层、全连接层1024*n,其中,1024表示输入全连接层的特征通道数,n表示全连接层输出的特征通道数,此处n的值为餐盘形状的种类数,分类头网络的输入是尺寸为7*7*1280特征向量,在餐盘检测数据集中预定义6种形状进行分类,即圆形、正方形、三角形、椭圆形、菱形和桶形形状分类,分类模型的输出是一个尺寸为1*n的向量,n表示为类别数量,这个向量表示的含义是对应每个类别分类模型给出的预测分数值,预测分数最高的那个类别为分类模型预测的分类结果,将分类模型的输出和真实形状值进行比较,并采用交叉熵损失函数来进行优化预测,直到交叉熵损失函数收敛;

1-5)训练菜品重识别模型:菜品重识别模型结构包括主干网络和与主干网络连接的特征映射头网络及属性预测头网络,其中,主干网络为MobileNetV2特征映射头网络包括顺序连接的自适应平均池化层、批归一化层、全连接层,属性预测头网络包括顺序连接的全局平均池化层、批归一化层、全连接层,菜品重识别模型训练时,给定餐盘图像,先将图像缩放到224*224像素输入到主干网络中得到主干网络的输出即图片的特征,将此输出分别再输入到特征映射头网络和属性预测头网络,将特征映射头网络的输出和真实菜品种类进行计算损失,将属性预测头网络得到的输出,和真实餐盘形状和颜色进行计算损失,这两个损失都采用交叉熵损失函数进行优化,重复此训练过程一直到交叉熵损失函数收敛,对标签作平滑的操作,如公式(3)所示:

其中P是平滑操作后的标签,ε是人为设定的超参数,K表示多分类的类别总数,i表示当前所选的类别值,y表示此标签的真实类别值;

所述测试流程是将步骤1-1)得到的餐盘检测数据集中的测试集作为测试样本包括如下步骤:

2-1)注册菜品:将所有种类的菜品进行一次注册,首先采用全方位餐盘检测器检测出餐盘的位置,然后将按照检测出的餐盘区域边界框范围把餐盘区域裁剪出来分别输入到餐盘形状识别模型和菜品重识别模型中,从餐盘形状识别模型输出得到餐盘形状,从菜品重识别模型输出得到菜品图片特征,从而得到餐盘形状信息以及菜品图片的特征,将菜品的特征、餐盘的形状信息保存在数据库即注册库中;

2-2)定位餐盘:采用分辨率为1920*1080的固定相机,采用垂直向下视角进行对餐盘的图像采集,然后得到图片,再将图片输入到全方位餐盘检测模型中,输出得到餐盘、空盘、饮料的边界框位置,然后裁剪下餐盘的图片并将裁剪下餐盘的图片保存以待后续流程使用;

2-3)预测餐盘形状:将裁剪得到的餐盘图片输入到餐盘形状识别模型中,预测得到餐盘的形状类别;

2-4)提取重识别特征:将裁剪得到的餐盘图片输入到菜品重识别模型中,输出得到菜品图片的特征并保存;

2-5)计算余弦距离及排序:对注册库中的菜品以步骤2-3)得到的餐盘形状类别为约束粗筛选一次即选出注册库中满足此餐盘形状的菜品,然后再计算步骤2-4)得到的特征与筛选后的注册库中菜品特征之间的余弦距离,最后将这些计算得到的余弦距离按照值从小到大进行排序;

6)得到预测菜盘:最终,将步骤2-5)排好序的余弦距离取最小的距离的那个菜品中类则作为最终识别结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学;中科视拓(南京)科技有限公司,未经广西师范大学;中科视拓(南京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110441072.X/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top