[发明专利]一种基于纯视觉的免门禁无人商店结账方法在审
申请号: | 202110130277.6 | 申请日: | 2021-01-29 |
公开(公告)号: | CN112906759A | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 李治军;张倩倩 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/00;G06N3/04 |
代理公司: | 哈尔滨市阳光惠远知识产权代理有限公司 23211 | 代理人: | 张宏威 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视觉 门禁 无人 商店 结账 方法 | ||
1.一种基于纯视觉的免门禁无人商店结账方法,其特征是:包括以下步骤:
步骤1:训练动作判别模型,对于一个场景确定顾客拿、取或者放回的动作;
步骤2:搭建卷积神经网络模型,对产品图片进行学习训练,进行预测分类测试图片,检测手中的商品类型;
步骤3:建立商品与顾客的相对关系,选择离商品最近的顾客作为动作的发起者;
步骤4:对顾客进行人重和人脸识别,确定顾客身份并结账。
2.根据权利要求1所述的一种基于纯视觉的免门禁无人商店结账方法,其特征是:
所述步骤1具体为:
步骤1.1:训练一个动作判别模型,从摄像头录取的视频中获得连续的RGB视频帧流和光流信息,借助神经网络来提取特征,通过提取的特征来检测动作,对视频的每一帧进行判断,是否存在拿取放回动作,发生这一动作的帧记为关键帧;
步骤1.2:对于一个场景,分别确定拿取或放回的关键帧的时间戳,将时间戳集合起来作为整个场景的时间戳,从这12个视频中都取出这些时间戳临近的帧,前取3帧,后取10帧;
所有的时间戳代表找出的拿取或放回的动作个数,同一个时间戳分别在12个视频中前取3帧,后取10帧检测手中拿的商品。
3.根据权利要求2所述的一种基于纯视觉的免门禁无人商店结账方法,其特征是:对拿取还是放回进行判断,关键帧前面几帧手中有商品,之后几帧手中没有商品即为放回操作;关键帧前面几帧手中没有商品,之后几帧手中有商品即为拿取操作。
4.根据权利要求3所述的一种基于纯视觉的免门禁无人商店结账方法,其特征是:所述步骤2具体为:
使用Tensorflow框架搭建卷积神经网络模型,加载产品图片数据集,共18个子文件夹即18类商品,处理后让模型进行学习训练,预测分类测试集图片;对得到的关键帧和附近的几帧,每一帧都作商品模型的输入,对输出结果取最大概率的作为商品的类型,输入为发生拿取放回动作的视频帧;输出为商品的类型。
5.根据权利要求4所述的一种基于纯视觉的免门禁无人商店结账方法,其特征是:为了提高视频识别的准确率,对传来的视频帧进行处理,具体为:通过openpose识别手,裁剪手部附近的图片;对裁剪得到的图片进行筛选,去掉没手的图片;将图片输入商品分类模型,去掉概率值低于0.3的结果,取结果中概率值最大分类结果的作为最后的结果。
6.根据权利要求5所述的一种基于纯视觉的免门禁无人商店结账方法,其特征是:所述步骤3具体为:
要匹配顾客和商品的ID,首先要确定顾客和商品的定位,采用多个摄像头融合,在视频中识别出人的关键部位,包括头和左右手,并且得到在现实世界的空间坐标,通过计算顾客与商品的3D距离来判断商品是被谁拿走的;
数据集中给了每种商品的3D位置,根据得到的商品类型查询到商品的位置;
多个摄像头使用openpose识别出关键骨骼点2D坐标,利用ReID去掉噪声和图像中识别错误的顾客,多摄像头的顾客进行关联,每个摄像头下同一顾客的二维坐标通过三角测量triangulation的方法得到三维坐标,得到商品和顾客的位置之后,选择离商品最近的顾客作为动作的发起者。
7.根据权利要求6所述的一种基于纯视觉的免门禁无人商店结账方法,其特征是:所述步骤4具体为:通过reid得到操作商品的人在不同摄像头下的图片,对得到的图片都进行人脸识别,利用MTCNN进行人脸框提取,将提取后的人脸框送入facenet中提取出embedding,利用SVM对embedding进行分类,利用MTCNN模型人脸检测,利用faceNet模型人脸识别,将图片输入人脸识别模型,取结果中的众数作为最后的结果,发起付款。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110130277.6/1.html,转载请声明来源钻瓜专利网。