[发明专利]一种智能识别与追踪系统有效
申请号: | 202110831447.3 | 申请日: | 2021-07-22 |
公开(公告)号: | CN113688680B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 于永斌;钟袁静扬;张兰丹;程曼;王昊;周晨;李镖 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/22;G06V10/25;G06V10/764;G06V10/82;G06N3/0464;G06N3/08;G06T7/246 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 周刘英 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 识别 追踪 系统 | ||
1.一种智能识别与追踪系统,其特征在于,该系统包括人脸数据集制作模块、人脸识别模块、人物追踪模块和硬件模块,其中,
所述人脸数据集制作模块用于提供人物信息,通过使用多任务卷积神经网络MTCNN模型,对原始图像进行识别、裁剪和对齐,其中,原始图像为大量包含人脸的图片,将识别、裁剪和对齐后的人脸图片手动分类到相应类别的文件夹下,再用FaceNet模型对分类好的人脸图片进行embedding嵌入,为每一类人脸图片生成一个对应的embedding特征向量,一个类别中的人脸图片越多,该类别的人脸图片得到的embedding特征向量的准确性就越高,由此得到人脸数据集;
接收到来自摄像头的视频流后,用户发送截取信号选定视频中所需的一帧图像,即选定帧,在选定帧中框选得到原始目标追踪人物;
所述人脸识别模块用于得出所述原始目标追踪人物的相关信息,先将用户框选的原始目标追踪人物送入MTCNN模型并截取出图像中的人脸,再将截取出的人脸送入FaceNet模型,得到该原始目标追踪人物的人脸embedding特征向量,最后将该原始目标追踪人物的人脸embedding特征向量与所述人脸数据集中的各embedding特征向量逐一进行相似性比较,计算该原始目标追踪人物的人脸embedding特征向量与所述人脸数据集中任意一个embedding特征向量之间的欧式距离,若计算出的欧氏距离小于预设的距离阈值,则认为比较的两个对象为同一个人,并返回人物的相关信息;否则为不同人,返回unknown;
所述人物追踪模块采用CSRT追踪算法在框选后的视频流中对后续视频逐帧进行处理,首先将视频中的当前帧的图像转换为灰度格式,找出是否含有原始目标追踪人物,若未找到,则继续处理视频的下一帧;若找到,则返回所述原始目标追踪人物在当前帧中的位置信息以及相对图像中心的偏移信息,根据位置信息在当前帧中框选出目标并将目标信息显示在目标框上,同时将偏移信息发送到串口;
所述硬件模块用于从串口读取来自人物追踪模块的偏移信息,并根据偏移信息控制追踪小车带动所述摄像头移动,完成当前帧的人物追踪,使用户框选出的目标处于画面中央;其中,所述追踪小车包括一个摄像头、一个Arduino开发板、一个小车底板、两个直流有刷电机配两个轮胎、一个定向轮、两个180度的伺服电机、一个双“H桥”电机控制模块和至少一根导线,其中,两个180度的伺服电机分别为竖直伺服电机和水平伺服电机;所述追踪小车受硬件开发平台Arduino控制,一个小车底板、两个直流有刷电机、两个轮胎组成追踪小车的骨架,并搭载一个摄像头、一个Arduino开发板、两个180度的伺服电机以及一个双“H桥”电机控制模块;Arduino开发板用于电路连接,根据接收到的来自Arduino IDE的信息控制两个直流有刷电机、两个180度的伺服电机和一个双“H桥”电机控制模块;两个180度的伺服电机分别用于水平方向和竖直方向上的目标追踪,一个双“H桥”电机控制模块控制两个直流有刷电机的旋转方向和旋转速度,用于前后方向的目标追踪;当前帧的人物追踪完成后,若没有接收到结束指令,则继续完成后续视频中的追踪任务;若收到结束指令,则保存视频并退出;
其中,所述对原始图像进行识别、裁剪和对齐,将识别、裁剪和对齐后的人脸图片手动分类到相应类别的文件夹下的方法具体包括:
为了检测到原始图像中大小不同的人脸,需要将原始图像缩放到不同的尺度,再将缩放到不同尺度的图像送入到不同的子网络,因此所述MTCNN模型包含了三层网络结构:P-Net、R-Net和O-Net;
首先将原始图像进行不同尺度的变换以形成图像金字塔来适应不同大小的人脸检测;再采用全卷积神经网络P-Net来获得候选窗体和边界回归向量,同时进行边框回归调整窗体并利用非极大值抑制方法去除重叠候选窗体;接着,将经过P-Net确定的预测窗口送入R-Net网络,R-Net网络相对于P-Net增加了一个全连接层,因此R-Net网络能过滤掉大量不需要的候选框,同时对选定的候选框进行边框回归和非极大值抑制以进一步优化预测结果;最后,将经过P-Net和R-Net确定的预测窗口送入O-Net,O-Net相对于R-Net增加了一个卷积层,功能与R-Net作用一样,只是在去除重叠候选窗体的同时,会对人的面部特征点进行回归,最终输出人脸的五个关键点位:左眼、右眼、鼻子、左嘴角和右嘴角;
进一步地,在得到人脸的五个关键点位后,对原始图像进行截取,截取出原始图像中的人脸后手动分类到相应类别的文件夹下。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110831447.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息采集器
- 下一篇:一种热塑性聚酯弹性体复合材料及其制备方法