[发明专利]一种基于深度学习和K-曲率法的指尖跟踪方法有效

申请号：	202110783266.8	申请日：	2021-07-12
公开（公告）号：	CN113608663B	公开（公告）日：	2023-07-25
发明（设计）人：	孟浩;王玥;田洋;邓艳琴	申请（专利权）人：	哈尔滨工程大学
主分类号：	G06F3/04883	分类号：	G06F3/04883;G06V10/44;G06V10/56;G06V10/82;G06N3/0464;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	150001 黑龙江省哈尔滨市南岗区***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习曲率指尖跟踪方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习和K-曲率法的指尖跟踪方法，其特征在于，包括以下步骤：

S1:获取手部数据集，进行预处理；

S2:利用深度学习神经网络模型YOLOv3对数据集进行训练，获取指尖检测模型；

S3:获取视频流，将当前帧输入指尖检测模型中，利用Darknet53网络对当前帧的图像进行多尺度特征提取，检测出目标类别和检测框位置信息，并根据此信息初始化卡尔曼滤波器；

S4:读取下一帧图像，利用卡尔曼滤波器得到预测框，计算出本帧检测框和预测框的IOU，设定IOU阈值，判断该IOU是否大于IOU阈值，若该IOU大于IOU阈值则进行S5步骤，否则进行S6步骤；

S5:用本帧匹配到的预测框去更新卡尔曼滤波器，并将状态更新值作为本帧的跟踪框输出，该帧跟踪完成，回到步骤S4；

S6:利用K-曲率法得到指尖点的位置信息；

S7:计算该指尖点与检测框的中心点的欧式距离，并设定一个阈值，当该距离小于阈值时，则初始化卡尔曼滤波器得到新预测框，并重新开始匹配；否则删除掉此帧的跟踪信息，读取下一帧；

S8:设定一个时间阈值T-max，在该时间阈值帧内未检测跟踪信息，则终止跟踪。

2.根据权利要求1所述的一种基于深度学习和K-曲率法的指尖跟踪方法，其特征在于：所述步骤S1包括以下步骤：

S11:在不同的场景、光照、人、指尖角度、手部数量条件下采集大量包含露出指尖的手部彩色图；

S12:利用数据增强的方法对手部彩色图像进行数据扩充；

S13:标记出目标指尖的区域框，添加标签信息，生成数据标签文件。

3.根据权利要求1所述的一种基于深度学习和K-曲率法的指尖跟踪方法，其特征在于：所述步骤2包括以下步骤：

S21:将手部数据集输入图片转化成416*416大小的网格图片，增加灰度条防止失真；

S22:将处理后的图片通过Darknet53特征提取网络降采样5次，生成多尺度的特征图；

S23:利用多尺度融合的方式在13*13、26*26、52*52三个尺度的特征图上分别进行卷积检测，得到3次检测结果，并进行非极大值抑制，获取最终结果；

S24:生成训练后的指尖检测模型。

4.根据权利要求1所述的一种基于深度学习和K-曲率法的指尖跟踪方法，其特征在于：所述步骤S4包括以下步骤：

S41:读取下一帧图像，利用卡尔曼滤波器得到所有预测到的指尖预测框；

S42:计算出本帧检测框和所有预测框的IOU；

S43:利用匈牙利算法得到IOU最大的唯一匹配；

S44:设定IOU阈值，判断该IOU是否大于IOU阈值；

S45:该IOU大于IOU阈值则进行S5步骤，否则进行S6步骤。

5.根据权利要求4所述的一种基于深度学习和K-曲率法的指尖跟踪方法，其特征在于：所述步骤S41:读取下一帧图像，利用卡尔曼滤波器得到所有预测到的指尖预测框具体包括：

使用的卡尔曼滤波器包含七个状态变量，四个观测输入：

输出目标状态：

式中，表示k时刻先验状态估计值，分别表示k时刻、k-1时刻后验状态估计值，A表示状态转移矩阵，B表示可选的控制输入u∈R^l的增益，u_k-1表示k-1时刻的控制增益，表示k时刻的先验估计协方差，分别表示k时刻、k-1时刻的后验估计协方差，Q表示过程激励噪声的协方差，K_k表示卡尔曼增益，Z_k表示测量值，H表示测量矩阵，u表示当前帧目标中心的水平像素位置，v表示当前帧目标中心的垂直像素位置，x表示目标区域的面积，y表示目标区域的高宽比，表示预测后的下一帧图像中目标中心的水平像素位置，表示预测后的下一帧图像中目标中心的垂直像素位置，表示预测后的下一帧图像中目标区域的面积，表示预测后的下一帧图像中目标区域的高宽比。

6.根据权利要求1所述的一种基于深度学习和K-曲率法的指尖跟踪方法，其特征在于：所述步骤S6包括以下步骤：

S61:选择YCbCr颜色空间对本帧图像进行手部肤色提取：

式中，R表示红色通道，G表示绿色通道，B表示蓝色通道；Y为明亮度；Cb为RGB输入信号蓝色部分与RGB信号亮度值之间的差异；Cr为RGB输入信号红色部分与RGB信号亮度值之间的差异；

S62:求高斯模型的马氏距离：

式中，m_s表示肤色单高斯模型的平均矢量，C_s为肤色单高斯模型的协方差矩阵，X为像素点；

S63:利用马氏距离分别给肤色和非肤色区域建立单高斯模型，然后求某一像素在肤色模型和非肤色模型下的马氏距离来判断是否属于肤色点，并分割出手部图像：

式中，τ_diff为设定的阈值，m_ns表示非肤色单高斯模型的均值，C_ns为高斯模型的协方差；

S64:对图像进行二值化处理和双边滤波处理；

S65:取轮廓点k_i与其前面的第m个点k_i+m和后面的第m个点k_i-m，使用向量和向量的夹角余弦值作为点k_i的曲率：

S66:检测具有局部最大K余弦的凸轮廓点作为指尖点：

d_i＞(d_i-s+d_i+s)/2

式中，d_i表示从手掌心最大圆的质心到点的距离。