[发明专利]一种基于多传感器融合视觉的室内姿势检测方法在审
申请号: | 202110984742.2 | 申请日: | 2021-08-26 |
公开(公告)号: | CN113688740A | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 张立国;耿星硕;金梅;王磊;章玉鹏;张升;杨红光;薛静芳;李佳庆 | 申请(专利权)人: | 燕山大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 石家庄众志华清知识产权事务所(特殊普通合伙) 13123 | 代理人: | 张建 |
地址: | 066004 河北*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 传感器 融合 视觉 室内 姿势 检测 方法 | ||
1.一种基于多传感器融合视觉的室内姿势检测方法,其特征在于,包括如下步骤:
S1,搭建和训练网络模型;
S2,获取实时采集的视频数据和腰带式辅助检测设备的辅助检测参数;
S3,将数据输入网络模型获取检测结果,通过卡尔曼滤波器和匈牙利指派算法跟踪患者;
S4,将处理之后包含box和检测结果的视频实时同步上传网络中,一旦患者出现跌倒的情况及时发送警报。
2.根据权利要求1所述一种基于多传感器融合视觉的室内姿势检测方法,其特征在于:S1中包括如下步骤:
S11,数据集制作:数据集的制作中数据采集分为两部分:一部分是图像的采集,另一部分是腰带式辅助检测装置的数据采集;两部分数据的采集是在同时记录的,即在拍照瞬间记录腰带式辅助检测装置的输出值,偏移x,y,z轴的角度和垂直地面的加速度,使用labelImg工具给图片标上标签,并生成xml文件,将腰带式辅助检测装置的输出值,偏离x,y,z的角度和垂直地面的加速度添加到xml文件中,每一张图片一个xml文件,数据集中一共有5个分类:站立、行走、下蹲、躺下和跌倒,数据集中包含光照充足时的RGB图像,和光照昏暗时的红外图像,这样训练出来的网络模型可以在光照昏暗条件下很好的实时识别和跟踪患者并收集数据;
S12,搭建网络模型;对图像分类和检测,采用DarkNet53作为backbone对图像进行特征提取,使用改进后的特征金字塔结构得到的3个不同尺度的输出特征层,分别对3个输出层进行处理,从而实现多尺寸特征图检测,随着图像卷积计算次数越来越多,网络变得更深,图像的特征会越来越抽象,细节信息丢失就会变多,改进后的特征金字塔添加注意力机制,使用浅层的特征来影响深层的特征层,使得抽象的特征能够更多的注意患者所在的特征层通道上,这样可以使用更多的细节信息来提高检测精度,改进后的特征金字塔结构在特征提取时使用深度可分离卷积,可减少参数个数,提高网络速度;改进后的注意力机制,Input1是浅层特征维度是batcn_size,c,h,w,通过卷积、池化、两个全连接层之后生成一个维度为batcn_size,2c,1,1的权重向量;Input2是深层特征维度是batcn_size,2c,h/2,w/2,会和浅层特征生成的权重向量相乘,每个通道与相应通道的数据相乘,得到新的特征层维度为batcn_size,2c,h/2,w/2;网络最终输出3个不同尺度的特征层,每个特征层都包括预测边界框的坐标修正参数信息、类别置信度、类别和概率,通过解码计算获得图像的最终的预测结果,预测结果包括检测出的患者的Bounding box坐标、患者的姿势类别和概率,特征金字塔输出的修正参数包括边界框的中心点的坐标和宽高,网络会为每一个框预测4个参数tx、ty、tw、th,如果真实框距离图像左上角的位移是cx,cy,且对应的先验框的宽和高为pw、ph,则网络的预测值bx、by、bw、bh为:
bx=σ(tx)+cx (1)
by=σ(ty)+cy (2)
将特征层中的类别置信度,经过sigmoid函数转换输出,sigmoid函数会将输入x转化到0-1范围内;后将预测框与真实框的重合程度较高的框的值设为1,即这个框是正样本yt=1;将重合程度较低的框的值设为0,这个框是负样本yt=0;sigmoid函数的公式如下:
对于腰带式辅助检测装置输出的数据进行分类训练的模型是使用普通的多分类逻辑回归,输入是y=[y1,y2,y3,y4],输出是5分类,类别是站立、行走、下蹲、躺下和跌倒;
S13,开始训练模型,加载数据集及数据集的处理:对模型的训练,使用公开数据集对图像部分的模型进行整体训练,然后冻结backbone部分之后,使用自己制作的数据集对图像部分的模型中的特征金字塔部分和多分类逻辑回归分类网络进行训练,数据集处理主要是将xml文件中的信息读取出来,并对图片进行标准化和尺寸变换;获取多分类逻辑回归的输出,将多分类逻辑回归的输出作为图像计算损失时的权重,图像识别的网络模型首先会对图像进行识别得出分类,由于对相似类别不能很好地识别,引进逻辑回归的输出作为5个辅助参数,多分类逻辑回归模型获得的是5个类别的概率,将概率处理后和图像识别的网络输出的概率进行融合得到最终的预测类别结果,该过程有利于识别相似动作;
S14,计算训练损失,反向传播,更新梯度,获得最优权重:使用的损失函数分别是Bounding box的坐标回归参数和类别的损失函数时使用的是二值交叉熵计算损失,公式如下:
BCELoss=ytlogyp-(1-yt)log(1-logyp) (6)
姿势类别的置信度损失计算公式如下:
Loss=ytlog(yp)-(1-yt)log(1-log(yp) (8)
其中,yt表示真实值,yp表示预测值,ylog是逻辑回归输出的预测概率,ylog作为超参数使用;最终的损失为位置损失Bounding box的损失loss1上述公式6、置信度损失loss2上述公式8、图片识别的类别损失loss3上述公式6和多分类逻辑回归分类损失loss4上述公式6的总和,得如下公式:
Loss=loss1+loss2+loss3+loss4 (9)通过对该损失反向传播,不断迭代,最终得到一个最优的网络模型的权重;将逻辑回归的预测概率ylog进行将小数变成大于1的数值,再和图像识别网络获得的类别相乘可以将相似的动作区分开,再对结果取sigmoid将概率变成小数,最后取概率最大的值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于燕山大学,未经燕山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110984742.2/1.html,转载请声明来源钻瓜专利网。