[发明专利]基于融合手势识别的失语症患者辅助康复训练系统及方法有效
申请号: | 201911352287.3 | 申请日: | 2019-12-25 |
公开(公告)号: | CN111126280B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 孙鑫宇;彭文杰;康文雄;梁景麟;赵冠懿;赵文彬;杨振华 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V10/762;G06V10/764;G06V10/82;G06N3/0464;G06N3/08;G06F3/01;G16H20/30;A61M21/00 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 顾思妍;梁莹 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 融合 手势 识别 失语症 患者 辅助 康复训练 系统 方法 | ||
1.一种基于融合手势识别的失语症患者辅助康复训练方法,其特征在于:包括以下步骤:
S101,确定康复训练计划后,开启一个训练周期:首先从场景摄像头获取场景图像,输入Yolov2卷积神经网络,则获得场景中的目标物体类别和位置信息,融合颜色信息后输入随机森林获得康复训练内容输出;通过用户交互模块向患者传达训练指令;如果Yolov2卷积神经网络的输出不足以生成训练内容,则重复步骤S101;
S102,确定训练内容后,在训练周期中,不断从用户监控摄像头中获取图像,并输入Yolov2卷积神经网络中,获得患者的手势信息和患者周边的物体类别和位置信息与本训练周期的训练指令相匹配;如果训练内容为发音训练,则从语音模块获取识别到患者发音的词汇内容,匹配发音指令,判断患者的指令执行情况;
S103,如果患者发音错误、动作错误或移动的物品错误导致无法完成训练指令,则重复训练指令若干次,直到达到重复次数上限,视内容为不成功,训练周期结束,开启新的训练周期,重复S101;
在步骤S101前,使用整理的数据集对Yolov2卷积神经网络进行训练,得到训练好的Yolov2卷积神经网络;
在步骤S102中,获得患者的手势信息包括以下步骤:
S2.1,当物体检测单元识别到物体类别为手时,截取该类别位置ROI;
S2.2,将ROI图像的颜色空间转换为灰度图,并对其进行规范化,即每一点的像素值减去均值除以方差,以削弱光照变化造成的影响;
S2.3,选择小的cell,block则是由2x2的cell组成;其中,将图像分为nxn的部分,称为cell,选取2x2的cell组成滑动窗口,称为block;
S2.4,对所有像素计算梯度及梯度方向;对所有cell计算梯度方向直方图;对所有block内的特征向量做规范化;
S2.5,使用改进的HOG特征提取算法来解决多尺度输入:
S2.5.1,把SPPNET里面的spatial pyramid pooling的思想运用在了提取HOG特征上,对一个输入的图像采用固定大小的cell和block,当输入图像的尺寸不同时,cell和block的数量将会不同,得到的方向梯度直方图的特征向量的个数也会不同;
S2.5.2,对SPPNET中的spatial pyramid pooling进行改进,让其对向量进行池化;将每个bin都取所有被池化向量里的最大值组成一个新的特征向量,再对其做归一化使其变成一个概率向量,具体的spatial pyramid pooling操作是把图像分成8*8,4*4,2*2,1*1的区域做池化得到特征向量;将分块区域池化结果组合后,由8*8+4*4+2*2+1*1=85得到特征向量的第一个维度为长度85;同时因为每个block得到的梯度方向直方图都有9个bin,故特征向量的第二个维度长度为9;由此,实现在任意尺度的图像上提取出固定长度的特征向量,并将其输入后面的SVM分类器来进行训练或推断,其中,选取10个常见手势类别图像对SVM分类器进行训练;
步骤S103中,训练周期结束后,还包括判断训练是否正确完成以及记录训练过程中数据的步骤:
S7.1,单个训练周期开始后,将训练内容生成模块生成的指令合成为语音和文字提示;单个训练周期结束后,对患者某一任务的完成度进行评价,并且在训练过程中适时给予答案提示;语音提示通过语音模块播放,同时在场景摄像头拍摄的场景画面上根据文字提示生成字幕,显示在显示屏上;
S7.2,识别患者的手势和语音,与训练内容的指令相匹配:
当训练内容为动作类训练内容,将手势识别结果与指令内容相匹配,如果为同类动作则判定为正确;否则判定为错误;
当训练内容为物体移动类训练内容,通过比对场景摄像头和用户监控摄像头采集得到的图像输入Yolov2卷积神经网络得到的结果中的同类别物体相似度,高于阈值则判定正确;否则判定为错误;
当训练内容为发音类训练内容,将语音模块识别得到的单词与训练指令的目标单词使用Word2Vec模型将单词变换为特征向量,进行余弦相似度计算得到分数,评估分数高低,若高于阈值则判定正确;否则判定为错误;
S7.3,记录整个训练过程中的相关数据,包括训练时长,训练结果正确与否,统计训练正确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911352287.3/1.html,转载请声明来源钻瓜专利网。