[发明专利]人机交互动作检测方法、装置、存储介质及处理器在审

申请号：	201710670075.4	申请日：	2017-08-08
公开（公告）号：	CN107423721A	公开（公告）日：	2017-12-01
发明（设计）人：	王志鹏;周文明	申请（专利权）人：	珠海习悦信息技术有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06N3/04;G06N3/08;G06F3/01
代理公司：	北京挺立专利事务所(普通合伙)11265	代理人：	倪钜芳
地址：	519080 广东省珠海市高新区唐***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	人机交互动作检测方法装置存储介质处理器
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及人机交互领域，具体而言，涉及一种人机交互动作检测方法、装置、存储介质及处理器。

背景技术

人机交互动作检测和分类是人机交互的一项基础技术，对于智能家居、安防系统和病人监护等人类与电子设备交互的场景中具有重要意义。例如医疗行业，在手势识别的帮助下，聋哑病人可以在护士不在时，通过一个摄像头和简单的手势将需求传达给医院，解决了独立电子设备配置昂贵和病人不会使用计算机等问题。

当前用于人体动作识别的方法为基于two-stream卷积神经网络的方法，其将含时间信息光流场和RBG图像同时输入卷积神经网络并进行信息融合，最终输出整段视频的类别标签。由于光流场含的时间信息局限于附近几帧，限制了结果的准确性，并且由于输出为一段视频的类别标签，需要逐帧对时间窗口进行滑动，计算了大量重复信息，限制了系统的效率和实时性。综上，现有技术中的人机交互动作检测存在准确度和效率较低的技术问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种人机交互动作检测方法、装置、存储介质及处理器，以至少解决现有技术中存在的人机交互动作检测准确度和效率较低的技术问题。

根据本发明实施例的一个方面，提供了一种人机交互动作检测方法，该方法包括：根据预设多层卷积神经网络对目标图片进行检测，得到上述目标图片中存在的至少一个目标对象对应的类别以及上述至少一个目标对象对应的边框坐标；确定上述至少一个目标对象中置信度最高的上述目标对象为目标检测对象；将上述目标检测对象对应的上述类别和上述目标检测对象对应的上述边框坐标输入至预设多阶段回归卷积神经网络，进而根据上述预设多阶段回归卷积神经网络对上述目标检测对象进行人体关节部位的位置检测，得到上述目标检测对象中的上述人体关节部位的位置坐标；对上述位置坐标进行归一化处理，进而根据预设多层递归神经网络对完成上述归一化处理之后的上述位置坐标进行检测，得到上述目标图片的检测结果，其中，上述检测结果中至少包括上述目标图片的类别标签。

进一步地，在根据预设多层递归神经网络对完成上述归一化处理之后的上述位置坐标进行检测之前，上述方法还包括：根据预设损失函数和预设算法对上述预设多层递归神经网络进行训练，其中，上述预设损失函数为分类函数，上述预设算法为基于时间尺度的反向传播算法。

进一步地，上述根据预设多层递归神经网络对完成上述归一化处理之后的上述位置坐标进行检测，得到上述目标图片的检测结果包括：根据上述预设多层递归神经网络对完成上述归一化处理之后的上述位置坐标进行检测，得到上述目标图片对应的多个类别以及上述多个类别中的每个上述类别对应的多个激活值；在预设时间窗内获取每个上述类别对应的上述多个激活值的平均值；将多个上述平均值中的最大平均值对应的上述类别确定为上述目标图片的类别标签，从而得到上述检测结果。

进一步地，在根据预设多层卷积神经网络对目标图片进行检测之前，上述方法还包括：获取预设摄像头中拍摄到的人体姿态视频图像；将上述人体姿态视频图像中的任意一帧图片确定为上述目标图片。

根据本发明实施例的另一方面，还提供了一种人机交互动作检测装置，该装置包括：检测单元，用于根据预设多层卷积神经网络对目标图片进行检测，得到上述目标图片中存在的至少一个目标对象对应的类别以及上述至少一个目标对象对应的边框坐标；第一确定单元，用于确定上述至少一个目标对象中置信度最高的上述目标对象为目标检测对象；第一处理单元，用于将上述目标检测对象对应的上述类别和上述目标检测对象对应的上述边框坐标输入至预设多阶段回归卷积神经网络，进而根据上述预设多阶段回归卷积神经网络对上述目标检测对象进行人体关节部位的位置检测，得到上述目标检测对象中的上述人体关节部位的位置坐标；第二处理单元，用于对上述位置坐标进行归一化处理，进而根据预设多层递归神经网络对完成上述归一化处理之后的上述位置坐标进行检测，得到上述目标图片的检测结果，其中，上述检测结果中至少包括上述目标图片的类别标签。

进一步地，上述装置还包括：训练单元，用于根据预设损失函数和预设算法对上述预设多层递归神经网络进行训练，其中，上述预设损失函数为分类函数，上述预设算法为基于时间尺度的反向传播算法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于珠海习悦信息技术有限公司，未经珠海习悦信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710670075.4/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]人机交互动作检测方法、装置、存储介质及处理器在审

专利文献下载