[发明专利]用于第一人称视角中基于深度学习识别手势的系统和方法有效
申请号: | 201811098719.8 | 申请日: | 2018-09-20 |
公开(公告)号: | CN109635621B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | R·S·M·和巴拉古皮;R·佩拉 | 申请(专利权)人: | 塔塔顾问服务有限公司 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/82;G06V10/778;G06V10/764;G06V10/94;G06N3/0442;G06N3/047;G06N3/08 |
代理公司: | 北京市中伦律师事务所 11410 | 代理人: | 杨黎峰;钟锦舜 |
地址: | 印度*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 所提供的是一种用于手势识别的系统和方法。该方法包括:接收通过使用可通信地耦合到可穿戴AR设备的至少一个RGB传感器从用户的第一人称视角(FPV)所捕获的场景的媒体流的帧。媒体流包括与场景的帧相关联的RGB图像数据。场景包括由用户执行的动态手势。通过使用深度学习模型,从RGB图像数据估计与动态手势相关联的时间信息。估计的时间信息与用户的手姿态相关联,并且包括在多个帧中的用户的手上所识别的多个关键点。通过使用多层LSTM分类网络,基于关键点的时间信息将动态手势分类为至少一个预定义手势类。 | ||
搜索关键词: | 用于 第一人称 视角 基于 深度 学习 识别 手势 系统 方法 | ||
【主权项】:
1.一种由处理器实施的用于手势识别的方法,所述方法包括:经由一个或多个硬件处理器,接收从用户的第一人称视角(FPV)所捕获的场景的媒体流的多个帧,其中所述媒体流使用可通信地耦合到可穿戴增强现实(AR)设备的至少一个RGB传感器来捕获,所述媒体流包括与所述场景的所述多个帧相关联的RGB图像数据,所述场景包括由所述用户执行的动态手势;经由所述一个或多个硬件处理器,通过使用深度学习模型从所述RGB图像数据估计与所述动态手势相关联的时间信息,其中所估计的所述时间信息与所述用户的手姿态相关联并且包括在所述多个帧中的在所述用户的手上所识别的多个关键点,其中所述多个关键点包括手上的二十一个关键点,并且其中所述二十一个关键点中的每个关键点包括每个手指的四个关键点和靠近所述用户的手腕的一个关键点;和经由所述一个或多个硬件处理器,通过使用多层的长短期记忆(LSTM)分类网络,基于与所述多个关键点相关联的所述时间信息将所述动态手势分类为至少一个预定义手势类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于塔塔顾问服务有限公司,未经塔塔顾问服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811098719.8/,转载请声明来源钻瓜专利网。
- 上一篇:自助服务终端(SST)面部认证处理
- 下一篇:身份识别方法、装置及电子设备