[发明专利]用于基于神经网络的动作检测的方法和设备有效
申请号: | 201610987537.0 | 申请日: | 2016-11-09 |
公开(公告)号: | CN108062505B | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 兰翠玲;曾文军;宋思捷;兴军亮 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/82;G06N3/08 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 基于 神经网络 动作 检测 方法 设备 | ||
1.一种用于动作检测的设备,包括:
处理单元;
存储器,耦合至所述处理单元并且包含存储于其上的指令,所述指令在由所述处理单元执行时使所述设备执行以下动作:
获取视频的多个帧的表示信息和针对所述视频的预定义动作标签,所述表示信息表示所述多个帧中的实体并且所述预定义动作标签与所述实体的动作相关联;以及
基于所述多个帧的所述表示信息和所述预定义动作标签来更新学习网络,所述学习网络包括第一子网络和第二子网络,所述第一子网络和所述第二子网络中的每一个包括递归神经网络单元,
更新所述学习网络包括:
使所述第一子网络基于所述表示信息确定所述多个帧的重要性;
使所述第二子网络基于所述表示信息确定所述多个帧中的多个预定部分或多个预定关注点的重要性;以及
使所述学习网络基于所述表示信息和所述多个帧的重要性确定所述视频与预定义动作标签相关联的概率。
2.根据权利要求1所述的设备,其中所述动作还包括:
使所述第一子网络接收针对所述多个帧中的第一帧和在所述第一帧之前的第二帧的所述表示信息,并且基于非线性函数确定所述第一帧的重要性。
3.根据权利要求1所述的设备,其中所述动作还包括:
使所述第二子网络接收针对所述多个帧中的第一帧和在所述第一帧之前的第二帧的所述表示信息,并且基于非线性函数确定所述第一帧中的所述多个预定部分或所述多个预定关注点的重要性。
4.根据权利要求1所述的设备,其中更新所述学习网络包括:
基于由所述学习网络输出的动作标签的概率和由所述第一子网络确定的重要性,更新所述学习网络使得目标量最小化,所述目标量限制由所述第一子网络所确定的重要性的值的增加。
5.根据权利要求1所述的设备,其中更新所述学习网络包括:
基于由所述学习网络输出的动作标签的概率和由所述第二子网络确定的重要性,更新所述学习网络使得目标量最小化,所述目标量促使由所述第二子网络所确定的重要性平均分布于所述多个帧中的所述多个部分或所述多个关注点。
6.根据权利要求1所述的设备,其中所述学习网络包括主网络,所述主网络的输入与所述第二子网络的输出耦合,所述主网络的输出与所述第一子网络的输出耦合,并且更新所述学习网络包括:
在固定所述第一子网络和所述第二子网络中的第一类型子网络的参数的情况下,更新所述第一子网络和所述第二子网络中的第二类型子网络的参数和所述主网络的参数,所述第一类型不同于所述第二类型;
在固定所述第一子网络和所述第二子网络中的所述第二类型子网络的参数的情况下,更新所述第一子网络和所述第二子网络中的所述第一类型子网络的参数和所述主网络的参数;
在固定所述第一子网络和所述第二子网络的参数的情况下,更新所述主网络的参数;以及
联合更新所述学习网络的参数。
7.根据权利要求6所述的设备,其中更新所述第一子网络和所述第二子网络中的第二类型子网络的参数和所述主网络的参数包括:
在固定所述第一子网络和所述第二子网络中的第一类型子网络的参数的情况下,更新所述第二类型子网络的参数和简化的所述主网络的参数;
在固定经更新的所述第二类型子网络的参数的情况下,更新所述主网络的参数;以及
联合更新所述第二类型子网络和所述主网络的参数。
8.根据权利要求1所述的设备,其中所述学习网络包括长短时记忆(LSTM)单元。
9.根据权利要求1所述的设备,其中所述动作包括:
使所述第二子网络基于所述多个帧的与所述实体相关联的骨架表示确定所述多个帧中的多个预定关节点的重要性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610987537.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种便于清洁型音乐拖把
- 下一篇:话筒集声器