[发明专利]利用深度成像扩充语音识别在审
申请号: | 201380055810.0 | 申请日: | 2013-10-18 |
公开(公告)号: | CN104823234A | 公开(公告)日: | 2015-08-05 |
发明(设计)人: | J.卡普尔;I.塔舍夫;M.塞尔策尔;S.E.霍奇斯 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G10L15/24 | 分类号: | G10L15/24;G06F3/01 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 陈慧;景军平 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 深度 成像 扩充 语音 识别 | ||
1. 在计算设备上,一种用于识别用户的语音的方法,包括:
从深度相机接收物理空间的深度信息;
从一个或多个麦克风接收音频信息;
从音频信息辨识一个或多个可能的口语词语的集合;
基于将来自音频信息的所述一个或多个可能的口语词语的集合与深度信息比较,确定用于计算设备的语音输入;以及
基于所确定的语音输入在计算设备上采取行动。
2. 权利要求1的方法,还包括在来自深度相机的深度信息、来自定向麦克风的音频信息和来自可见光相机的图像信息中的一个或多个中辨识上下文元素,以及将来自音频信息的一个或多个可能的口语词语的集合与所述上下文元素比较以确定语音输入。
3. 权利要求2的方法,其中辨识上下文元素包括以下中的一个或多个:基于深度信息和来自可见光相机的信息中的一个或多个来确定用户的身份,确定用户的情绪状态,确定用户的物理状态,确定用户执行的手势,和辨识用户的物理空间中的一个或多个物体。
4. 权利要求1的方法,还包括从深度信息辨识一个或多个可能的口语声音和/或词语的集合以及将经由音频信息辨识的所述一个或多个可能的口语词语的集合与经由深度信息辨识的所述一个或多个可能的口语声音和/或词语的集合比较以确定语音输入。
5. 权利要求4的方法,其中从深度信息辨识一个或多个可能的口语声音和/或词语的集合还包括:辨识用户的一个或多个嘴部、舌头和/或喉咙移动,以及基于移动辨识一个或多个可能的口语声音和/或词语的集合。
6. 权利要求1的方法,其中语音输入包括命令,并且其中采取行动包括执行命令。
7. 权利要求1的方法,还包括基于嘴部移动和注视方向中的一个或多个来辨识多个用户中的哪个用户在说话。
8. 权利要求1的方法,其中语音输入是要存储的内容,并且其中采取行动包括存储内容。
9. 权利要求1的方法,其中语音输入包括要在显示器上显示的内容,并且其中采取行动包括向显示设备发送内容。
10. 权利要求1的方法,其中基于所辨识的用户的手部移动确定可能的口语声音和/或词语之间的边界。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380055810.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:声音识别装置
- 下一篇:通信设备,通信方法,集成电路和电子仪器