[发明专利]利用深度成像扩充语音识别在审

申请号：	201380055810.0	申请日：	2013-10-18
公开（公告）号：	CN104823234A	公开（公告）日：	2015-08-05
发明（设计）人：	J.卡普尔;I.塔舍夫;M.塞尔策尔;S.E.霍奇斯	申请（专利权）人：	微软技术许可有限责任公司
主分类号：	G10L15/24	分类号：	G10L15/24;G06F3/01
代理公司：	中国专利代理(香港)有限公司 72001	代理人：	陈慧;景军平
地址：	美国华***	国省代码：	美国;US
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	利用深度成像扩充语音识别
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

背景技术

计算机化语音识别设法辨识来自音频信息、诸如来自经由一个或多个麦克风接收的音频信号的口语词语。然而，在辨识音频信息中的口语词语中可能出现歧义。另外，口语词语的上下文（例如口语词语是否意图作为对计算设备的语音输入）可能无法从这样的音频信息容易地确定。

发明内容

公开了涉及扩充语音识别的深度成像的使用的实施例。例如，一个公开的实施例在计算设备上提供了一种方法，其包括从深度相机接收物理空间的深度信息，从一个或多个麦克风接收音频信息，从音频信息辨识一个或多个可能的口语词语的集合，基于将来自音频信息的一个或多个可能的口语词语的集合与深度信息比较，确定用于计算设备的语音输入，以及基于所确定的语音输入在计算设备上采取行动。

提供本发明内容来以简化的形式引入在以下具体实施方式中进一步描述的概念的选择。本发明内容不意图辨识所要求保护的主题的关键特征或本质特征，也不意图用于限制所要求保护的主题的范围。另外，所要求保护的主题不限于解决在本公开的任何部分中指出的任何或全部缺点的实现方式。

附图说明

图1示出根据本公开的实施例的语音识别环境的示意性示例。

图2是图示了根据本公开的实施例的用于识别语音的方法的流程图。

图3是图示了根据本公开的另一实施例的用于识别语音的方法的流程图。

图4是图示了根据本公开另外的实施例的用于识别语音的方法的流程图。

图5示意性地示出非限制性计算系统。

具体实施方式

计算机化语音识别可能构成各种挑战。例如，各个词语的发音、口音、尖利性、语气、瑕疵/语言障碍和人类语音的其它变量可能广泛地在用户之间不同。此外，回声和/或噪音和在其中说出词语的房间中的其它不想要的声音（例如扩音器、真空清洁器等）可能妨碍语音识别。另外，在其中说出所识别的词语的上下文可能影响如所识别的语音段是否意图作为语音输入的这样的因素。

因此，公开了涉及利用在从深度相机接收的深度信息中辨识的字面和/或上下文信息来扩充语音识别过程的实施例。例如，在一些实施例中，说话者的嘴部、舌头和/或喉咙的移动可以从深度信息辨识并且用于确认经由音频数据辨识的可能口语词语的身份，辨识在音频数据中未检测到的词语等。此外，在一些实施例中，由说话者执行的手势、姿势可以从深度信息辨识并且用于将所辨识的词语置于所期望的上下文中，诸如确认所辨识的口语词语意图作为对计算设备的输入。如本文所使用的术语“语音识别”可以包括词语识别、说话者识别（例如环境中的两个或更多用户中的哪个正在说话）、语义识别、情绪识别和/或使用环境中的语音的任何其它合适方面的识别。

图1示出语音识别环境100的非限制性示例。具体地，图1示出以可以用于玩各种各样不同的游戏、播放一个或多个不同媒体类型和/或控制或操纵非游戏应用和/或操作系统的娱乐控制台形式的计算系统102。图1还示出诸如电视或计算机监视器之类的显示设备104，其可以用于向用户呈现媒体内容、游戏视觉、非游戏计算内容等。

语音识别环境100还包括以在视觉上监视或追踪所观察的场景内的物体和用户的深度相机形式的捕获设备106。捕获设备106可以在经由一个或多个接口在操作上连接到计算系统102。作为非限制性示例，计算系统102可以包括捕获设备106可以连接到的通用串行总线。捕获设备106可以用于识别、分析和/或追踪物理空间内的一个或多个人类主体和/或物体，诸如用户108。在一个非限制性示例中，捕获设备106可以包括将红外光投射到物理空间上的红外光源和被配置成接收红外光的深度相机。捕获设备还可以包括其它传感器，包括但不限于（多个）二维图像传感器（例如诸如RGB图像传感器之类的可见光相机和/或灰度级传感器）和一个或多个麦克风（例如定向麦克风阵列）。虽然描绘为向娱乐控制台提供输入，但是将理解的是，深度相机可以用于提供与用于任何合适的计算系统的语音识别相关的输入，并且可以使用在非游戏环境中。

为了对物理空间内的物体成像，红外光源可以发射被物理空间中的物体反射开并且被深度相机接收的红外光。基于所接收的红外光，可以构造物理空间的深度图。捕获设备106可以向计算系统102输出从红外光得到的深度图，其中其可以用于创建由深度相机成像的物理空间的表示。捕获设备还可以用于识别物理空间中的物体、监视一个或多个用户的移动、执行手势识别等。可以虚拟地使用任何深度发现技术而不脱离于本公开的范围。参考图5更详细地讨论示例深度发现技术。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司，未经微软技术许可有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201380055810.0/2.html，转载请声明来源钻瓜专利网。

上一篇：声音识别装置
下一篇：通信设备，通信方法，集成电路和电子仪器

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]利用深度成像扩充语音识别在审

专利文献下载