[发明专利]利用深度成像扩充语音识别在审

专利信息
申请号: 201380055810.0 申请日: 2013-10-18
公开(公告)号: CN104823234A 公开(公告)日: 2015-08-05
发明(设计)人: J.卡普尔;I.塔舍夫;M.塞尔策尔;S.E.霍奇斯 申请(专利权)人: 微软技术许可有限责任公司
主分类号: G10L15/24 分类号: G10L15/24;G06F3/01
代理公司: 中国专利代理(香港)有限公司 72001 代理人: 陈慧;景军平
地址: 美国华*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要: 公开了涉及使用深度成像来扩充语音识别的实施例。例如,一个所公开的实施例在计算设备上提供了一种方法,其包括从深度相机接收物理空间的深度信息,从一个或多个麦克风接收音频信息,从音频信息辨识一个或多个可能的口语词语的集合,基于将来自音频信息的一个或多个可能的口语词语的集合与深度信息比较,确定用于计算设备的语音输入,以及基于所确定的语音输入在计算设备上采取行动。
搜索关键词: 利用 深度 成像 扩充 语音 识别
【主权项】:
 在计算设备上,一种用于识别用户的语音的方法,包括:从深度相机接收物理空间的深度信息;从一个或多个麦克风接收音频信息;从音频信息辨识一个或多个可能的口语词语的集合;基于将来自音频信息的所述一个或多个可能的口语词语的集合与深度信息比较,确定用于计算设备的语音输入;以及基于所确定的语音输入在计算设备上采取行动。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201380055810.0/,转载请声明来源钻瓜专利网。

同类专利
  • 一种面向移动终端的超声波唇读识别装置及方法-201610803559.7
  • 王晓亮;谭佳瑶;陆桑璐 - 南京大学
  • 2016-09-05 - 2019-06-14 - G10L15/24
  • 本发明公开了一种面向移动终端的超声波唇读识别装置及方法,装置包括超声波发送模块、超声波接收模块和信号处理模块;方法具体为超声波发送模块发送超声波信号,超声波信号在被嘴部反射后,由超声波接收模块接收,信号处理模块处理超声波接收模块获取的反射超声波信号以得到该信号的特征向量,根据特征向量识别口型,得到匹配结果。本发明的有益效果为:以移动终端作为超声波发送和接收模块,在无需额外硬件定制的基础上,利用超声波感知的能力识别唇语,拓展了超声波技术的应用场景,克服了传统唇读识别技术的不足,具有广泛的应用场景。
  • 一种交互方法和设备-201711092757.8
  • 吴楠;雷鸣 - 阿里巴巴集团控股有限公司
  • 2017-11-08 - 2019-05-17 - G10L15/24
  • 本申请提供了一种交互方法和设备,其中,该方法包括:识别是否有对象面对交互设备且处于发声状态;在确定有对象面对所述交互设备且处于发生状态的情况下,获取所述对象的语音数据;根据所述语音数据建立所述对象与所述交互设备之间的交互。通过上述方式解决了现有的语音交互需要为语音设备设置唤醒词,通过唤醒词进行唤醒所存在的唤醒词数量少,且容易误唤醒的技术问题,达到了无需唤醒词即可实现远场语音交互的技术效果。
  • 选择用于自动话音识别的语言的技术-201380057227.3
  • 马丁·扬舍;中岛海佐;成允轩 - 谷歌有限责任公司
  • 2013-08-20 - 2018-12-18 - G10L15/24
  • 一种计算机实现的技术包括在包括一个或更多个处理器的计算设备处接收来自用户的触摸输入。触摸输入包括(i)指示向计算设备提供话音输入的请求的斑点输入,(ii)跟在斑点输入之后的指示用于话音输入的自动话音识别的期望语言的滑动输入。该技术包括在计算设备处接收来自用户的话音输入。该技术包括在计算设备处获得由使用期望语言的话音输入的自动话音识别导致的一个或更多个识别的字符。该技术还包括在计算设备处输出一个或更多个识别的字符。
  • 视频通话挂断方法、装置、设备、服务端及存储介质-201810724577.5
  • 王峰磊;陈果果 - 百度在线网络技术(北京)有限公司
  • 2018-07-04 - 2018-12-11 - G10L15/24
  • 本发明实施例公开了一种视频通话挂断方法、装置、设备、服务端及存储介质。其中,该方法包括:在视频通话过程中采集用户的会话内容和手势动作,并向服务端上报采集的会话内容和手势动作;接收所述服务端依据所述会话内容和手势动作识别的用户意图;若所述用户意图是挂断通话,则执行挂断通话操作。本发明实施例提供的技术方案,让用户的自然表达更具功能性,同时使用户专注于视频通话过程而不被机器或界面所限,使视频通话过程更自然高效,进而提升了用户的体验。
  • 一种肢体语言翻译系统及方法-201810448643.0
  • 张运军 - 深圳双猴科技有限公司
  • 2018-05-11 - 2018-11-06 - G10L15/24
  • 一种肢体语言翻译系统,包括终端设备与云端分布式服务;终端设备通过网络与云端分布式服务连接;其中,终端设备包括:阵列麦克风、摄像头、身体动作感知模块、声音输入模块;云端分布式服务包括:肢体识别服务、肢体翻译服务、肢体合成服务、语音识别服务、语音合成以及机器翻译。区别于现有技术,本发明实施例提供的一种肢体语言翻译系统,通过对身体动作的识别,并将其转换为对应的文字或语音,实现了翻译的多样化,对于具有语言障碍的人员或者外国人起到了很好的辅助作用,帮助其与他人能够正常沟通。
  • 一种将手势转换为汉藏双语语音的方法-201810296311.5
  • 郭威彤;杨鸿武;甘振业 - 西北师范大学
  • 2018-03-30 - 2018-10-16 - G10L15/24
  • 本发明提供了一种将手势转换为汉藏双语语音的方法。该方法包括:利用样本数据对待识别的手势进行手势识别,获取手势的含义;将手势的含义用汉藏双语进行表达得到手势的语义定义,根据手势的语义定义生成手势的上下文相关标注;通过说话人自适应训练利用普通话或藏语的特定说话人的训练语料,获得说话人相关的藏语模型或普通话模型,利用说话人相关的藏语模型或普通话模型和手势的上下文相关标注合成藏语语音或普通话语音。本发明能够将输入的静态手势和动态手势转换为普通话或藏语,能够促进言语障碍者与正常人的日常交流活动,解决残疾人跟正常人交流中的语音输出问题,同时也可以应用于计算机辅助聋哑教学、电视节目双语播放等诸多方面。
  • 基于触觉调节的语音通信装置及语音通信系统-201720748942.7
  • 郑楷洪;赵云;钱斌;何恒靖;周密 - 南方电网科学研究院有限责任公司;中国南方电网有限责任公司电网技术研究中心
  • 2017-06-26 - 2018-01-02 - G10L15/24
  • 本实用新型涉及一种基于触觉调节的语音通信装置及语音通信系统。上述基于触觉调节的语音通信装置包括语音采集电路、语音收发电路、语音输出电路、微型控制器以及振动装置;所述语音采集电路和语音输出电路分别连接所述语音收发电路;所述语音采集电路采集第一语音数据,依次通过所述语音收发电路、通信服务器将第一语音数据转发至通信终端;所述通信终端发送的第二语音数据依次通过所述通信服务器、语音收发电路转发至语音输出电路;所述通信服务器将对第二语音数据处理输出的情感脉冲信号发送至微型控制器;所述微型控制器输出所述情感脉冲信号对应的振动控制信号至振动发生装置;所述振动发生装置接收振动脉冲信号并在手触部位产生振动。
  • 语音识别的方法及装置-201510130636.2
  • 罗炜;贾鑫 - 中兴通讯股份有限公司
  • 2015-03-24 - 2016-11-23 - G10L15/24
  • 本发明公开了一种语音识别的方法及装置,其中,该方法获取用户当前语音的语音识别信息,以及基于与用户当前语音对应的用户当前状态获取该语音识别信息的辅助识别信息;根据语音识别信息和辅助识别信息确定用户当前语音的最终识别结果。通过本发明解决了相关技术中仅通过用户的声音获取用户的讲话内容导致语音识别的准确度不高的问题,进而提高了语音识别的准确性。
  • 利用深度成像扩充语音识别-201380055810.0
  • J.卡普尔;I.塔舍夫;M.塞尔策尔;S.E.霍奇斯 - 微软技术许可有限责任公司
  • 2013-10-18 - 2015-08-05 - G10L15/24
  • 公开了涉及使用深度成像来扩充语音识别的实施例。例如,一个所公开的实施例在计算设备上提供了一种方法,其包括从深度相机接收物理空间的深度信息,从一个或多个麦克风接收音频信息,从音频信息辨识一个或多个可能的口语词语的集合,基于将来自音频信息的一个或多个可能的口语词语的集合与深度信息比较,确定用于计算设备的语音输入,以及基于所确定的语音输入在计算设备上采取行动。
  • 语音和手势识别增强-201380038701.8
  • S·巴斯彻;A·古普塔 - 微软公司
  • 2013-07-19 - 2015-03-25 - G10L15/24
  • 增强了对计算设备的用户输入的识别。用户输入是语音或通过用户作出屏幕接触手势而输入的手写数据,或者是用户所说的一个或多个规定单词以及用户所作出的一个或多个规定屏幕接触手势的组合,或者用户所说的一个或多个规定单词以及用户所作出的一个或多个规定非屏幕接触手势的组合。
  • 一种哑语转换语音系统-201410324724.1
  • 张江杰 - 张江杰
  • 2014-07-09 - 2014-09-24 - G10L15/24
  • 本发明公开了一种哑语转换语音系统,包括3D扫描设备、数据储存处理系统、语音合成模块三部分,该哑语转换语音系统通过3D扫描设备扫描人体骨骼,得到一段时间内的骨骼动作的扫描数据;数据储存处理系统将扫描数据与数据库中预存的骨骼动作的存储数据进行对比,当扫描数据与存储数据吻合时,将数据库中预存的存储数据所对应的含义发送至语音合成模块生成语音并播放。该系统能够将哑语手势自动转换为语音输出,方便残疾人与正常人之间的交流;意思转换及表达准确率较高,速度较快,并具有语气模拟功能。
  • 根据声音变化规律进行手势识别的方法、系统及手机-201310715586.5
  • 陈琼 - 惠州TCL移动通信有限公司
  • 2013-12-23 - 2014-03-26 - G10L15/24
  • 本发明公开了一种根据声音变化规律进行手势识别的方法、系统及手机,其方法包括:A、在终端内设置至少两个麦克风、设定声音变化规律与手势的输入输出关系;B、麦克风获取手势引起的空气流动声音;C、将获取的空气流动声音转换为数字信号;D、对数字信号进行分析计算,并与设定的声音变化规律与手势的输入输出关系对比,输出手势方向信息,本发明采用了麦克风获取声音的方式识别手势,提供了一种新的手势识别手段,通过在设备中添加麦克风实现,相对现有的手势sensor器件,其设计成本要有所降低,而且还能降低设备功耗,通过声音识别手势不受光线的显示。
  • 多媒体设备中使用语音和姿势的控制方法及其多媒体设备-201180052497.6
  • 金慧兰 - LG电子株式会社
  • 2011-11-21 - 2013-07-10 - G10L15/24
  • 公开了一种多媒体设备和用于控制该多媒体设备的方法,其中,通过多媒体设备识别用户的语音和姿势以允许用户执行所期望的操作。该方法包括,启动姿势和语音的遥控器输入的输入;通过遥控器接收用户姿势和语音;识别与接收到的姿势相关联的第一命令;识别与接收到的语音相关联的第二命令;相互比较第一命令和第二命令;以及当比较步骤指示第一命令对应于第二命令时执行与第一或者第二命令相关联的功能。多媒体设备执行用户所期望的操作。
  • 直觉计算方法和系统-201180024228.9
  • G.B.罗兹;T.F.罗德里格斯;G.B.肖;B.L.戴维斯;J.V.阿勒;W.Y.康威尔 - 数字标记公司
  • 2011-03-18 - 2013-01-23 - G10L15/24
  • 智能电话感测来自用户环境的音频、图像、和/或其他刺激,并且自发地行动从而满足推断出的或预见到的用户需求。在一个方面中,所详述的技术涉及对手机的摄像机观察到的景象进行基于手机的认知。应用于所述景象的图像处理任务可以参考资源成本、资源限制、其他刺激信息(例如音频)、任务可替代性等因素从各种备选者中选择。手机可以取决于图像处理任务进行的成功程度或者基于用户对图像处理任务的明显兴趣而对所述任务应用更多或更少的资源。在一些方案中,数据可以提交给云进行分析或进行搜集。适当的装置响应的认知和识别可以由间接信息(诸如背景环境)辅助。也详述了大量其他特征和方案。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top