[发明专利]利用深度成像扩充语音识别在审

申请号：	201380055810.0	申请日：	2013-10-18
公开（公告）号：	CN104823234A	公开（公告）日：	2015-08-05
发明（设计）人：	J.卡普尔;I.塔舍夫;M.塞尔策尔;S.E.霍奇斯	申请（专利权）人：	微软技术许可有限责任公司
主分类号：	G10L15/24	分类号：	G10L15/24;G06F3/01
代理公司：	中国专利代理(香港)有限公司 72001	代理人：	陈慧;景军平
地址：	美国华***	国省代码：	美国;US
权利要求书：	查看更多	说明书：	查看更多
摘要：	公开了涉及使用深度成像来扩充语音识别的实施例。例如，一个所公开的实施例在计算设备上提供了一种方法，其包括从深度相机接收物理空间的深度信息，从一个或多个麦克风接收音频信息，从音频信息辨识一个或多个可能的口语词语的集合，基于将来自音频信息的一个或多个可能的口语词语的集合与深度信息比较，确定用于计算设备的语音输入，以及基于所确定的语音输入在计算设备上采取行动。
搜索关键词：	利用深度成像扩充语音识别
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

在计算设备上，一种用于识别用户的语音的方法，包括：从深度相机接收物理空间的深度信息；从一个或多个麦克风接收音频信息；从音频信息辨识一个或多个可能的口语词语的集合；基于将来自音频信息的所述一个或多个可能的口语词语的集合与深度信息比较，确定用于计算设备的语音输入；以及基于所确定的语音输入在计算设备上采取行动。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司，未经微软技术许可有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201380055810.0/，转载请声明来源钻瓜专利网。

上一篇：声音识别装置
下一篇：通信设备，通信方法，集成电路和电子仪器

同类专利

用于非接触式用户接口的混合输入设备-201480017489.1
发明人： R·怀特;J·基维奥亚;A·P·马修斯;M·阿斯特莱;S·博里尼 -专利权人：诺基亚技术有限公司
申请日： 2014-01-07 - 公布日： 2019-08-20 - 主分类号： G10L15/24
摘要：装置(100)包括：传感器(110)，其包括敏感膜(140)，所述敏感膜被配置为提供基于用户的呼吸的信号；以及控制器(130)，其可操作地与所述传感器(110)相关联。所述控制器(130)被配置为接收基于所述用户的呼吸的所述信号。

一种面向移动终端的超声波唇读识别装置及方法-201610803559.7
发明人：王晓亮;谭佳瑶;陆桑璐 -专利权人：南京大学
申请日： 2016-09-05 - 公布日： 2019-06-14 - 主分类号： G10L15/24
摘要：本发明公开了一种面向移动终端的超声波唇读识别装置及方法，装置包括超声波发送模块、超声波接收模块和信号处理模块；方法具体为超声波发送模块发送超声波信号，超声波信号在被嘴部反射后，由超声波接收模块接收，信号处理模块处理超声波接收模块获取的反射超声波信号以得到该信号的特征向量，根据特征向量识别口型，得到匹配结果。本发明的有益效果为：以移动终端作为超声波发送和接收模块，在无需额外硬件定制的基础上，利用超声波感知的能力识别唇语，拓展了超声波技术的应用场景，克服了传统唇读识别技术的不足，具有广泛的应用场景。

一种交互方法和设备-201711092757.8
发明人：吴楠;雷鸣 -专利权人：阿里巴巴集团控股有限公司
申请日： 2017-11-08 - 公布日： 2019-05-17 - 主分类号： G10L15/24
摘要：本申请提供了一种交互方法和设备，其中，该方法包括：识别是否有对象面对交互设备且处于发声状态；在确定有对象面对所述交互设备且处于发生状态的情况下，获取所述对象的语音数据；根据所述语音数据建立所述对象与所述交互设备之间的交互。通过上述方式解决了现有的语音交互需要为语音设备设置唤醒词，通过唤醒词进行唤醒所存在的唤醒词数量少，且容易误唤醒的技术问题，达到了无需唤醒词即可实现远场语音交互的技术效果。

选择用于自动话音识别的语言的技术-201380057227.3
发明人：马丁·扬舍;中岛海佐;成允轩 -专利权人：谷歌有限责任公司
申请日： 2013-08-20 - 公布日： 2018-12-18 - 主分类号： G10L15/24
摘要：一种计算机实现的技术包括在包括一个或更多个处理器的计算设备处接收来自用户的触摸输入。触摸输入包括(i)指示向计算设备提供话音输入的请求的斑点输入，(ii)跟在斑点输入之后的指示用于话音输入的自动话音识别的期望语言的滑动输入。该技术包括在计算设备处接收来自用户的话音输入。该技术包括在计算设备处获得由使用期望语言的话音输入的自动话音识别导致的一个或更多个识别的字符。该技术还包括在计算设备处输出一个或更多个识别的字符。

视频通话挂断方法、装置、设备、服务端及存储介质-201810724577.5
发明人：王峰磊;陈果果 -专利权人：百度在线网络技术（北京）有限公司
申请日： 2018-07-04 - 公布日： 2018-12-11 - 主分类号： G10L15/24
摘要：本发明实施例公开了一种视频通话挂断方法、装置、设备、服务端及存储介质。其中，该方法包括：在视频通话过程中采集用户的会话内容和手势动作，并向服务端上报采集的会话内容和手势动作；接收所述服务端依据所述会话内容和手势动作识别的用户意图；若所述用户意图是挂断通话，则执行挂断通话操作。本发明实施例提供的技术方案，让用户的自然表达更具功能性，同时使用户专注于视频通话过程而不被机器或界面所限，使视频通话过程更自然高效，进而提升了用户的体验。

一种肢体语言翻译系统及方法-201810448643.0
发明人：张运军 -专利权人：深圳双猴科技有限公司
申请日： 2018-05-11 - 公布日： 2018-11-06 - 主分类号： G10L15/24
摘要：一种肢体语言翻译系统，包括终端设备与云端分布式服务；终端设备通过网络与云端分布式服务连接；其中，终端设备包括：阵列麦克风、摄像头、身体动作感知模块、声音输入模块；云端分布式服务包括：肢体识别服务、肢体翻译服务、肢体合成服务、语音识别服务、语音合成以及机器翻译。区别于现有技术，本发明实施例提供的一种肢体语言翻译系统，通过对身体动作的识别，并将其转换为对应的文字或语音，实现了翻译的多样化，对于具有语言障碍的人员或者外国人起到了很好的辅助作用，帮助其与他人能够正常沟通。

一种将手势转换为汉藏双语语音的方法-201810296311.5
发明人：郭威彤;杨鸿武;甘振业 -专利权人：西北师范大学
申请日： 2018-03-30 - 公布日： 2018-10-16 - 主分类号： G10L15/24
摘要：本发明提供了一种将手势转换为汉藏双语语音的方法。该方法包括：利用样本数据对待识别的手势进行手势识别，获取手势的含义；将手势的含义用汉藏双语进行表达得到手势的语义定义，根据手势的语义定义生成手势的上下文相关标注；通过说话人自适应训练利用普通话或藏语的特定说话人的训练语料，获得说话人相关的藏语模型或普通话模型，利用说话人相关的藏语模型或普通话模型和手势的上下文相关标注合成藏语语音或普通话语音。本发明能够将输入的静态手势和动态手势转换为普通话或藏语，能够促进言语障碍者与正常人的日常交流活动，解决残疾人跟正常人交流中的语音输出问题，同时也可以应用于计算机辅助聋哑教学、电视节目双语播放等诸多方面。

基于触觉调节的语音通信装置及语音通信系统-201720748942.7
发明人：郑楷洪;赵云;钱斌;何恒靖;周密 -专利权人：南方电网科学研究院有限责任公司;中国南方电网有限责任公司电网技术研究中心
申请日： 2017-06-26 - 公布日： 2018-01-02 - 主分类号： G10L15/24
摘要：本实用新型涉及一种基于触觉调节的语音通信装置及语音通信系统。上述基于触觉调节的语音通信装置包括语音采集电路、语音收发电路、语音输出电路、微型控制器以及振动装置；所述语音采集电路和语音输出电路分别连接所述语音收发电路；所述语音采集电路采集第一语音数据，依次通过所述语音收发电路、通信服务器将第一语音数据转发至通信终端；所述通信终端发送的第二语音数据依次通过所述通信服务器、语音收发电路转发至语音输出电路；所述通信服务器将对第二语音数据处理输出的情感脉冲信号发送至微型控制器；所述微型控制器输出所述情感脉冲信号对应的振动控制信号至振动发生装置；所述振动发生装置接收振动脉冲信号并在手触部位产生振动。

声音合成设备和用于合成声音的方法-201480078437.5
发明人： L.J.布罗尼科夫斯基;A.鲁塔;J.特卡祖克;D.科津斯基 -专利权人：三星电子株式会社
申请日： 2014-12-18 - 公布日： 2016-12-14 - 主分类号： G10L15/24
摘要：提供了一种声音合成设备。该声音合成设备包括：电极阵列，配置为响应于用户的无声语音，从用户的皮肤检测肌电图(EMG)信号；语音活动检测模块，配置为检测用户的无声语音时段；特征提取器，配置为提取指示无声语音时段的EMG信号的特征的信号描述符；和声音合成器，配置为通过使用所提取的信号描述符合成语音。

语音识别的方法及装置-201510130636.2
发明人：罗炜;贾鑫 -专利权人：中兴通讯股份有限公司
申请日： 2015-03-24 - 公布日： 2016-11-23 - 主分类号： G10L15/24
摘要：本发明公开了一种语音识别的方法及装置，其中，该方法获取用户当前语音的语音识别信息，以及基于与用户当前语音对应的用户当前状态获取该语音识别信息的辅助识别信息；根据语音识别信息和辅助识别信息确定用户当前语音的最终识别结果。通过本发明解决了相关技术中仅通过用户的声音获取用户的讲话内容导致语音识别的准确度不高的问题，进而提高了语音识别的准确性。

利用深度成像扩充语音识别-201380055810.0
发明人： J.卡普尔;I.塔舍夫;M.塞尔策尔;S.E.霍奇斯 -专利权人：微软技术许可有限责任公司
申请日： 2013-10-18 - 公布日： 2015-08-05 - 主分类号： G10L15/24
摘要：公开了涉及使用深度成像来扩充语音识别的实施例。例如，一个所公开的实施例在计算设备上提供了一种方法，其包括从深度相机接收物理空间的深度信息，从一个或多个麦克风接收音频信息，从音频信息辨识一个或多个可能的口语词语的集合，基于将来自音频信息的一个或多个可能的口语词语的集合与深度信息比较，确定用于计算设备的语音输入，以及基于所确定的语音输入在计算设备上采取行动。

语音和手势识别增强-201380038701.8
发明人： S·巴斯彻;A·古普塔 -专利权人：微软公司
申请日： 2013-07-19 - 公布日： 2015-03-25 - 主分类号： G10L15/24
摘要：增强了对计算设备的用户输入的识别。用户输入是语音或通过用户作出屏幕接触手势而输入的手写数据，或者是用户所说的一个或多个规定单词以及用户所作出的一个或多个规定屏幕接触手势的组合，或者用户所说的一个或多个规定单词以及用户所作出的一个或多个规定非屏幕接触手势的组合。

一种哑语转换语音系统-201410324724.1
发明人：张江杰 -专利权人：张江杰
申请日： 2014-07-09 - 公布日： 2014-09-24 - 主分类号： G10L15/24
摘要：本发明公开了一种哑语转换语音系统，包括3D扫描设备、数据储存处理系统、语音合成模块三部分，该哑语转换语音系统通过3D扫描设备扫描人体骨骼，得到一段时间内的骨骼动作的扫描数据；数据储存处理系统将扫描数据与数据库中预存的骨骼动作的存储数据进行对比，当扫描数据与存储数据吻合时，将数据库中预存的存储数据所对应的含义发送至语音合成模块生成语音并播放。该系统能够将哑语手势自动转换为语音输出，方便残疾人与正常人之间的交流；意思转换及表达准确率较高，速度较快，并具有语气模拟功能。

根据声音变化规律进行手势识别的方法、系统及手机-201310715586.5
发明人：陈琼 -专利权人：惠州TCL移动通信有限公司
申请日： 2013-12-23 - 公布日： 2014-03-26 - 主分类号： G10L15/24
摘要：本发明公开了一种根据声音变化规律进行手势识别的方法、系统及手机，其方法包括：A、在终端内设置至少两个麦克风、设定声音变化规律与手势的输入输出关系；B、麦克风获取手势引起的空气流动声音；C、将获取的空气流动声音转换为数字信号；D、对数字信号进行分析计算，并与设定的声音变化规律与手势的输入输出关系对比，输出手势方向信息，本发明采用了麦克风获取声音的方式识别手势，提供了一种新的手势识别手段，通过在设备中添加麦克风实现，相对现有的手势sensor器件，其设计成本要有所降低，而且还能降低设备功耗，通过声音识别手势不受光线的显示。

多媒体设备中使用语音和姿势的控制方法及其多媒体设备-201180052497.6
发明人：金慧兰 -专利权人： LG电子株式会社
申请日： 2011-11-21 - 公布日： 2013-07-10 - 主分类号： G10L15/24
摘要：公开了一种多媒体设备和用于控制该多媒体设备的方法，其中，通过多媒体设备识别用户的语音和姿势以允许用户执行所期望的操作。该方法包括，启动姿势和语音的遥控器输入的输入；通过遥控器接收用户姿势和语音；识别与接收到的姿势相关联的第一命令；识别与接收到的语音相关联的第二命令；相互比较第一命令和第二命令；以及当比较步骤指示第一命令对应于第二命令时执行与第一或者第二命令相关联的功能。多媒体设备执行用户所期望的操作。

直觉计算方法和系统-201180024228.9
发明人： G.B.罗兹;T.F.罗德里格斯;G.B.肖;B.L.戴维斯;J.V.阿勒;W.Y.康威尔 -专利权人：数字标记公司
申请日： 2011-03-18 - 公布日： 2013-01-23 - 主分类号： G10L15/24
摘要：智能电话感测来自用户环境的音频、图像、和/或其他刺激，并且自发地行动从而满足推断出的或预见到的用户需求。在一个方面中，所详述的技术涉及对手机的摄像机观察到的景象进行基于手机的认知。应用于所述景象的图像处理任务可以参考资源成本、资源限制、其他刺激信息（例如音频）、任务可替代性等因素从各种备选者中选择。手机可以取决于图像处理任务进行的成功程度或者基于用户对图像处理任务的明显兴趣而对所述任务应用更多或更少的资源。在一些方案中，数据可以提交给云进行分析或进行搜集。适当的装置响应的认知和识别可以由间接信息（诸如背景环境）辅助。也详述了大量其他特征和方案。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]利用深度成像扩充语音识别在审

专利文献下载