[发明专利]语音识别方法及装置有效
申请号: | 201910827387.0 | 申请日: | 2015-01-30 |
公开(公告)号: | CN110895929B | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 孙廷玮;林福辉 | 申请(专利权)人: | 展讯通信(上海)有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L25/24 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 薛娇 |
地址: | 201203 上海市浦东新区浦东*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 | ||
一种语音识别方法及装置,所述方法包括:将采集到的输入声音信号进行处理,得到输入声音数据;对所述输入声音数据进行几何重塑,得到降维后的所述输入声音数据的低维表征数据;采用所述输入声音数据的低维表征数据与预设的降维后的声音训练数据的低维表征数据,计算得出所述输入声音数据的VAD分值,所述声音训练数据的低维数据表征通过对所述声音训练数据进行几何重塑得到;当确定计算得出的VAD分值大于预设的分值阈值时,对所述声音数据进行语音识别。上述的方案可以节约语音识别的时间和计算资源。
本申请为申请日为2015年01月30日,申请号为:201510051345.4,名称为:语音识别方法及装置的分案申请。
技术领域
本发明涉及语音识别技术领域,特别是涉及一种语音识别方法及装置。
背景技术
移动终端,是指可以在移动中使用的计算机设备,广义地讲包括手机、笔记本、平板电脑、POS机、车载电脑等。随着集成电路技术的飞速发展,移动终端已经拥有了强大的处理能力,移动终端正在从简单的通话工具变为一个综合信息处理平台,这也给移动终端增加了更加宽广的发展空间。
移动终端的使用,通常需要用户集中一定的注意力。如今的移动终端设备都配备有触摸屏,用户需要触摸所述触摸屏,以执行相应的操作。但是,用户无法触碰到移动终端设备时,操作移动终端便会变得极其不方便。例如,当用户驾驶车辆或者手中提有物品的时候。
语音识别方法和总听系统(Always Listening System)的使用,使得可以对移动终端进行非手动激活和操作。当所述总听系统检测到声音信号时,语音识别系统便会激活,并对检测到的声音信号进行识别。之后,移动终端便会根据所识别出的声音信号执行相应的操作。例如,当用户输入“拨打XX的手机”的语音时,移动终端便可以对用户输入的“拨打XX的手机”的语音信息进行识别,并在正确识别后,从移动终端中获取XX的手机号码的信息,并拨打。
但是,现有技术中的语音识别方法,采用高斯混合模型(Gaussian mixturemodel,GMM)进行语音识别,但是,在采用GMM进行声音训练数据的训练时,为了获取更好的性能,通常需要很多的声音训练数据,因此,现有技术中的语音识别方法存在着浪费时间和计算资源的问题。
发明内容
本发明实施例解决的问题是如何在进行语音识别时,节约时间和计算资源。
为解决上述问题,本发明实施例提供了一种语音识别方法,所述语音识别方法包括:
将采集到的输入声音信号进行处理,得到输入声音数据;
对所述输入声音数据进行几何重塑,得到降维后的所述输入声音数据的低维表征数据;
采用所述输入声音数据的低维表征数据与预设的降维后的声音训练数据的低维表征数据,计算得出所述输入声音数据的VAD分值,所述声音训练数据的低维数据表征通过对所述声音训练数据进行几何重塑得到;
当确定计算得出的VAD分值大于预设的分值阈值时,对所述声音数据进行语音识别。
可选地,所述对所述声音数据进行几何重塑,得到所述声音数据的低维表征数据,包括:
获取所述输入声音数据的MFCC,及其对应的MFCC频带数量的信息;
将所获取的所述输入声音数据的MFCC划分成不同的时隙,并根据所得到的MFCC频带数量的信息,计算得出所述输入声音数据的对数似然比;
采用计算得出的所述输入声音数据的对数似然比,构建所述输入声音数据的特征矩阵;
构建所述输入声音数据的特征矩阵对应的相似矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于展讯通信(上海)有限公司,未经展讯通信(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910827387.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:车辆用控制系统及车辆的控制方法
- 下一篇:连续抽锌装置及方法