[发明专利]语音识别方法、装置及终端有效
申请号: | 201610063803.0 | 申请日: | 2016-01-29 |
公开(公告)号: | CN105679321B | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 黎小松;傅文治;胡绩强;汪平炜 | 申请(专利权)人: | 宇龙计算机通信科技(深圳)有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26 |
代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 梁军 |
地址: | 518057 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 终端 | ||
本发明公开了一种语音识别方法、装置及终端,用以提高现有语音识别方式的抗噪性能。所述方法包括:获取一帧语音信号,从所述语音信号中提取d维MFCC参数;对d维所述MFCC参数进行倒谱计算,获得d维倒谱MFCC参数;根据预设的迭代次数对各维所述倒谱MFCC参数进行迭代处理,获得d维迭代倒谱MFCC参数;基于d维所述迭代倒谱MFCC参数,对所述语音信号进行识别。
技术领域
本发明涉及电子领域,特别是涉及一种语音识别方法、装置及终端。
背景技术
语音特征提取在语音识别过程中是非常关键的步骤,目前语音识别算法主要是在信号空间对噪声信号进行预处理(比如滤波),以得到更为纯净的语音信号,但是语音识别在嘈杂环境下识别率仍不理想;因此如何能准确有效地提取出反映语音特征的特征参数是个重要的研究课题;特征参数的鲁棒性和精确性直接影响到语音识别的准确率;同时,特征提取对语音识别系统的实时性也有着很大的影响。
目前,特征参数提取方法主要有基音、共振峰、线性预测编码(Linear PredictiveCoding,LPC)、线性预测倒谱系数(LPCC)和梅尔倒谱系数(Mel-Frequency CepstralCoefficients,MFCC)等。LPC和LPCC没有考虑到人耳的听觉特性,没有采用非线性的频率变换,不能精确地描述说话人的特征。MFCC参数模拟了人耳对语音不同频谱的感知能力,考虑了人耳的听觉特性,MFCC特征性能较好,计算复杂度低,具有良好的识别性能和鲁棒性;但传统的MFCC特征参数频谱能量泄露严重和描述语音信号的共振峰特性不够,因此传统的基于MFCC特征参数进行语音识别过程冗余性较高,导致低信噪比的语音识别系统鲁棒性较差和识别率下降明显。
发明内容
本发明的目的在于提供一种语音识别方法、装置及终端,用以提高现有语音识别方式的抗噪性能。
根据本发明的一个方面,本发明提供一种语音识别方法,其特征在于,包括:
获取一帧语音信号,从所述语音信号中提取d维MFCC参数;
对d维所述MFCC参数进行倒谱计算,获得d维倒谱MFCC参数;
根据预设的迭代次数对各维所述倒谱MFCC参数进行迭代处理,获得d维迭代倒谱MFCC参数;
基于d维所述迭代倒谱MFCC参数,对所述语音信号进行识别。
进一步,基于d维所述迭代倒谱MFCC参数,对所述语音信号进行识别的步骤,具体包括:
对d维所述迭代倒谱MFCC参数采用差分方式获得d个特征补偿值;
根据d个所述特征补偿值,对d维所述迭代倒谱MFCC参数进行特征补偿;
基于经过特征补偿的所述迭代倒谱MFCC参数,对所述语音信号进行识别。
进一步,基于经过特征补偿的所述迭代倒谱MFCC参数,对所述语音信号进行识别的步骤,具体包括:
对经过特征补偿的所述迭代倒谱MFCC参数,采用主成分分析方式进行降维处理;
基于降维处理后的所述迭代倒谱MFCC参数,对所述语音信号进行识别。
进一步,采用下述公式进行倒谱计算,获得d维所述倒谱MFCC参数:
其中,C(n)为第n维MFCC参数;C′(n)为第n维倒谱MFCC参数;d为一帧语音信号提取的MFCC参数的维数。
进一步,采用下述公式进行迭代处理,获得d维所述迭代倒谱MFCC参数:
其中,i为迭代次数,α为扭曲因子,C0′(n+1)为迭代初值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宇龙计算机通信科技(深圳)有限公司,未经宇龙计算机通信科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610063803.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种声纹识别相似度评分的方法和装置
- 下一篇:移动终端和降噪方法