[发明专利]一种组合PCA和RBM的孤立数字语音识别分类系统及方法有效
申请号: | 201510514595.7 | 申请日: | 2015-08-20 |
公开(公告)号: | CN105206270B | 公开(公告)日: | 2019-04-02 |
发明(设计)人: | 宋青松;田正鑫;安毅生;赵祥模 | 申请(专利权)人: | 长安大学 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/08 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 徐文权 |
地址: | 710064 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种组合PCA和RBM的孤立数字语音识别分类系统及方法,首先,采用梅尔频率倒谱系数(MFCC)与一阶差分MFCC相组合,初步抽取孤立数字的语音动态特征;然后采用主成分分析(PCA)对MFCC组合特征作线性降维处理,并统一新得到的特征的维数;进而,采用受限波尔兹曼机(RBM)对所得新特征作非线性降维处理;最后,采用Softmax分类器对非线性降维后的数字语音特征完成识别分类。本发明采用PCA线性降维、统一特征的维数与RBM非线性降维相结合,大大改善了模型的特征表征与分类能力,提高了孤立数字语音识别正确率,为实现孤立数字语音高准确率识别提供了一种高效的解决方案。 | ||
搜索关键词: | 一种 组合 pca rbm 孤立 数字 语音 识别 分类 系统 方法 | ||
【主权项】:
1.一种组合PCA和RBM的孤立数字语音识别分类方法,其特征在于,包括以下步骤:步骤1:输入孤立数字语音信号;步骤2:提取孤立数字语音信号的MEL频率倒谱系数MFCC,然后计算一阶差分倒谱系数,并与MEL频率倒谱系数MFCC进行组合得到MFCC组合特征参数;其中提取孤立数字语音信号的MEL频率倒谱系数MFCC的具体过程为:步骤2.1:将原始孤立数字语音信号S0通过预加重、分帧、加窗处理得到成帧的语音信号Sf,其中,预加重处理使用的传递函数为
式中,S0为原始语音信号,u为预加重系数,取0.9375,H(S0)为预加重后的语音信号;步骤2.2:采用基于短时能量和短时过零率的端点检测方法,从成帧的语音信号Sf中截取得到实际有效的语音信号帧Se;步骤2.3:对每一实际有效的语音信号帧Se进行离散FFT变换得到其频谱,再对该频谱取模的平方求得离散功率谱S(n);步骤2.4:将离散功率谱S(n)通过M个具有三角滤波特性的带通滤波器Hm(n)的MEL滤波器组得到MEL频谱,即计算S(n)和Hm(n)在各离散频率点上的乘积之和,得到M个MEL频谱参数Pm,m=0,1…M‑1;步骤2.5:将得到的MEL频谱取对数能量得到对数能量谱,再经MEL滤波器组输出,即计算Pm的自然对数,得到对数能量谱Lm,m=0,1…M‑1;步骤2.6:将对数能量谱Lm经过离散余弦变换到倒谱域即可得到MEL频率倒谱系数Dm,m=0,1…M‑1,舍去代表直流成份的D0,取D1,D2…Dg作为MFCC特征参数值,其中M取24,g取12;步骤3:采用PCA对MFCC组合参数特征进行线性降维,并且使降维后得到的特征维数得到统一;采用PCA对MFCC组合参数特征进行线性降维,并且使降维后得到的特征维数得到统一的方法为:对语音信号求MFCC特征参数,每一帧得到24维的MFCC组合特征参数,最后该语音信号得到一个N*24的特征参数矩阵,N为语音信号的帧数,将特征参数矩阵进行转置,再与特征参数矩阵相乘,得到24*24的方阵,求其特征值,取前两个最大特征值所对应的特征向量作为该语音信号的特征参数,得到一个48维的特征向量;步骤4:采用RBM对线性降维后得到的特征进行非线性降维处理;采用RBM对线性降维后得到的特征进行非线性降维处理的方法为:步骤4.1:构建RBM,RBM由显层、隐层两层构成,层内无连接,层间双向连接,RBM显层神经元个数为48,对应非线性特征向量维数48,隐层神经元个数为10,对应0~9十个数字语音分类,层间连接权重初始化为正态分布,均值为零,标准差0.01的随机数,显层和隐层的偏置均初始化为0;步骤4.2:训练RBM,训练用样本批量处理,RBM的训练使用对比散度算法,采用高斯‑伯努利RBM定义能量函数:
式中,θ={ai,bj,wij}是RBM的模型参数,ai是显层节点i的偏置,bj是隐层节点j的偏置,wij是显层节点i和隐层节点j之间的连接权值,v是显层神经元,S为显层神经元个数,h是隐层神经元,T为隐层神经元个数;RBM模型的联合概率分布为:
其中,
为配分函数,θ={ai,bj,wij}是RBM的模型参数,v是显层神经元,h是隐层神经元;RBM模型关于显层神经元节点的边缘概率分布为:
其中,θ={ai,bj,wij}是RBM的模型参数,v是显层神经元,h是隐层神经元;RBM的模型参数使用最大似然准则通过无监督训练得到,训练的目标函数为:
其中,θ={ai,bj,wij}是RBM的模型参数,v是显层神经元;对目标函数求偏导,可以得到权值的更新公式为:Δwij=Edata(vihj)‑Emodel(vihj)式中,Edata(vihj)是训练集数据的显层和隐层状态的期望值,Emodel(vihj)是对所有可能的(v,h)建立模型的期望值;Δwij为权值的改变量;各参数的更新准则为:Δwij=mΔwij+ε(data‑recon)Δbi=mΔbi+ε(data‑recon)Δaj=mΔaj+ε(data‑recon)其中,m是动量参数,在训练迭代前5次,m取0.9,大于第5次,取0.5,ε是学习率,取0.001,<.>recon表示一步重构后模型定义的分布;使用重构误差对RBM进行评估,重构误差就是以训练数据作为初始状态,根据RBM的分布进行一次吉布斯采样所获得的样本与原数据的差异;步骤4.3:训练完毕后保存RBM的权值和偏置值,训练后的RBM实现线性降维后得到的特征的非线性降维输出;步骤5:采用Softmax分类器实现孤立数字语音的识别分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长安大学,未经长安大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510514595.7/,转载请声明来源钻瓜专利网。
- 上一篇:基于分布式麦克风阵列网络的语音增强方法
- 下一篇:一种语音转换方法