[发明专利]一种基于先验概率的声学解码方法在审
申请号: | 202110233078.8 | 申请日: | 2021-03-03 |
公开(公告)号: | CN113096650A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 吕勇 | 申请(专利权)人: | 河海大学 |
主分类号: | G10L15/14 | 分类号: | G10L15/14;G10L15/06 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 王恒静 |
地址: | 210024 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 先验 概率 声学 解码 方法 | ||
1.一种基于先验概率的声学解码方法,其特征在于,包括如下步骤:
(1)在训练阶段,将训练语音文本中的所有字都用音节代替,得到音节序列;
(2)统计训练语音文本音节序列中每个音节向其他音节转移的概率,得到音节上下文模型;
(3)用每个音节的全部训练语音进行模型训练,得到该音节的隐马尔可夫模型,所有音节的隐马尔可夫模型组成语音识别系统的声学模型;
(4)在识别阶段,用所述每个声学模型对当前语音特征向量计算输出概率,并将输出概率从大到小排序,存储前若干个概率值;
(5)读取上一个语音的声学模型输出概率值,若最大值远大于其他值,则用上一个语音的音节转移到每个音节的先验概率对声学模型的输出概率进行加权,并将加权概率最大的声学模型对应的音节作为当前语音声学解码的结果;否则,
若上一个语音的声学模型输出概率的最大值与后面的几个值比较接近,则不用音节转移的先验概率进行加权,直接用输出概率最大的声学模型对应的音节作为当前语音声学解码的结果。
2.如权利要求1所述的基于先验概率的声学解码方法,其特征在于,所述步骤(2)中,具体包括统计训练语音文本音节序列中每个音节向其他音节转移的先验概率,设音节A在训练语音中出现N次,其中,设音节W1在训练语音中出现N次,其中,有M次下一个音节是音节W2,则音节W1向音节W2转移的先验概率为所有音节转移的先验概率构成所述音节上下文模型。
3.如权利要求1所述的基于先验概率的声学解码方法,其特征在于,所述步骤(3)用每个音节的全部训练语音进行模型训练之前先对训练语音进行预处理,包括加窗、分帧和快速傅里叶变换,然后提取训练语音和测试语音的美尔频率倒谱系数,将所述美尔顿率倒谱系数作为训练语音的特征向量。
4.如权利要求1所述的基于先验概率的声学解码方法,其特征在于,所述隐马尔可夫模型第i个状态的概率密度函数表示为:
其中,ot表示第t帧MFCC特征向量,cim、μim和Σim分别表示第i个状态的第m个高斯单元的混合系数、均值向量和协方差矩阵,M表示每个状态的高斯混合数,D表示特征向量的维数。
5.如权利要求1所述的基于先验概率的声学解码方法,其特征在于,所述步骤(5)具体包括:
(51)用每个音节的隐马尔可夫模型对当前测试语音的特征向量计算输出概率,并对所述输出概率取对数,得到每个隐马尔可夫模型的似然值Lj,j=0,1,2…N-1,其中,N是音节的数量;
(52)将似然值从大到小排序,存储前Q个音节的似然值,其中,Q≥2,对当前语音进行声学解码时,读取上一个语音的隐马尔可夫模型的输出似然值;
(53)如果其最大值远大于其他Q-1个值,则用音节转移的先验概率对隐马尔可夫模型的输出概率进行加权:
其中,Pij是上一个语音的识别结果;是加权后的输出概率似然值;
否则,若上一个语音的隐马尔可夫模型的输出概率最大值与其他Q-1个值中的前几个较大值比较接近,则令即不进行先验概率加权,直接用HMM的输出似然值进行声学解码;
(54)比较得到的所有的大小,用最大值对应的音节作为声学解码的识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110233078.8/1.html,转载请声明来源钻瓜专利网。