[发明专利]一种基于先验概率的声学解码方法在审
申请号: | 202110233078.8 | 申请日: | 2021-03-03 |
公开(公告)号: | CN113096650A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 吕勇 | 申请(专利权)人: | 河海大学 |
主分类号: | G10L15/14 | 分类号: | G10L15/14;G10L15/06 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 王恒静 |
地址: | 210024 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 先验 概率 声学 解码 方法 | ||
本发明公开一种基于先验概率的声学解码方法,包括如下步骤:统计训练语音文本音节序列中每个音节向其他音节转移的概率;用每个音节的全部训练语音进行模型训练,得到该音节的HMM;读取上一个语音的声学模型输出概率值,若最大值远大于其他值,则用上一个语音的音节转移到每个音节的先验概率对声学模型的输出概率进行加权,并将加权概率最大的声学模型对应的音节作为当前语音声学解码的结果;否则,直接用输出概率最大的声学模型对应的音节作为当前语音声学解码的结果。本发明在声学解码时,除了每个HMM的输出概率,还考虑上一个音节对当前语音的影响,将其作为当前语音的先验概率,可以提高声学解码的精度。
技术领域
本发明属于语音识别技术领域,具体涉及到一种基于先验概率的声学解码方法。
背景技术
在基于统计的语音识别系统中,一般用隐马尔可夫模型(HMM:Hidden MarkovModel)描述每个语音单元(音节)特征向量的分布。在识别阶段,用每个音节的HMM计算当前语音特征向量的概率,并将输出概率最大的HMM对应的音节作为识别结果。
在实验室安静环境中,基于统计的语音识别系统可以取得很高的识别率。但是,语音的高频能量较小,容易受到环境噪声的干扰。因此,用实验室环境中得到的纯净语音声学模型对实际环境中提取的含噪语音特征向量进行声学解码时,有可能出现前几个似然值比较接近的情况,这时将最大似然值对应的音节作为识别结果,很有可能导致误判。实际上,语音识别系统的各音节之间不是独立的,它们存在着某种转移关系,从而导致声学解码的精度不高。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于先验概率的声学解码方法,解决了声学解码精度不高的问题。
技术方案:本发明提出一种基于先验概率的声学解码方法,包括如下步骤:
(1)在训练阶段,将训练语音文本中的所有字都用音节代替,得到音节序列;
(2)统计训练语音文本音节序列中每个音节向其他音节转移的概率,得到音节上下文模型;
(3)用每个音节的全部训练语音进行模型训练,得到该音节的隐马尔可夫模型,所有音节的隐马尔可夫模型组成语音识别系统的声学模型;
(4)在识别阶段,用所述每个声学模型对当前语音特征向量计算输出概率,并将输出概率从大到小排序,存储前若干个概率值;
(5)读取上一个语音的声学模型输出概率值,若最大值远大于其他值,则用上一个语音的音节转移到每个音节的先验概率对声学模型的输出概率进行加权,并将加权概率最大的声学模型对应的音节作为当前语音声学解码的结果;否则,
若上一个语音的声学模型输出概率的最大值与后面的几个值比较接近,则不用音节转移的先验概率进行加权,直接用输出概率最大的声学模型对应的音节作为当前语音声学解码的结果。
进一步的,包括:
所述步骤(2)中,具体包括统计训练语音文本音节序列中每个音节向其他音节转移的先验概率,设音节A在训练语音中出现N次,其中,设音节W1在训练语音中出现N次,其中,有M次下一个音节是音节W2,则音节W1向音节W2转移的先验概率为所有音节转移的先验概率构成所述音节上下文模型。
进一步的,包括:
所述步骤(3)用每个音节的全部训练语音进行模型训练之前先对训练语音进行预处理,包括加窗、分帧和快速傅里叶变换,然后提取训练语音和测试语音的美尔频率倒谱系数,将所述美尔顿率倒谱系数作为训练语音的特征向量。
进一步的,包括:
所述隐马尔可夫模型第i个状态的概率密度函数表示为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110233078.8/2.html,转载请声明来源钻瓜专利网。