[发明专利]一种基于级联DNN的语音唤醒优化方法在审
| 申请号: | 201910334772.1 | 申请日: | 2019-04-24 |
| 公开(公告)号: | CN109887511A | 公开(公告)日: | 2019-06-14 |
| 发明(设计)人: | 赵升 | 申请(专利权)人: | 武汉水象电子科技有限公司 |
| 主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/24;G10L17/18 |
| 代理公司: | 连云港联创专利代理事务所(特殊普通合伙) 32330 | 代理人: | 刘刚 |
| 地址: | 430000 湖北省武汉市东湖新技术开发区关南*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 第一级 过程计算 后验概率 声学特征 唤醒 语音 截取 级联 前向 输出 音素 语料 逐帧 实时语音信号 环境适应性 麦克风 唤醒检测 抗噪能力 声学模型 实时获取 特征抽取 语言模型 语音信号 固定窗 固定的 声学 窗长 建模 两级 优化 判定 文本 采集 | ||
1.一种基于级联DNN的语音唤醒优化方法,其特征在于,包括以下步骤:
1)实时获取麦克风采集的语音信号,经过特征抽取,获得实时语音信号的逐帧声学特征;
2)以固定窗长,截取声学特征序列,形成一帧,作为第一级DNN的输入;
3)经过第一级DNN声学模型的前向过程计算,输出得到逐帧音素的声学后验概率;
4)以固定的窗长截取第一级DNN的输出,形成一帧音素后验概率序列,作为第二级DNN的输入;
5)经过第二级DNN前向过程计算,判定是否唤醒,并输出唤醒与否的判定结果。
2.如权利要求1所述的基于级联DNN的语音唤醒优化方法,其特征在于,所述步骤1)中特征抽取是指实时语音的MFCC(Mel Frequency Cepstral Coefficents)特征提取,共14维度,第14维为当前帧的对数能量。
3.根据权利要求1所述的基于级联DNN的语音唤醒优化方法,其特征在于,所述步骤3)中,经过第一级DNN声学模型的前向过程计算,输出得到逐帧音素的声学后验概率,包含以下步骤:
1)将帧变形至维度为1,形成1维的特征序列;
2)将1维特征序列送入第一级DNN,进行音素级声学后验概率计算;
3)经过第一级DNN前向计算获得关键词音素、静音音素或者非关键词音素的声学后验概率。
4.根据权利要求3所述的基于级联DNN的语音唤醒优化方法,其特征在于,所述的第一级DNN为上下文相关的音素声学模型,利用一个多层全连接神经网络对声学特征序列建模。
5.根据权利要求3所述的基于级联DNN的语音唤醒优化方法,其特征在于,所述的关键词音素为组成关键词的所有音素,非关键词音素是指除关键词音素和静音音素以外所有音素,模型中统一标定为filler。
6.根据权利要求1所述的一种基于级联DNN的语音唤醒优化方法,其特征在于,步骤5)中,经过第二级DNN前向过程计算,判定是否唤醒,包含如下步骤:
1)将音素后验概率序列变形至1维,作为第二级DNN的输入;
2)第二级DNN经过前向计算,音素后验概率序列的分类结果:唤醒或者不唤醒。
7.根据权利要求6所述的一种基于级联DNN的语音唤醒优化方法,其特征在于,所述的音素后验概率序列为第一级DNN输出的多个音素声学后验概率的组合,这种组合在时序上是连续的。
8.根据权利要求6所述的一种基于级联DNN的语音唤醒优化方法,其特征在于,所述的音素后验概率序列模型,利用一个多层的全连接神经网络对音素后验概率序列进行建模。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉水象电子科技有限公司,未经武汉水象电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910334772.1/1.html,转载请声明来源钻瓜专利网。





