[发明专利]一种基于迁移神经网络声学模型的语音识别系统及方法有效
| 申请号: | 201810077556.9 | 申请日: | 2018-01-23 |
| 公开(公告)号: | CN110070855B | 公开(公告)日: | 2021-07-23 |
| 发明(设计)人: | 张鹏远;刘丹阳;徐及;颜永红 | 申请(专利权)人: | 中国科学院声学研究所;北京中科信利技术有限公司 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02 |
| 代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 陈琳琳;杨青 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 迁移 神经网络 声学 模型 语音 识别 系统 方法 | ||
1.一种基于迁移神经网络声学模型的语音识别系统,其特征在于,包括:
信号处理及特征提取模块,用于对待识别的音频信号进行增强,将所述待识别的音频信号从时域转化到频域,并提取声学特征;
声学模型,用于以提取的声学特征为输入,生成声学模型得分;所述声学模型为迁移神经网络声学模型,包括:前端的鲁棒神经网络声学模型和后端的定向神经网络声学模型;所述鲁棒神经网络声学模型作为一个所述定向神经网络声学模型的辅助模型,使用大量源语言数据进行训练;
语言模型,用于估计通过重训练语料学习词之间的相互概率,输出语言模型得分;
解码器,用于根据给定的待识别音频信号的特征向量序列、所述声学模型得分和所述语言模型得分,将总体输出分数较高的词序列作为识别结果。
2.如权利要求1所述的基于迁移神经网络声学模型的语音识别系统,其特征在于,所述迁移神经网络声学模型由下述步骤训练生成,包括:
建立源语言训练集,根据源语言训练集训练源语言语音识别系统的鲁棒神经网络声学模型;
将训练后的鲁棒神经网络声学模型与定向神经网络模型进行融合,建立目标语言神经网络声学模型;
将所述定向神经网络的模型参数进行初始化,调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数;
建立目标语言训练集,固定所述鲁棒神经网络模型参数,根据所述目标语言训练集优化所述目标语言神经网络声学模型的定向神经网络模型参数;
生成迁移神经网络声学模型。
3.如权利要求2所述的基于迁移神经网络声学模型的语音识别系统,其特征在于,将所述定向神经网络的模型参数进行初始化,调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数,包括:
将所述鲁棒神经网络对应层的输出乘以权重系数与所述定向神经网络对应层的输出乘以权重系数进行相加;
将所述相加的结果送入所述定向神经网络的下一层进行前向计算,公式为:
其中β为鲁棒神经网络的权重系数,和分别为鲁棒神经网络和定向神经网络的第i-1层的输出,为定向神经网络第i层的输入,Wi(2)为定向神经网络第i-1层和第i层之间的连接权重,f为激活函数。
4.如权利要求2所述的基于迁移神经网络声学模型的语音识别系统,其特征在于,建立目标语言训练集,固定所述鲁棒神经网络模型参数,根据所述目标语言训练集优化所述目标语言神经网络声学模型的定向神经网络模型参数,包括:
建立目标语言训练集,固定所述迁移神经网络声学模型中鲁棒神经网络部分的模型参数,根据目标语言训练集对所述迁移神经网络声学模型中定向神经网络部分的模型参数进行更新调优;
所述模型参数调优方式是基于交叉熵代价函数的随机梯度下降方法对模型参数进行更新优化,交叉熵用于度量两个概率分布变量(PL(si|xt))和(P(si|xt))的相似度:
其中:
上式中PL(si|xt)表示t时刻的特征xt对应的声学状态si的概率,当输出状态的序号i与标注状态的序号lable相同时,PL(si|xt)的概率值定义为1,其他声学状态的概率为0;L表示交叉熵损失函数的值,p(si|xt)表示,声学模型预测的t时刻的特征xt对应声学状态为si的概率值;
所述目标语言数据同时送入迁移神经网络中鲁棒神经网络和定向神经网络部分,输出目标语音特征的后验概率,用于解码,得到识别出的语音,与原始语音进行比较后,进行前向反馈,得到训练后的迁移神经网络声学模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京中科信利技术有限公司,未经中国科学院声学研究所;北京中科信利技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810077556.9/1.html,转载请声明来源钻瓜专利网。





