[发明专利]一种语音模型自适应训练方法、系统、装置及存储介质有效
申请号: | 202010033373.4 | 申请日: | 2020-01-13 |
公开(公告)号: | CN111243574B | 公开(公告)日: | 2023-01-03 |
发明(设计)人: | 唐浩元;王佳珺;鄢戈;王飞;王欢良 | 申请(专利权)人: | 苏州奇梦者网络科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/02;G10L25/18;G10L25/24;G10L25/27;G10L25/30 |
代理公司: | 苏州国诚专利代理有限公司 32293 | 代理人: | 王丽 |
地址: | 215024 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 模型 自适应 训练 方法 系统 装置 存储 介质 | ||
一种语音模型自适应训练方法、系统、装置及存储介质。本发明涉及一种语音识别的训练方法,尤其是一种语音模型自适应训练方法,包括训练和解码;训练包括以下步骤:训练声学特征提取;生成音素状态对齐序列;计算训练后验概率分别输出第一后验概率和第二后验概率;自适应训练,将音素状态对齐序列与第二后验概率计算交叉熵准则;解码包括以下步骤:测试声学特征提取;计算测试后验概率分别输出第一后验概率和第二后验概率;似然度计算与融合,将第一后验概率和第二后验概率进行似然度融合;将经过融合的似然度送入解码器解码生成语音的文本。本发明通过对通用语音识别模型采用自适应训练和似然度融合在保证通用语音识别性能的同时,提升了新任务的语音识别的准确率。
技术领域
本发明涉及一种语音识别的训练方法,尤其是一种语音模型自适应训练方法、系统、装置及存储介质。
背景技术
语音识别技术作为人工智能的关键技术之一,能够将输入的语音信号转变成文字信号,进而方便存储,检索和传播。近年来随着移动互联网的兴起和深度神经网络技术在语音识别技术中的快速发展,基于深度神经网络(DNN)的声学模型在搜索引擎,输入法,故事机等产品领域中被广泛使用。例如讯飞,谷歌,亚马逊等公司的基于神经网络的通用声学模型被广大开发者应用于会议记录系统,手机助手,游戏机等产品中。
目前主流公司提供的DNN声学模型是采用多个领域(如新闻、人机对话、搜索、数字串、带噪语音等)的语音数据进行学习后得到的。通常情况下,不同领域下的语音数据在统计特性上存在差别,直接将通用DNN声学模型应用于目标领域的测试音频中性能较差。而实际中即便是同一款产品也会涉及到多种领域的识别,语音公司在训练通用DNN声学模型时往往并不清楚这些模型会被开发者应用于什么样的领域,无法为每个产品单独训练一个DNN声学模型。而开发者在发现通用DNN声学模型在特定领域识别性能较差时,往往希望提升模型在该特定领域下识别性能的同时保持在其他领域下的识别性能。
自适应算法的核心在于使用少量目标领域数据对通用DNN声学模型的参数进行训练,降低语音模型与目标领域语音数据之间的统计特性失配。开发者可以自己录制少量目标领域的语音数据,并使用自适应算法对通用语音识别模型进行参数更新,进而提升语音模型在目标领域下的识别性能。然而目前的自适应训练方法虽然能够大幅度提升目标领域的识别性能,但是却不可避免的会大幅度降低在其他领域下的识别性能。
发明内容
为解决上述问题,本发明提供一种在提升目标领域识别性能的同时,保持了在非目标领域的识别性能的一种语音模型自适应训练方法,具体技术方案为:
一种语音模型自适应训练方法,包括训练和解码;
所述训练包括以下步骤:
S11、训练声学特征提取,对训练音频进行预加重,加窗分帧,提取训练声学特征,所述训练声学特征选择梅尔频谱特征;
S12、生成音素状态对齐序列,将训练声学特征通过深度神经网络通用声学模型生成音素对齐序列,然后利用决策树将所述音素对齐序列转换为音素状态对齐序列,使用音素状态对齐序列中的音素状态ID作为声学建模基本单元;
S13、计算训练后验概率,将S11中提取的训练声学特征送入预先创建的具有第一输出支路和第二输出支路的深度神经网络声学模型中,经过前向运算后所述深度神经网络声学模型分别输出第一后验概率和第二后验概率,其中所述第一输出支路为深度神经网络通用声学模型原有的输出支路,所述第二输出支路为复制深度神经网络通用声学模型的最后一层隐藏层和输出层形成的新的输出支路;
S14、自适应训练,将S12中得到的音素状态对齐序列与S13中得到的第二后验概率计算交叉熵准则,所述交叉熵准则的数学公式为:
式中:
st表示t时刻音素状态对齐序列中的音素状态ID;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州奇梦者网络科技有限公司,未经苏州奇梦者网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010033373.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种实时门禁鉴权方法
- 下一篇:一种应用于核磁环境的触摸按键触觉振动反馈结构