[发明专利]一种基于深度学习的语音识别方法有效
申请号: | 202310914137.7 | 申请日: | 2023-07-25 |
公开(公告)号: | CN116631410B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 陈志丰;张灵芝 | 申请(专利权)人: | 陈志丰 |
主分类号: | G10L17/18 | 分类号: | G10L17/18;G10L15/16;G10L21/0216 |
代理公司: | 北京博识智信专利代理事务所(普通合伙) 16067 | 代理人: | 徐佳慧 |
地址: | 100015 北京市朝阳区酒仙桥*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 语音 识别 方法 | ||
1.一种基于深度学习的语音识别方法,其特征在于:该方法包括以下步骤:
步骤S1:音源采集;
步骤S2:音源预处理;
步骤S3:抗噪增强;
步骤S4:口语理解;
步骤S5:说话人识别;
步骤S6:语音识别;
在步骤S2中,所述音源预处理包括采样率调整、音量归一化和声道归一化,得到单声道音源数据SMA;
在步骤S3中,所述抗噪增强,包括以下步骤:
步骤S31:采用时频去噪网络对所述单声道音源数据SMA进行抗噪处理;
步骤S32:使用语音解码数据和噪声解码数据,通过多种训练损失函数,进行预测模型训练,计算得到多种训练损失,并得到抗噪增强预测模型;
步骤S33:通过抗噪增强预测模型,对单声道音源数据SMA进行语抗噪增强,得到抗噪增强语音数据SAN。
2.根据权利要求1所述的一种基于深度学习的语音识别方法,其特征在于:在步骤S31中,所述采用时频去噪网络对所述单声道音源数据SMA进行抗噪处理,包括以下步骤:
步骤S311:通过编码器encoder,计算得到单声道音源编码数据ESMA,计算公式为:
;
其中,是编码器函数,所述编码器函数具体由短时傅里叶变换函数和ReLu激活函数构成的可学习一维卷积组成,SMA是单声道音源数据;
步骤S312:通过掩码估计网络MaskEstNet,计算去噪掩码,计算公式为:
;
其中,是去噪掩码,MaskV是语音数据掩码,MaskN是噪声数据掩码,是掩码估计网络;
步骤S313:通过解码器decoder,计算得到语音解码数据,计算公式为:
;
其中,是语音解码数据,是解码器函数,所述解码器函数是逐元素点乘运算,具体由逆短时傅里叶变换函数和可学习的一维反卷积层组成,MaskV是语音数据掩码,是点积运算,ESMA是单声道音源编码数据;
步骤S314:通过解码器decoder,计算得到噪声解码数据,计算公式为:
;
其中,是噪声解码数据,是解码器函数,所述解码器函数是逐元素点积运算,具体由逆短时傅里叶变换函数和可学习的一维反卷积层组成,MaskV是语音数据掩码,是点积运算,ESMA是单声道音源编码数据。
3.根据权利要求2所述的一种基于深度学习的语音识别方法,其特征在于:在步骤S32中,所述使用语音解码数据和噪声解码数据,通过多种训练损失函数,进行预测模型训练,包括以下步骤:
步骤S321:通过信噪比损失函数LSNR,在保留单声道音源数据SMA的原始规模的基础上进行音源增强,所述信噪比损失函数LSNR的计算公式为:
;
其中,是信噪比损失函数,θ是预测模型参数,是信噪比函数,是纯净语音数据和语音增强得到的语音解码数据之间的信噪比;
步骤S322:通过对数均方误差损失函数Llog-MSE,降低预测语音和真实语音之间的差异,所述对数均方误差损失函数Llog-MSE的计算公式为:
;
其中,是对数均方误差损失函数,θ是预测模型参数,是纯净语音数据的振幅谱,MaskV是语音数据掩码,是点积运算,ESMA是单声道音源编码数据,||·||2是欧几里得范数;
步骤S323:通过噪声重建损失函数LNR,提高模型的鲁棒性,所述噪声重建损失函数LNR的计算公式为:
;
其中,是噪声重建损失函数,θ是预测模型参数,是信噪比函数,是纯净语音数据和语音增强得到的语音解码数据之间的信噪比,是纯净噪声数据和语音增强得到的噪声解码数据之间的信噪比。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陈志丰,未经陈志丰许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310914137.7/1.html,转载请声明来源钻瓜专利网。