[发明专利]车内环境中语音识别的处理方法、装置和电子设备有效
申请号: | 201711490680.X | 申请日: | 2017-12-30 |
公开(公告)号: | CN108022591B | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 宋辉 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L21/0208;G10L15/06 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 内环境 语音 识别 处理 方法 装置 电子设备 | ||
1.一种车内环境中语音识别的处理方法,其特征在于,包括以下步骤:
获取参考音频,并对所述参考音频进行录制以得到录制后的回录音频;
获取纯净语音;
从所述回录音频中选取满足目标信噪比条件的噪声数据,并将所述噪声数据叠加至所述纯净语音上以得到带噪语音;
将所述带噪语音和所述参考音频作为输入数据输入至AEC模块,其中,所述AEC模块对所述输入数据进行回声消除处理,得到带有AEC残余噪声的训练数据;
根据所述带有AEC残余噪声的训练数据,实时更新车内环境中的语音识别训练模型;
根据实时更新后的车内环境中的语音识别训练模型进行车内语音识别。
2.如权利要求1所述的方法,其特征在于,所述从所述回录音频中选取满足目标信噪比条件的噪声数据,包括:
确定所述纯净语音的时长;
根据所述时长从所述回录音频中选取相同时长的部分回录音频;
根据预先统计的信噪比分布从所述部分回录音频中选取满足所述目标信噪比条件的噪声数据。
3.如权利要求2所述的方法,其特征在于,通过以下步骤预先统计所述信噪比分布:
获取在多个车载场景下回录样本参考音频时的噪声分贝数;
统计样本用户在所述多个车载场景下正常说话的音量范围;
根据所述多个车载场景下回录样本参考音频时的噪声分贝数和所述样本用户在所述多个车载场景下正常说话的音量范围,计算所述信噪比分布。
4.如权利要求1所述的方法,其特征在于,在将所述噪声数据叠加至所述纯净语音上以得到带噪语音之前,所述方法还包括:
对所述纯净语音依次叠加车载的冲激响应和车噪以得到第一语音;
其中,所述将所述噪声数据叠加至所述纯净语音上以得到带噪语音,包括:
将所述噪声数据叠加至所述第一语音上以得到所述带噪语音。
5.如权利要求1所述的方法,其特征在于,在将所述带噪语音和所述参考音频作为输入数据输入至AEC模块之前,所述方法还包括:
从所述回录音频的时间信息中,获取与所述噪声数据的开始时间对应的目标时间;
根据所述目标时间,从所述参考音频中选取与所述噪声数据相同时长的部分参考音频;
其中,将所述带噪语音和所述参考音频作为输入数据输入至AEC模块,包括:
将所述带噪语音和所述部分参考音频作为输入数据输入至所述AEC模块。
6.一种车内环境中语音识别的处理装置,其特征在于,包括:
第一获取模块,用于获取参考音频;
录制模块,用于对所述参考音频进行录制以得到录制后的回录音频;
第二获取模块,用于获取纯净语音;
第三获取模块,用于从所述回录音频中选取满足目标信噪比条件的噪声数据;
第一叠加模块,用于将所述噪声数据叠加至所述纯净语音上以得到带噪语音;
训练数据获取模块,用于将所述带噪语音和所述参考音频作为输入数据输入至AEC模块,其中,所述AEC模块对所述输入数据进行回声消除处理,得到带有AEC残余噪声的训练数据;
训练模块,用于根据所述带有AEC残余噪声的训练数据,实时更新车内环境中的语音识别训练模型;
识别模块,用于根据实时更新后的车内环境中的语音识别训练模型进行车内语音识别。
7.如权利要求6所述的装置,其特征在于,所述第三获取模块包括:
确定单元,用于确定所述纯净语音的时长;
第一获取单元,用于根据所述时长从所述回录音频中选取相同时长的部分回录音频;
第二获取单元,用于根据预先统计的信噪比分布从所述部分回录音频中选取满足所述目标信噪比条件的噪声数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711490680.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:专用的直插式连接器
- 下一篇:一种高强、耐久、防水纤维石膏板