[发明专利]一种适用于车内语音识别系统的语音端点检测方法及模块在审
| 申请号: | 202110677109.9 | 申请日: | 2021-06-18 |
| 公开(公告)号: | CN113920985A | 公开(公告)日: | 2022-01-11 |
| 发明(设计)人: | 姜彦吉;陈涛;张胜;范佳亮;彭博 | 申请(专利权)人: | 清华大学苏州汽车研究院(相城);华研慧声(苏州)电子科技有限公司 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/05;G10L15/06;G10L25/78 |
| 代理公司: | 苏州创元专利商标事务所有限公司 32103 | 代理人: | 吴芳 |
| 地址: | 215134 江苏省苏州*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 适用于 语音 识别 系统 端点 检测 方法 模块 | ||
本发明公开了一种适用于车内语音识别系统的语音端点检测方法及模块,所述模块包括语音帧判断单元和语音帧标记单元,所述语音帧判断单元用于检测出实时音频数据中的含语音帧,所述语音帧标记单元用于根据所述语音帧判断单元的检测结果对所述实时音频数据中的含语音帧进行标记。本发明提供的适用于车内语音识别系统的语音端点检测方法及模块结合实际场景的行车工况特征,建立多特征融合的端点检测模型,采用具有维度差异的模型框架,并结合语音的语谱图像特点设计卷积核,提升了语音识别准确率。
技术领域
本发明涉及语音识别前处理领域,特别涉及一种适用于车内语音识别系统的语音端点检测方法及模块。
背景技术
随着汽车智能化程度的快速发展,语音识别及操控系统逐渐成为汽车标配。行车场景中不同工况的噪声,包括路噪、胎噪、发动机噪声、风噪、空调噪声等,这些噪声能量高,频率范围与语音的频率范围重叠度高,对语音的掩蔽效应强烈,严重影响语音识别系统的识别能力。
语音端点检测是语音识别过程中的一个必要环节,对信号中语音部分起始点的准确检测与判断,可以大幅度提升语音识别系统的识别率。传统检测方法中对人工声学特征的提取难以描述行车场景中的带噪语音,影响车载语音系统中语音信号的端点检测能力。
常用的语音端点检测方法大多是基于人工声学特征的提取,包括时域特征和频域特征,通过设置门限值最终确定语音的起点和终点。基于时域的特征包括短时能量、过零率、相关函数等特征的一系列语音端点检测方法。对信号进行快速傅里叶变换后,可以基于信号频域特征判别语音端点。如基于信息熵、频带方差、谱距离等的语音端点检测算法。这些人工定义的声学特征参数数量少,难以充分描述数据特性,只有在高信噪比下具有较好的检测性能,低信噪比情况下无法很好的计算人工声学特征,检测准确率有很大波动,检测性能大打折扣,特别是在行车工况中,缺乏场景特征的融合,导致高噪时车载语音识别系统的识别准确率难以有效提升。
发明内容
为了克服现有技术存在的不足,本发明提供了一种适用于车内语音识别系统的语音端点检测方法及模块,所述技术方案如下:
一方面,本发明提供了一种适用于车内语音识别系统的语音端点检测方法,包括以下步骤:
S1、对采集的语音音频数据、行车过程中的噪声音频数据以及与所述噪声音频数据相对应的行车工况数据进行预处理,以得到多组待训练的样本数据;
S2、利用PR Net网络模型分别对若干组所述样本数据进行特征提取和分类任务,并通过全连接操作分别输出预测结果;
S3、将所述预测结果与对应的样本数据中的标签结果分别进行损失函数计算,根据计算结果不断调整所述PR Net网络模型的参数权重;
S4、多次循环执行S2-S3,进行训练,当所述PR Net网络模型训练的循环次数等于提前设置的次数,或者所述计算结果达到预设的精度范围,则停止训练,以得到最优的PRNet网络模型;
S5、将实际行车过程中预处理后的实时音频数据和相应行车工况数据输入至所述最优的PR Net网络模型,所述最优的PR Net网络模型输出检测结果;
S6、根据所述检测结果,对所述实时音频数据中的含语音帧进行标记;
S7、将带标记的实时音频数据输出至下游的语音识别系统。
进一步地,在步骤S1中,对采集的数据处理包括以下步骤:
S101、提取一段语音音频数据、一段噪声音频数据以及与所述噪声音频数据对应的行车工况数据;
S102、将语音音频数据分帧后进行语音端点检测,以得到带语音检测标记的语音音频数据;
S103、将带语音检测标记的语音音频数据和所述噪声音频数据进行融合,以得到带语音端点检测标记的带噪语音;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学苏州汽车研究院(相城);华研慧声(苏州)电子科技有限公司,未经清华大学苏州汽车研究院(相城);华研慧声(苏州)电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110677109.9/2.html,转载请声明来源钻瓜专利网。





