[发明专利]一种基于骨声纹传感器的VAD方法及系统在审
申请号: | 202210903492.X | 申请日: | 2022-07-28 |
公开(公告)号: | CN115457984A | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 龚永康;张毅;纪盟盟;王蒙 | 申请(专利权)人: | 杭州芯声智能科技有限公司 |
主分类号: | G10L25/87 | 分类号: | G10L25/87;G10L25/45;G10L25/30;G10L15/06 |
代理公司: | 成都知都云专利代理事务所(普通合伙) 51306 | 代理人: | 赵正寅 |
地址: | 310000 浙江省杭州市杭州经济技术*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 声纹 传感器 vad 方法 系统 | ||
本发明提供一种基于骨声纹传感器的VAD方法及系统,涉及音频处理技术领域。本发明使用神经网络技术,并结合骨声纹传感器进行数据采集;在训练数据中进行AEC残留语音与环境噪声的混合,提升识别准确率和鲁棒性;本发明使用语音的MFCC特征作为网络的输入,GRU层可以充分利用语音段中前面帧之间的信息,使语音特征之间的提取更加充分,最后使用一个Dense层进行分类,通过该步骤能得到帧间特征,从而提升系统的整体识别度和识别效率;本发明通过对训练集获取标签集,再将模型训练输出通过对应的帧标签计算损失,再进行梯度反传优化模型;得到的概率预测模型相较于没有进行梯度反传优化模型的模型,其准确度大大提高。
技术领域
本发明涉及音频处理技术领域,尤其涉及一种基于骨声纹传感器的VAD方法及系统。
背景技术
语音活动检测(VoiceActivityDetection,简称VAD)又称语音端点检测,其通常应用在语音交互场景中,VAD算法的目的是从带有噪声的语音中准确的定位出语音的开始和结束点,主要对麦克风中录到的音频进行处理,识别其中的语音部分,并删去非语音部分,用于检测用户语音,从而基于用户语音进行相应的控制或者语音交互操作。
现有的VAD检测方法主要是基于能量和过零率的VAD检测方法,这种方法功耗低,但是检测的准确性较差,尤其在环境情况较复杂,噪声严重的情况下,检测准确性非常低,此外,现有的VAD检测方法均是针对传统麦克风传感器的,无法运用到骨声纹传感器的设备上。
因此,有必要提供一种基于骨声纹传感器的VAD方法及系统来解决上述技术问题。
发明内容
为解决上述之一技术问题,本发明提供的一种基于骨声纹传感器的VAD方法,采集训练数据集,提取特征数据;通过特征数据训练学习模型,得到概率预测模型,通过概率预测模型对待处理音频进行语音的开始和结束点预测,完成VAD处理;具体步骤如下:
步骤S1:录制与采集;通过骨声纹传感器进行音频录制与采集,得到训练数据集;
步骤S2:分段与分帧;将训练数据集进行分段操作,得到语音片段,所述语音片段由若干语音帧组成;各语音片段共同组成训练样本;
步骤S3:获取标签集;对训练样本的各语音帧进行标签识别,得到对应的帧标签,整合各帧标签,得到标签集;
步骤S4:提取特征数据;对训练样本进行特征提取,得到特征数据;其中,所述特征提取通过MFCC特征提取进行,并得到MFCC特征数据;
步骤S5:模型训练;部署训练学习模型,并将MFCC特征数据输入模型进行特征训练,得到模型训练输出;将模型训练输出通过对应的帧标签计算损失,再进行梯度反传优化模型;完成训练,得到概率预测模型;
步骤S6:结果评估;将待处理音频输入概率预测模型,得到概率预测值;若概率预测值在置信范围内,则标记为语音的开始点/结束点。
作为更进一步的解决方案,所述骨声纹传感器需录制的训练数据集包括近端语音、AEC残留语音和环境噪声;所述近端语音只包含耳机佩戴者的说话声,且无其他的噪声混入;所述近端语音的语音片段与语音片段之间为静音片段,静音片段的时长与语音片段的时长设置为等长或者误差不超过预设值的近似长度;所述AEC残留语音为耳机播放音乐时被骨声纹传感器录制到的声音经过AEC算法处理后得到的声音;所述环境噪声为耳机佩戴者所处环境的噪声以及外部的说话声;将近端语音分别与AEC残留语音和环境噪声进行混合,得到训练样本。
作为更进一步的解决方案,所述语音帧的帧长为32ms,帧移为16ms,一个语音片段有4000语音帧,语音帧有256个采样点;所述训练样本的维度为N*4000*256,其中,N为语音片段数;所述标签集的维度为N*4000*1。
作为更进一步的解决方案,所述提取特征数据的步骤包括预加重、分帧加窗、FFT处理、Mel滤波器处理、对数运算和DCT变换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州芯声智能科技有限公司,未经杭州芯声智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210903492.X/2.html,转载请声明来源钻瓜专利网。