[发明专利]语音活动检测模型的训练及检测方法、装置、设备和介质在审

申请号：	202211345386.0	申请日：	2022-10-31
公开（公告）号：	CN115497511A	公开（公告）日：	2022-12-20
发明（设计）人：	王海平	申请（专利权）人：	广州方硅信息技术有限公司
主分类号：	G10L25/87	分类号：	G10L25/87;G10L25/24;G10L25/30
代理公司：	广州市律帆知识产权代理事务所(普通合伙) 44614	代理人：	余永文
地址：	510000 广东省广州***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音活动检测模型训练方法装置设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及音频及直播技术领域，提供一种语音活动检测模型训练及检测方法、装置、设备和介质。本申请能够提高语音活动检测模型的检测精确率。包括：将纯净语音信号样本分帧得到多个纯净语音信号帧样本，获取该多个信号帧样本各自对应的对数能量的归一化值，针对每一信号帧样本，获取该信号帧样本前后第一预设数量个信号帧样本中第一纯净语音信号帧样本的占比，该第一纯净语音信号帧样本为对数能量的归一化值大于阈值的信号帧样本，根据该占比确定该信号帧样本对应的语音活动检测标签，根据信号帧样本和预设噪声得到携带噪声的信号帧样本，利用携带噪声的信号帧样本和语音活动检测标签对待训练的语音活动检测模型进行训练。

技术领域

本申请涉及音频及直播技术领域，特别是涉及一种语音活动检测模型的训练方法、语音活动检测方法、装置、电子设备和计算机可读存储介质。

背景技术

语音活动检测(Voice Activity Detection，VAD)在实时通信(Real-TimeCommunication，RTC)领域起着至关重要的作用。它可为语音前端处理算法提供参考，也可为语音数据流传输提供依据。

然而，目前技术提供的基于深度学习的语音活动检测方法中，其采用的深度学习模型的检测精确率不足，语音漏判概率较高，难以满足实时通信的需求。

发明内容

基于此，有必要针对上述技术问题，提供一种语音活动检测模型的训练方法、语音活动检测方法、装置、电子设备和计算机可读存储介质。

第一方面，本申请提供了一种语音活动检测模型的训练方法。所述方法包括：

获取纯净语音信号样本；

将所述纯净语音信号样本进行分帧得到多个纯净语音信号帧样本，获取所述多个纯净语音信号帧样本各自对应的对数能量的归一化值；

针对每一纯净语音信号帧样本，根据所述多个纯净语音信号帧样本各自对应的对数能量的归一化值，获取所述纯净语音信号帧样本前后第一预设数量个纯净语音信号帧样本中第一纯净语音信号帧样本的占比；所述第一纯净语音信号帧样本为所述对数能量的归一化值大于归一化值阈值的纯净语音信号帧样本；

根据所述第一纯净语音信号帧样本的占比，确定所述纯净语音信号帧样本对应的语音活动检测标签；