[发明专利]语音活动检测模型的训练及检测方法、装置、设备和介质在审
申请号: | 202211345386.0 | 申请日: | 2022-10-31 |
公开(公告)号: | CN115497511A | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 王海平 | 申请(专利权)人: | 广州方硅信息技术有限公司 |
主分类号: | G10L25/87 | 分类号: | G10L25/87;G10L25/24;G10L25/30 |
代理公司: | 广州市律帆知识产权代理事务所(普通合伙) 44614 | 代理人: | 余永文 |
地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 活动 检测 模型 训练 方法 装置 设备 介质 | ||
本申请涉及音频及直播技术领域,提供一种语音活动检测模型训练及检测方法、装置、设备和介质。本申请能够提高语音活动检测模型的检测精确率。包括:将纯净语音信号样本分帧得到多个纯净语音信号帧样本,获取该多个信号帧样本各自对应的对数能量的归一化值,针对每一信号帧样本,获取该信号帧样本前后第一预设数量个信号帧样本中第一纯净语音信号帧样本的占比,该第一纯净语音信号帧样本为对数能量的归一化值大于阈值的信号帧样本,根据该占比确定该信号帧样本对应的语音活动检测标签,根据信号帧样本和预设噪声得到携带噪声的信号帧样本,利用携带噪声的信号帧样本和语音活动检测标签对待训练的语音活动检测模型进行训练。
技术领域
本申请涉及音频及直播技术领域,特别是涉及一种语音活动检测模型的训练方法、语音活动检测方法、装置、电子设备和计算机可读存储介质。
背景技术
语音活动检测(Voice Activity Detection,VAD)在实时通信(Real-TimeCommunication,RTC)领域起着至关重要的作用。它可为语音前端处理算法提供参考,也可为语音数据流传输提供依据。
然而,目前技术提供的基于深度学习的语音活动检测方法中,其采用的深度学习模型的检测精确率不足,语音漏判概率较高,难以满足实时通信的需求。
发明内容
基于此,有必要针对上述技术问题,提供一种语音活动检测模型的训练方法、语音活动检测方法、装置、电子设备和计算机可读存储介质。
第一方面,本申请提供了一种语音活动检测模型的训练方法。所述方法包括:
获取纯净语音信号样本;
将所述纯净语音信号样本进行分帧得到多个纯净语音信号帧样本,获取所述多个纯净语音信号帧样本各自对应的对数能量的归一化值;
针对每一纯净语音信号帧样本,根据所述多个纯净语音信号帧样本各自对应的对数能量的归一化值,获取所述纯净语音信号帧样本前后第一预设数量个纯净语音信号帧样本中第一纯净语音信号帧样本的占比;所述第一纯净语音信号帧样本为所述对数能量的归一化值大于归一化值阈值的纯净语音信号帧样本;
根据所述第一纯净语音信号帧样本的占比,确定所述纯净语音信号帧样本对应的语音活动检测标签;
根据所述纯净语音信号帧样本和预设噪声信号,得到携带噪声的语音信号帧样本;
利用所述携带噪声的语音信号帧样本和所述语音活动检测标签对待训练的语音活动检测模型进行训练。
第二方面,本申请提供了一种语音活动检测方法。所述方法包括:
获取待检测语音信号帧;
利用经训练的语音活动检测模型对所述待检测语音信号帧进行检测,得到所述语音活动检测模型输出的所述待检测语音信号帧对应的语音活动检测预测信息;其中,所述经训练的语音活动检测模型根据如上所述的语音活动检测模型的训练方法训练得到;
根据所述语音活动检测预测信息,得到所述待检测语音信号帧的语音活动检测结果。
第三方面,本申请还提供了一种语音活动检测模型的训练装置。所述装置包括:
语音样本获取模块,用于获取纯净语音信号样本;
归一化处理模块,用于将所述纯净语音信号样本进行分帧得到多个纯净语音信号帧样本,获取所述多个纯净语音信号帧样本各自对应的对数能量的归一化值;
占比获取模块,用于针对每一纯净语音信号帧样本,根据所述多个纯净语音信号帧样本各自对应的对数能量的归一化值,获取所述纯净语音信号帧样本前后第一预设数量个纯净语音信号帧样本中第一纯净语音信号帧样本的占比;所述第一纯净语音信号帧样本为所述对数能量的归一化值大于归一化值阈值的纯净语音信号帧样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州方硅信息技术有限公司,未经广州方硅信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211345386.0/2.html,转载请声明来源钻瓜专利网。