[发明专利]语音活性检测模型生成方法、系统及语音活性检测方法、系统有效

申请号：	201710147407.0	申请日：	2017-03-13
公开（公告）号：	CN108573712B	公开（公告）日：	2020-07-28
发明（设计）人：	张勇;何茜	申请（专利权）人：	北京贝塔科技股份有限公司
主分类号：	G10L25/24	分类号：	G10L25/24;G10L15/02;G10L15/14
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	王宝筠
地址：	100192 北京市海淀区西小口路66号***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音活性检测模型生成方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供了一种语音活性检测模型生成方法、系统及语音活性检测方法、系统，可以从训练数据集中提取音频数据及音频标识，对提取的音频数据进行采样，获得音频数据的一维离散数组；对获得的音频数据的一维离散数组进行分帧加窗处理，获得音频数据的多帧音频信号；提取音频数据的各帧音频信号的梅尔频率倒谱系数MFCC；根据音频数据的各帧音频信号的MFCC确定音频数据的各帧音频信号的音频特征参数，将确定的音频数据的音频特征参数确定为提取的音频数据的音频特征参数；将与提取的音频数据对应的音频标识及提取的音频数据的音频特征参数输入支持向量机SVM中进行模型训练，获得语音活性检测模型。本发明提高了语音活性检测的精度。

技术领域

本发明涉及语音活性检测技术领域，特别是涉及语音活性检测模型生成方法、系统及语音活性检测方法、系统。

背景技术

语音活性检测(VAD，Voice Activity Detection)，是一项用于语音处理的技术，可以检测语音信号是否存在，确定音视频中人声出现的时间段，是进行音视频自动智能处理应用的必要步骤。

现有技术通常基于简单的时域或频域特征分析，如：比较常用的语音活性检测技术是基于短时能量和过零率的双门限端点检测,，如果连续几帧的短时能量和过零率都大于指定阈值，则判定语音开始。此类方法仅通过一些基础的信号特征以及人为指定的阈值判定语音活性与否，精度通常较差。

发明内容

本发明实施例的目的在于提供一种语音活性检测模型生成方法、系统及语音活性检测方法、系统，以提高语音活性检测的精度。具体技术方案如下：

一种语音活性检测模型生成方法，包括：

从预设的训练数据集中提取音频数据及与音频数据对应的音频标识，其中，所述预设的训练数据集中包括：语音音频数据及非语音音频数据，所述音频标识为语音标识或非语音标识；

对提取的音频数据进行采样，获得音频数据的一维离散数组；

对获得的音频数据的一维离散数组进行分帧加窗处理，获得音频数据的多帧音频信号；

提取音频数据的各帧音频信号的梅尔频率倒谱系数MFCC；