[发明专利]一种应用于低功耗电路的语音活动检测方法及系统在审
申请号: | 202110755667.2 | 申请日: | 2021-07-05 |
公开(公告)号: | CN113327634A | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 唐仙;孙博文 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
主分类号: | G10L25/87 | 分类号: | G10L25/87;G10L25/27 |
代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 江耀纯 |
地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用于 功耗 电路 语音 活动 检测 方法 系统 | ||
本发明公开了一种应用于低功耗电路的语音活动检测方法及系统,该方法包括如下步骤:接收输入的语音,进行语音特征提取,采用子带能量特征,减少子带数量;经过特征提取,得到特征值进入后续分类;选择支持向量机的线性分类器进行训练分类,输出语音分类结果,完成语音活动检测。本发明提出一种较为简单的语音活动检测方法,采用较低的实现复杂度取得了在低信噪比下较好的分类准确率;同时语音特征提取部分采用全模拟电路实现,在设计时便考虑实际电路实现可能性,可额外满足低功耗电路需求。
技术领域
本发明涉及语音算法设计领域,特别是涉及一种基于线性SVM(支持向量机,Support vector machine)的语音静默检测方法及系统。
背景技术
语音活动检测(Voice Activity Detection,VAD),又称语音端点检测,顾名思义便是要判定语音开始和结束的位置,最早应用于电话传输与检测等通信领域,如今也在语音识别、语音压缩领域应用广泛,是重要的语音预处理技术。
在已有的语音端点检测算法,根据分类使用语音特征,可以分为时域特征VAD算法、频域特征VAD算法。其中时域特征下包括:短时能量、短时过零率、短时自相关等;频域特征又包括:基音周期、梅尔倒谱距离等。同时语音端点检测实际上是一个二分类问题,即根据语音段与噪声段在时域或频域上特征的差异进行语音信号分类。所以不同的VAD算法可能会采用不同的分类器,例如最经典的双门限检测算法采用阈值判断,也算法有基于决策树、有限状态机或神经网络等更复杂的分类器进行分类。
语音特征需要可以较好地体现出语音和噪声的区别;时域特征在高信噪比的情况下有较好的结果,但是在噪声比较大的环境中,会出现噪声淹没语音信号的情况,从而导致基于能量或过零率这类型特征的判决出错。频域特征在一定程度上受噪声影响程度低于时域特征,但频域特征计算复杂度相较时域特征更高。
发明内容
为了折中现有技术计算复杂度和准确率的矛盾,以较低的算法复杂度实现较好的分类准确率,本发明提出一种应用于低功耗电路的语音活动检测方法及系统。
本发明的技术问题通过以下的技术方案予以解决:
本发明提出一种应用于低功耗电路的语音活动检测方法,其特征在于,包括如下步骤:S1:接收输入的语音,进行语音特征提取,采用子带能量特征,减少子带数量;经过特征提取,得到特征值进入后续分类;S2:选择支持向量机的线性分类器进行训练分类,输出语音分类结果,完成语音活动检测。
在一些实施例,在S1步骤中,将语音以帧长进行分帧,帧移等于帧长;采用矩形窗,对语音信号进行加窗运算来实现分帧加窗操作,窗长为对应帧长的数据点数。
在一些实施例,在分帧加窗操作后,带通滤波,计算短时能量。
在一些实施例,在S1步骤中,所述语音特征提取采用全模拟电路实现。
在一些实施例,在S1步骤中,增加基于递归平均估计的背景噪声特征作为新特征。
在一些实施例,基于递归平均估计的背景噪声计算方式如下:
公式中β1,β2取值在0-1之间;NL(i),E(i)为第i
for_E(i)NL(i-1):
NL(i)=β2NL(i-1)+(1-β2)E(i)
帧信号的背景噪声和短时能量;平滑因子β的取值采用阈值法,根据NL(i-1)与E(i)的大小关系选取不同β值。
在一些实施例,对模拟域特征进行量化,转为8bit数字域特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110755667.2/2.html,转载请声明来源钻瓜专利网。