[发明专利]语音端点检测方法、装置、电子设备及存储介质在审
申请号: | 201910804076.2 | 申请日: | 2019-08-28 |
公开(公告)号: | CN110648656A | 公开(公告)日: | 2020-01-03 |
发明(设计)人: | 曲贺;王晓瑞 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G10L15/05 | 分类号: | G10L15/05;G10L25/03;G10L25/18;G10L25/21;G10L25/78 |
代理公司: | 11319 北京润泽恒知识产权代理有限公司 | 代理人: | 李娜 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检测音 能量特征 频率特征 语音 语音端点检测 检测结果 检测 存储介质 电子设备 特征输入 音乐信号 语音检测 语音信号 鲁棒性 起始点 区分度 准确率 分帧 静音 噪声 歌曲 | ||
本公开示出了一种语音端点检测方法、装置、电子设备及存储介质,首先对待检测语音进行分帧处理,得到多个待检测音帧,然后提取各待检测音帧的频率特征、能量特征和过零率特征,将各待检测音帧的频率特征、能量特征和过零率特征输入语音检测模型中,获得各待检测音帧的检测结果,再根据各待检测音帧的检测结果,确定待检测语音的起始点和结束点。由于频率特征能够准确地区分静音和噪声,能量特征和过零率特征对歌曲和语音有较高的区分度,因此,同时采用频率特征、能量特征和过零率特征,不但可以对纯语音信号准确地进行检测,而且对包含音乐信号的语音也能进行很好地区分,提高了语音端点检测的准确率,相对现有技术具有更强的鲁棒性。
技术领域
本公开涉及计算机技术领域,尤其涉及一种语音端点检测方法、装置、电子设备及存储介质。
背景技术
随着人工智能的发展,语音识别已经广泛应用于各行各业,在语音识别系统中,语音端点检测(VAD)发挥着重要作用。由于语音在识别时存在着大量的静音、各种噪声等,严重干扰语音识别的性能,增加了语音识别系统的负担,因此,在语音识别系统中,往往是先对语音进行端点检测,即给定连续输入的语音,输出期望语音片段的起始点和结束点,从而可以过滤掉静音,噪声等,提高语音识别系统的性能。
现有VAD技术中,多采用MFCC特征进行语音端点检测,即首先提取语音帧的MFCC特征,然后将MFCC特征输入预先训练得到的VAD语音检测模型中,根据检测结果确定起始点和结束点。然而,对于包含音乐的语音(如有背景音乐的语音或说唱结合的语音等),采用MFCC特征无法准确地进行端点检测。
发明内容
本公开提供一种语音端点检测方法、装置、电子设备及存储介质,以至少解决相关技术无法对包含音乐的语音准确地进行端点检测的问题。本公开的技术方案如下:
根据本公开的第一方面,提供一种语音端点检测方法,所述方法包括:
对待检测语音进行分帧处理,得到多个待检测音帧;
提取各所述待检测音帧的频率特征、能量特征和过零率特征;
将各所述待检测音帧的频率特征、能量特征和过零率特征输入预先训练得到的语音检测模型中,获得各所述待检测音帧的检测结果,所述检测结果包括语音帧和非语音帧;
根据各所述待检测音帧的检测结果,确定所述待检测语音的起始点和结束点。
在一种可选的实现方式中,所述频率特征包括梅尔频率倒谱系数或对数谱特征,所述能量特征包括低短时能量比,所述过零率特征包括高过零率比。
在一种可选的实现方式中,所述语音检测模型包括第一特征融合层和第一分类层,所述将各所述待检测音帧的频率特征、能量特征和过零率特征输入预先训练得到的语音检测模型中,获得各所述待检测音帧的检测结果的步骤,包括:
将各所述待检测音帧的频率特征、能量特征和过零率特征输入所述第一特征融合层中,得到各所述待检测音帧的融合特征;
将各所述待检测音帧的融合特征输入所述第一分类层中,获得各所述待检测音帧的检测结果。
在一种可选的实现方式中,所述将各所述待检测音帧的频率特征、能量特征和过零率特征输入所述第一特征融合层中,得到各所述待检测音帧的融合特征的步骤,包括:
将各所述待检测音帧的频率特征、能量特征和过零率特征进行特征拼接,得到各所述待检测音帧的拼接特征矩阵;
基于预先训练得到的权重矩阵,对各所述待检测音帧的拼接特征矩阵进行线性映射,得到各所述待检测音帧的融合特征。
在一种可选的实现方式中,所述将各所述待检测音帧的频率特征、能量特征和过零率特征输入所述第一特征融合层中,得到各所述待检测音帧的融合特征的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910804076.2/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 语音端点识别方法、装置及设备-201810509977.4
- 李超;朱唯鑫 - 百度在线网络技术(北京)有限公司
- 2018-05-24 - 2020-01-14 - G10L15/05
- 本发明提供一种语音端点识别方法、装置及设备。本发明的方法,通过分别用起点训练集和终点训练集训练循环神经网络得到起点识别模型和终点识别模型,根据所述各音频帧的声学特征和起点识别模型,识别出所述各音频帧中的语音起点帧,可以在保证对起点帧识别的准确性尽可能高的同时,不影响终点帧识别的延迟时间;根据所述各音频帧的声学特征和终点识别模型,识别出所述各音频帧中的语音终点帧,可以在保证对终点帧识别延迟尽可能短的同时,不影响起点帧识别的准确性,从而可以在提高起点帧识别的准确性的同时,缩短终点帧识别的延迟时间。
- 语音端点检测方法、装置、电子设备及存储介质-201910804076.2
- 曲贺;王晓瑞 - 北京达佳互联信息技术有限公司
- 2019-08-28 - 2020-01-03 - G10L15/05
- 本公开示出了一种语音端点检测方法、装置、电子设备及存储介质,首先对待检测语音进行分帧处理,得到多个待检测音帧,然后提取各待检测音帧的频率特征、能量特征和过零率特征,将各待检测音帧的频率特征、能量特征和过零率特征输入语音检测模型中,获得各待检测音帧的检测结果,再根据各待检测音帧的检测结果,确定待检测语音的起始点和结束点。由于频率特征能够准确地区分静音和噪声,能量特征和过零率特征对歌曲和语音有较高的区分度,因此,同时采用频率特征、能量特征和过零率特征,不但可以对纯语音信号准确地进行检测,而且对包含音乐信号的语音也能进行很好地区分,提高了语音端点检测的准确率,相对现有技术具有更强的鲁棒性。
- 唤醒语音关键短语分割-201910330352.6
- 托马什·多劳;托比亚斯·博克雷;普热米司勒·托马谢夫斯基;塞巴斯蒂安·切里巴;尤利乌斯·诺尔曼·霍耶茨基 - 英特尔公司
- 2019-04-23 - 2019-11-15 - G10L15/05
- 本公开涉及唤醒语音关键短语分割。提供了用于关键短语的分割的技术。根据实施例的实现该技术的方法包括:对从音频信号的时间分段提取的特征向量进行累加;以及基于那些特征向量生成一组声学评分。一组声学评分中的每个声学评分代表与时间分段相关联的语音类别的可能性。该方法还包括:生成评分模型状态序列的进展,每个评分模型状态序列基于与从音频信号的时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测。该方法还包括:分析评分状态序列的进展以检测与该进展相关联的模式,并且基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点。
- 专利分类