[发明专利]语音端点检测方法、装置、电子设备及存储介质在审

申请号：	201910804076.2	申请日：	2019-08-28
公开（公告）号：	CN110648656A	公开（公告）日：	2020-01-03
发明（设计）人：	曲贺;王晓瑞	申请（专利权）人：	北京达佳互联信息技术有限公司
主分类号：	G10L15/05	分类号：	G10L15/05;G10L25/03;G10L25/18;G10L25/21;G10L25/78
代理公司：	11319 北京润泽恒知识产权代理有限公司	代理人：	李娜
地址：	100085 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	检测音能量特征频率特征语音语音端点检测检测结果检测存储介质电子设备特征输入音乐信号语音检测语音信号鲁棒性起始点区分度准确率分帧静音噪声歌曲
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开示出了一种语音端点检测方法、装置、电子设备及存储介质，首先对待检测语音进行分帧处理，得到多个待检测音帧，然后提取各待检测音帧的频率特征、能量特征和过零率特征，将各待检测音帧的频率特征、能量特征和过零率特征输入语音检测模型中，获得各待检测音帧的检测结果，再根据各待检测音帧的检测结果，确定待检测语音的起始点和结束点。由于频率特征能够准确地区分静音和噪声，能量特征和过零率特征对歌曲和语音有较高的区分度，因此，同时采用频率特征、能量特征和过零率特征，不但可以对纯语音信号准确地进行检测，而且对包含音乐信号的语音也能进行很好地区分，提高了语音端点检测的准确率，相对现有技术具有更强的鲁棒性。

技术领域

本公开涉及计算机技术领域，尤其涉及一种语音端点检测方法、装置、电子设备及存储介质。

背景技术

随着人工智能的发展，语音识别已经广泛应用于各行各业，在语音识别系统中，语音端点检测(VAD)发挥着重要作用。由于语音在识别时存在着大量的静音、各种噪声等，严重干扰语音识别的性能，增加了语音识别系统的负担，因此，在语音识别系统中，往往是先对语音进行端点检测，即给定连续输入的语音，输出期望语音片段的起始点和结束点，从而可以过滤掉静音，噪声等，提高语音识别系统的性能。

现有VAD技术中，多采用MFCC特征进行语音端点检测，即首先提取语音帧的MFCC特征，然后将MFCC特征输入预先训练得到的VAD语音检测模型中，根据检测结果确定起始点和结束点。然而，对于包含音乐的语音(如有背景音乐的语音或说唱结合的语音等)，采用MFCC特征无法准确地进行端点检测。

发明内容

本公开提供一种语音端点检测方法、装置、电子设备及存储介质，以至少解决相关技术无法对包含音乐的语音准确地进行端点检测的问题。本公开的技术方案如下：

根据本公开的第一方面，提供一种语音端点检测方法，所述方法包括：

对待检测语音进行分帧处理，得到多个待检测音帧；

提取各所述待检测音帧的频率特征、能量特征和过零率特征；

将各所述待检测音帧的频率特征、能量特征和过零率特征输入预先训练得到的语音检测模型中，获得各所述待检测音帧的检测结果，所述检测结果包括语音帧和非语音帧；

根据各所述待检测音帧的检测结果，确定所述待检测语音的起始点和结束点。

在一种可选的实现方式中，所述频率特征包括梅尔频率倒谱系数或对数谱特征，所述能量特征包括低短时能量比，所述过零率特征包括高过零率比。

在一种可选的实现方式中，所述语音检测模型包括第一特征融合层和第一分类层，所述将各所述待检测音帧的频率特征、能量特征和过零率特征输入预先训练得到的语音检测模型中，获得各所述待检测音帧的检测结果的步骤，包括：

将各所述待检测音帧的频率特征、能量特征和过零率特征输入所述第一特征融合层中，得到各所述待检测音帧的融合特征；

将各所述待检测音帧的融合特征输入所述第一分类层中，获得各所述待检测音帧的检测结果。

在一种可选的实现方式中，所述将各所述待检测音帧的频率特征、能量特征和过零率特征输入所述第一特征融合层中，得到各所述待检测音帧的融合特征的步骤，包括：

将各所述待检测音帧的频率特征、能量特征和过零率特征进行特征拼接，得到各所述待检测音帧的拼接特征矩阵；

基于预先训练得到的权重矩阵，对各所述待检测音帧的拼接特征矩阵进行线性映射，得到各所述待检测音帧的融合特征。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司，未经北京达佳互联信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910804076.2/2.html，转载请声明来源钻瓜专利网。

上一篇：一种语音识别方法、装置、系统及存储介质
下一篇：一种语言模型训练方法、构建方法和装置

同类专利

语音端点识别方法、装置及设备-201810509977.4
发明人：李超;朱唯鑫 -专利权人：百度在线网络技术(北京)有限公司
申请日： 2018-05-24 - 公布日： 2020-01-14 - 主分类号： G10L15/05
摘要：本发明提供一种语音端点识别方法、装置及设备。本发明的方法，通过分别用起点训练集和终点训练集训练循环神经网络得到起点识别模型和终点识别模型，根据所述各音频帧的声学特征和起点识别模型，识别出所述各音频帧中的语音起点帧，可以在保证对起点帧识别的准确性尽可能高的同时，不影响终点帧识别的延迟时间；根据所述各音频帧的声学特征和终点识别模型，识别出所述各音频帧中的语音终点帧，可以在保证对终点帧识别延迟尽可能短的同时，不影响起点帧识别的准确性，从而可以在提高起点帧识别的准确性的同时，缩短终点帧识别的延迟时间。

语音端点检测方法、装置、电子设备及存储介质-201910804076.2
发明人：曲贺;王晓瑞 -专利权人：北京达佳互联信息技术有限公司
申请日： 2019-08-28 - 公布日： 2020-01-03 - 主分类号： G10L15/05
摘要：本公开示出了一种语音端点检测方法、装置、电子设备及存储介质，首先对待检测语音进行分帧处理，得到多个待检测音帧，然后提取各待检测音帧的频率特征、能量特征和过零率特征，将各待检测音帧的频率特征、能量特征和过零率特征输入语音检测模型中，获得各待检测音帧的检测结果，再根据各待检测音帧的检测结果，确定待检测语音的起始点和结束点。由于频率特征能够准确地区分静音和噪声，能量特征和过零率特征对歌曲和语音有较高的区分度，因此，同时采用频率特征、能量特征和过零率特征，不但可以对纯语音信号准确地进行检测，而且对包含音乐信号的语音也能进行很好地区分，提高了语音端点检测的准确率，相对现有技术具有更强的鲁棒性。

唤醒语音关键短语分割-201910330352.6
发明人：托马什·多劳;托比亚斯·博克雷;普热米司勒·托马谢夫斯基;塞巴斯蒂安·切里巴;尤利乌斯·诺尔曼·霍耶茨基 -专利权人：英特尔公司
申请日： 2019-04-23 - 公布日： 2019-11-15 - 主分类号： G10L15/05
摘要：本公开涉及唤醒语音关键短语分割。提供了用于关键短语的分割的技术。根据实施例的实现该技术的方法包括：对从音频信号的时间分段提取的特征向量进行累加；以及基于那些特征向量生成一组声学评分。一组声学评分中的每个声学评分代表与时间分段相关联的语音类别的可能性。该方法还包括：生成评分模型状态序列的进展，每个评分模型状态序列基于与从音频信号的时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测。该方法还包括：分析评分状态序列的进展以检测与该进展相关联的模式，并且基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音端点检测方法、装置、电子设备及存储介质在审

专利文献下载