[发明专利]语音端点检测方法、装置、电子设备及存储介质在审
申请号: | 201910804076.2 | 申请日: | 2019-08-28 |
公开(公告)号: | CN110648656A | 公开(公告)日: | 2020-01-03 |
发明(设计)人: | 曲贺;王晓瑞 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G10L15/05 | 分类号: | G10L15/05;G10L25/03;G10L25/18;G10L25/21;G10L25/78 |
代理公司: | 11319 北京润泽恒知识产权代理有限公司 | 代理人: | 李娜 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本公开示出了一种语音端点检测方法、装置、电子设备及存储介质,首先对待检测语音进行分帧处理,得到多个待检测音帧,然后提取各待检测音帧的频率特征、能量特征和过零率特征,将各待检测音帧的频率特征、能量特征和过零率特征输入语音检测模型中,获得各待检测音帧的检测结果,再根据各待检测音帧的检测结果,确定待检测语音的起始点和结束点。由于频率特征能够准确地区分静音和噪声,能量特征和过零率特征对歌曲和语音有较高的区分度,因此,同时采用频率特征、能量特征和过零率特征,不但可以对纯语音信号准确地进行检测,而且对包含音乐信号的语音也能进行很好地区分,提高了语音端点检测的准确率,相对现有技术具有更强的鲁棒性。 | ||
搜索关键词: | 检测音 能量特征 频率特征 语音 语音端点检测 检测结果 检测 存储介质 电子设备 特征输入 音乐信号 语音检测 语音信号 鲁棒性 起始点 区分度 准确率 分帧 静音 噪声 歌曲 | ||
【主权项】:
1.一种语音端点检测方法,其特征在于,所述方法包括:/n对待检测语音进行分帧处理,得到多个待检测音帧;/n提取各所述待检测音帧的频率特征、能量特征和过零率特征;/n将各所述待检测音帧的频率特征、能量特征和过零率特征输入预先训练得到的语音检测模型中,获得各所述待检测音帧的检测结果,所述检测结果包括语音帧和非语音帧;/n根据各所述待检测音帧的检测结果,确定所述待检测语音的起始点和结束点。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910804076.2/,转载请声明来源钻瓜专利网。
- 同类专利
- 语音端点识别方法、装置及设备-201810509977.4
- 李超;朱唯鑫 - 百度在线网络技术(北京)有限公司
- 2018-05-24 - 2020-01-14 - G10L15/05
- 本发明提供一种语音端点识别方法、装置及设备。本发明的方法,通过分别用起点训练集和终点训练集训练循环神经网络得到起点识别模型和终点识别模型,根据所述各音频帧的声学特征和起点识别模型,识别出所述各音频帧中的语音起点帧,可以在保证对起点帧识别的准确性尽可能高的同时,不影响终点帧识别的延迟时间;根据所述各音频帧的声学特征和终点识别模型,识别出所述各音频帧中的语音终点帧,可以在保证对终点帧识别延迟尽可能短的同时,不影响起点帧识别的准确性,从而可以在提高起点帧识别的准确性的同时,缩短终点帧识别的延迟时间。
- 语音端点检测方法、装置、电子设备及存储介质-201910804076.2
- 曲贺;王晓瑞 - 北京达佳互联信息技术有限公司
- 2019-08-28 - 2020-01-03 - G10L15/05
- 本公开示出了一种语音端点检测方法、装置、电子设备及存储介质,首先对待检测语音进行分帧处理,得到多个待检测音帧,然后提取各待检测音帧的频率特征、能量特征和过零率特征,将各待检测音帧的频率特征、能量特征和过零率特征输入语音检测模型中,获得各待检测音帧的检测结果,再根据各待检测音帧的检测结果,确定待检测语音的起始点和结束点。由于频率特征能够准确地区分静音和噪声,能量特征和过零率特征对歌曲和语音有较高的区分度,因此,同时采用频率特征、能量特征和过零率特征,不但可以对纯语音信号准确地进行检测,而且对包含音乐信号的语音也能进行很好地区分,提高了语音端点检测的准确率,相对现有技术具有更强的鲁棒性。
- 唤醒语音关键短语分割-201910330352.6
- 托马什·多劳;托比亚斯·博克雷;普热米司勒·托马谢夫斯基;塞巴斯蒂安·切里巴;尤利乌斯·诺尔曼·霍耶茨基 - 英特尔公司
- 2019-04-23 - 2019-11-15 - G10L15/05
- 本公开涉及唤醒语音关键短语分割。提供了用于关键短语的分割的技术。根据实施例的实现该技术的方法包括:对从音频信号的时间分段提取的特征向量进行累加;以及基于那些特征向量生成一组声学评分。一组声学评分中的每个声学评分代表与时间分段相关联的语音类别的可能性。该方法还包括:生成评分模型状态序列的进展,每个评分模型状态序列基于与从音频信号的时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测。该方法还包括:分析评分状态序列的进展以检测与该进展相关联的模式,并且基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点。
- 专利分类