[发明专利]语音端点检测方法、装置、电子设备及可读存储介质有效
申请号: | 202110513939.8 | 申请日: | 2021-05-12 |
公开(公告)号: | CN112992191B | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 李作强;杨嵩 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
主分类号: | G10L25/87 | 分类号: | G10L25/87;G10L25/84;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 北京北汇律师事务所 11711 | 代理人: | 马亚坤 |
地址: | 100086 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 端点 检测 方法 装置 电子设备 可读 存储 介质 | ||
本发明公开了一种语音端点检测方法、装置、电子设备及可读存储介质,获取音频语音信息,并对音频语音信息进行分帧处理得到帧语音数据;提取帧语音数据的第一数据;第一数据包括Fbank频域特征和/或用于表征语音信号的时域特征;对第一数据进行处理得到第二数据;其中,第二数据包括比所述第一数据更多的局部信息;对第二数据进行分类处理,得到语音/非语音信息后验概率;对语音/非语音信息后验概率进行平滑处理得到语音/非语音信息概率;针对语音/非语音信息概率,计算在指定大小的滑动窗口内第j帧的置信度;根据第j帧的置信度确定语音端点的起点和尾点。实现了稳健性好、精准性高、鲁棒性强的语音端点检测技术。
技术领域
本发明涉及语音信号处理技术领域,具体涉及一种语音端点检测方法、装置、电子设备及计算机可读存储介质。
背景技术
语音信号中大约有一半的时间属于非语音片段,给语音信号处理带来了额外的运算开销。在对语音信号进行处理的时候一般会进行语音端点检测(Voice ActiveDetection,简称VAD)。语音端点检测方法一般用于鉴别音频信号当中语音出现(speechpresence)和语音消失(speech absence),即从含有静音、噪声等干扰信号的音频流中准确快速的将语音活动部分的有效语音片段(实际语音片段的起始点和终止点)提取出来,排除静音、噪声等其它非语音信号的干扰,为后续语音处理系统提供可靠的语音信号,减少了后续语音处理系统的数据量和计算压力,有利于提高系统的利用率和响应速度。端点检测技术对语音编码、说话人分离和识别、唤醒、语音识别和人机语音交互系统等具有重要意义,是其流程中的一个极其重要的模块。例如,语音端点检测性能的好坏直接影响着语音交互对话的流畅性与用户体验。
在实际复杂的现实应用环境中或在低信噪比、低噪音背景条件下,例如包括噪声、混响、回声等外在复杂环境或地处户内、户外、商场、会议等包含不同噪音的背景场景下,传统的常用语音端点检测方法主要有两类:一类是基于特征提取的阈值门限判决端点检测方法;一类是基于分类器的端点检测方法。基于特征提取的端点检测算法从语音信号中提取时域或频域特征参数,根据语音/非语音在这些特征参数上的不同分布规律,设定某一阈值(一般依靠经验)或建立区分性模型来区分语音/非语音段。比较有效的时域特征参数包括:短时能量、过零率、自相关函数、基频等。主要的频域特征参数包括:线性预测编码(linearpredictive coding,简称为LPC)倒谱距离、频率方差、谱熵等。基于分类器的端点检测方法主要是通过提取并融合上述提到用来表征语音信号的多种有效语音特征,通过机器学习的方法支持向量机(Support Vector Machine,简称为SVM)等训练分类器建立语音识别模型,达到检测有效语音片段的目的。在高信噪比和低噪音背景条件下,传统的语音端点检测方法也可以取得较好的检测精度。然而在一些低信噪比,高噪音、背景声音同待检测的语音信号混淆度具有很高的差异化复杂噪声环境下,通过设定门限值的传统端点检测和基于分类器传统端点检测技术很难取得让人满意的效果。因此稳健性好、精准性高、鲁棒性强、运算量少的语音端点检测技术,具有迫切的现实需求。
发明内容
有鉴于此,本发明实施例提供了一种语音端点检测方法、装置、电子设备及计算机可读存储介质,以解决现有技术中语音端点检测方法不能精准的将语音活动部分的有效语音片段提取出来,不能为后续语音处理系统提供可靠的语音信号,增大了后续语音处理系统的数据量和计算压力,降低了系统的利用率和响应速度的问题。
为此,本发明实施例提供了如下技术方案:
本发明第一方面,提供了一种语音端点检测方法,包括:
获取音频语音信息,并对所述音频语音信息进行分帧处理得到帧语音数据;
提取所述帧语音数据的第一数据;其中,所述第一数据包括Fbank频域特征和/或用于表征语音信号的时域特征;
对所述第一数据进行处理得到第二数据;其中,所述第二数据包括比所述第一数据更多的局部信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110513939.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多功能数控复合磨床
- 下一篇:一种局部大面形误差智能补偿干涉检测系统和方法