[发明专利]语音端点检测方法、装置、设备及计算机可读存储介质有效

申请号：	202011282116.0	申请日：	2020-11-17
公开（公告）号：	CN112102851B	公开（公告）日：	2021-04-13
发明（设计）人：	赵沁;徐国强	申请（专利权）人：	深圳壹账通智能科技有限公司
主分类号：	G10L25/87	分类号：	G10L25/87;G10L25/78;G10L25/18
代理公司：	深圳市世纪恒程知识产权代理事务所 44287	代理人：	魏润洁
地址：	518000 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音端点检测方法装置设备计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及语音信号处理技术领域，公开了一种语音端点检测方法、装置、设备及计算机可读存储介质，该方法包括：提取实时采集的语音信号中所有数据帧的时域信号，将各所述时域信号转换为频域谱信号；依次遍历各所述频域谱信号，确定遍历的当前数据帧对应的当前频域谱信号，根据所述当前频域谱信号计算所述当前数据帧的短时能熵比；检测所述短时能熵比是否大于所述语音信号的初始检测阈值；若所述短时能熵比大于所述语音信号的初始检测阈值，则将所述当前数据帧移动至预设的语音帧缓冲器，并根据所述语音帧缓冲器中的所有数据帧确定所述语音信号的语音段落端点。本发明提高了对图像语音端点检测的准确性。

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种语音端点检测方法、装置、设备及计算机可读存储介质。

背景技术

语音端点检测作为前端处理手段，要求其计算量小并能实时输出语音段落。现有方法主要分为两种：基于信号统计特性的方法，及基于深度网络的方法。前者参数量较少，可解释度更高；后者在某种程度上可以解决非平稳噪声下的语音段检测，但是算法性能高度依赖训练集，需要大量的数据进行训练，泛化性较差。实时系统中大多采用统计方法，主要基于信号的子带能量、过零率、以及谱特征等。但是都需要提前设置检测阈值等参数，而真实环境中语音信号动态变化，固定阈值效果不佳，容易出现虚警率高的问题，无法准确地检测语音信号的语音端点。

发明内容

本发明的主要目的在于提供一种语音端点检测方法、装置、设备及计算机可读存储介质，旨在解决如何提高语音端点检测的准确性的技术问题。

为实现上述目的，本发明提供一种语音端点检测方法，所述语音端点检测方法包括：

提取实时采集的语音信号中所有数据帧的时域信号，将各所述时域信号转换为频域谱信号；

依次遍历各所述频域谱信号，确定遍历的当前数据帧对应的当前频域谱信号，根据所述当前频域谱信号计算所述当前数据帧的短时能熵比；

检测所述短时能熵比是否大于所述语音信号的初始检测阈值；

若所述短时能熵比大于所述语音信号的初始检测阈值，则将所述当前数据帧移动至预设的语音帧缓冲器，并根据所述语音帧缓冲器中的所有数据帧确定所述语音信号的语音段落端点。

可选地，根据所述语音帧缓冲器中的所有数据帧确定所述语音信号的语音段落端点的步骤，包括：

检测所述语音帧缓冲器中的所有数据帧的数量是否等于第一预设值；

若等于第一预设值，则将所述语音帧缓冲器中第一个数据帧作为所述语音信号的语音段落端点。

可选地，根据所述当前频域谱信号计算所述当前数据帧的短时能熵比的步骤，包括：

根据所述当前频域谱信号计算所述当前数据帧所有频率分量的密度函数，并根据预设的短时谱熵计算公式和各所述密度函数计算所述当前数据帧的短时谱熵；