[发明专利]基于双向循环链表的语音检测方法在审
| 申请号: | 202211423268.7 | 申请日: | 2022-11-15 |
| 公开(公告)号: | CN115798521A | 公开(公告)日: | 2023-03-14 |
| 发明(设计)人: | 王阳宣;李晓冬;彭世伟;李俊潇;李阳 | 申请(专利权)人: | 四川启睿克科技有限公司 |
| 主分类号: | G10L25/78 | 分类号: | G10L25/78;G10L25/03 |
| 代理公司: | 成都虹桥专利事务所(普通合伙) 51124 | 代理人: | 陈春光 |
| 地址: | 610000 四川省成都市中国(四川)*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 双向 循环 语音 检测 方法 | ||
本发明涉及语音识别技术领域,公开了一种基于双向循环链表的语音检测方法,旨在解决现有语音活动检测方法存在语音信号的准确性和可靠性较差的问题,方案主要包括:实时获取音频信号;对音频信号进行分帧处理,按顺序将每帧音频信号存入双向循环链表中的对应节点,并计算每帧音频信号的自适应功率谱密度;根据预设帧数对音频信号进行滑动窗口处理,确定各窗口的平滑能量谱密度;判断各窗口音频信号的语音活动状态;统计连续处于活动状态和非活动状态的窗口数,当连续处于非活动状态的窗口数大于第一阈值,并且连续处于活动状态的窗口数大于第二阈值时,输出双向循环链表中对应节点的音频信号。本发明提高了语音活动检测的准确性和完整性。
技术领域
本发明涉及语音识别技术领域,具体来说涉及一种基于双向循环链表的语音检测方法。
背景技术
随着智能硬件和技术的发展,语音识别、语音检测、语音增强等语音智能交互技术已经逐渐成熟的应用到各个领域。语音识别技术在人机交互中有着不可替代的地位。目前的语音识别技术对理想语音信号已经达到了商用的准确率,但是对于一些含噪信号、远场信号,语音识别的准确率往往会有一定幅度的下降。
在远场语音识别时,语音的能量会随着距离增加而衰减,而环境的干扰噪声依然存在,会导致听觉特征提取效率下降。除此之外,在房间中发送语音指令时会在墙壁上被多次反射,使得语音活动检测不能准确提取听觉特征,从而影响识别率。
为了解决远场的语音识别,语音活动检测(Voice Activity Detection,VAD)需要根据听觉特征准确的提取出语音信号。现有基于G.729标准的VAD方法通过计算信号的能量,然后设定门限对信号的每一帧进行简单的分类,这种方式主要存在以下两个问题:一是对于环境噪声的干扰,比如空调、风扇等噪声,使得语音活动检测无法准确的区分噪声信号和语音信号,可靠性较差;二是由于远场语音信号能量的衰减,通常一段语音的起始帧信号强度较弱,使得输出的语音信号并不完整,很难激活语音活动检测。
发明内容
本发明旨在解决现有语音活动检测方法存在语音信号的准确性和可靠性较差的问题,提出一种基于双向循环链表的语音检测方法。
本发明解决上述技术问题所采用的技术方案是:
基于双向循环链表的语音检测方法,包括以下步骤:
步骤1、实时获取音频信号;
步骤2、根据预设帧长对所述音频信号进行分帧处理,按顺序将每帧音频信号存入双向循环链表中的对应节点,并计算每帧音频信号的自适应功率谱密度;
步骤3、根据预设帧数对所述音频信号进行滑动窗口处理,根据对应帧音频信号的自适应功率谱密度确定各窗口的平滑能量谱密度;
步骤4、根据所述平滑能量谱密度判断各窗口音频信号的语音活动状态,所述语音活动状态至少包括活动状态和非活动状态;
步骤5、统计连续处于活动状态和连续处于非活动状态的窗口数,当连续处于非活动状态的窗口数大于第一阈值,并且连续处于活动状态的窗口数大于第二阈值时,根据连续处于活动状态的窗口输出双向循环链表中对应节点的音频信号。
为了计算得到每帧音频信号的自适应功率谱密度,步骤2中,所述每帧音频信号的自适应功率谱密度的计算方法具体包括:
对每帧音频信号进行短时傅里叶变换;
根据短时傅里叶变换结果以及预设频率范围计算对应帧音频信号的功率谱密度;
根据所述功率谱密度计算对应帧音频信号的自适应功率谱密度。
进一步地,为了计算得到每帧音频信号的功率谱密度,所述短时傅里叶变换公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川启睿克科技有限公司,未经四川启睿克科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211423268.7/2.html,转载请声明来源钻瓜专利网。





