[发明专利]一种语音的话音与非话音的综合判决方法在审
申请号: | 202210006259.1 | 申请日: | 2022-01-05 |
公开(公告)号: | CN114242116A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 代策宇;张义林;徐杨辉;傅松;段绍楠 | 申请(专利权)人: | 成都锦江电子系统工程有限公司 |
主分类号: | G10L25/78 | 分类号: | G10L25/78;G10L25/87;G10L25/30;G10L25/24;G10L25/21;G10L25/18;G10L21/0208 |
代理公司: | 成都立新致创知识产权代理事务所(特殊普通合伙) 51277 | 代理人: | 刘俊 |
地址: | 610000 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 话音 综合 判决 方法 | ||
1.一种语音的话音与非话音的综合判决方法,其特征在于:所述综合判决方法包括:
对输入的语音数据进行分帧处理得到第一分帧语音数据和第二分帧语音数据;
所述第一分帧语音数据的处理方法包括:
对第一分帧语音数据进行预处理,获取每帧语音数据进行时频转换与倒谱系数,并将经过预处理后的数据输入语音识别网络判断语音的话音段占整个语音段的比例;
当话音信号占比大于预设值时,通过结合短时自相关法与谱减法的方法进行语音降噪处理;
结合短时相关法与能熵比的方法对语音端点进行检测,并将检测后的语音数据中话音语段标记为话音,其余语段标记为非话音,最后输出语音数据;
所述第二分帧语音数据的处理方法包括:
通过结合短时自相关法与谱减法的方法对第二分帧语音数据进行语音降噪处理;
结合短时相关法与能熵比的方法对语音端点进行检测,并将检测后的语音数据中话音语段标记为话音,其余语段标记为非话音,最后输出语音数据。
2.根据权利要求1所述的一种语音的话音与非话音的综合判决方法,其特征在于:所述对第一分帧语音数据进行预处理,获取每帧语音数据进行时频转换与倒谱系数包括:
将第一分帧语音数据通过短时傅里叶变换获取的语音数据的时频参数F(f,t),表示语音信号在时刻为t,频率为f时的信号的相对能量值;
对每帧语音数据进行MFCC特征提取,获取其MFCC值、一阶MFCC差分和二阶MFCC差分;
对语音信号进行预加重处理,并对预加重后的信号进行加窗处理和对加窗后的信号进行频域转换,获得语音信号在频域上的表示;
计算每帧谱线能量通过梅尔滤波器组后的能量谱,并将通过梅尔滤波器组后的能量谱进行取对数处理;
将通过梅尔滤波器组后的能量取对数,再进行离散余弦变换得到MFCC特征,对MFCC特征进行一阶差分处理,获取一阶MFCC特征;
对一阶MFCC特征做差分运算,得到二阶MFCC特征。
3.根据权利要求1所述的一种语音的话音与非话音的综合判决方法,其特征在于:所述语音降噪处理包括:
对每帧语音数据xn进行短时自相关处理,获得当前帧的自相关值Rn;
对获得的每帧自相关值作为新的自相关序列采用设定窗长和窗移的平均值滤波方法进行平滑滤波,得到滤波后的自相关值序列R′n;
将自相关值序列的平均值作为阈值η,当自相关值小于或等于阈值η的帧段作为非话音段,大于阈值η的帧段作为话音段;
将确定的非话音段与话音段作为输入,采用谱减法对原始的语音数据xn进行去噪处理,获取降噪后的语音数据x′n。
4.根据权利要求3所述的一种语音的话音与非话音的综合判决方法,其特征在于:所述将确定的非话音段与话音段作为输入,采用谱减法对原始的语音数据xn进行去噪处理,获取降噪后的语音数据x′n包括:
对原始的每一帧语音信号xn做快速傅里叶变换,得到变换后的语音信号Xn(k);
根据Xn(k)的幅值|Xn(k)|,相位角度非话音段的帧数NIS,计算得到非话音段的平均功率谱值D(k);
计算经过快速傅里叶变换后的语音信号Xn(k)的平均值Yn(k),并通过谱减公式得到谱减后的幅值
根据谱减后的幅值阳相位角利用快速傅里叶逆变换得到降噪后的语音数据x′n。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都锦江电子系统工程有限公司,未经成都锦江电子系统工程有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210006259.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高地隙喷雾机药箱转动及升降装置
- 下一篇:一种用于交通运输的两栖车辆