[发明专利]一种基于只包含编码器的多头注意力机制的语音增强算法在审

申请号：	202210253225.2	申请日：	2022-03-15
公开（公告）号：	CN114678033A	公开（公告）日：	2022-06-28
发明（设计）人：	邵曦;顾天麒	申请（专利权）人：	南京邮电大学
主分类号：	G10L21/0208	分类号：	G10L21/0208;G10L21/0216;G10L21/0264;G10L25/03;G10L25/30;G06N3/04;G06N3/08
代理公司：	南京苏科专利代理有限责任公司 32102	代理人：	牛莉莉
地址：	210023 江苏省***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于包含编码器多头注意力机制语音增强算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于只包含编码器的多头注意力机制的语音增强方法，其特征在于：所述方法包括以下设计步骤：

步骤1：构建训练数据，提取数据幅度谱和相位谱特征；

步骤2：对数据进行预处理，计算模型的输入参数；

步骤3：构建基于无解码的多头注意力机制的语音增强算法网络模型；

步骤4：将步骤2处理好的数据输入网络模型进行训练；

步骤5：将待增强语音信号输入由步骤4训练好的网络模型进行预测，输出先验信噪比估计值；

步骤6：将步骤5得到的先验信噪比估计值应用对数最小均方误差估计算法，计算增益函数，结合输入数据的相位谱特征重构语音信号。

2.根据权利要求1所述的基于只包含编码器的多头注意力机制的语音增强算法，其特征在于：步骤1的具体内容为：

步骤1.1：使用的采样频率为16kHz的干净语音数据和噪声数据，随机配对后以随机信噪比混合，混合信噪比取-10dB，-5dB，0dB，5dB，10dB其中的随机一种，产生带噪语音数据；

步骤1.2：借助短时傅里叶变换提取干净语音数据和带噪语音数据的幅度谱特征，以产生用于训练网络模型的数据对。

3.根据权利要求2所述的基于只包含编码器的多头注意力机制的语音增强算法，其特征在于：步骤1.2中，短时傅里叶变换选择帧长等于512个采样点，帧移等于256个采样点，产生512个点的傅里叶变换值，经过变换后获得257个维度的特征。

4.根据权利要求1所述的基于只包含编码器的多头注意力机制的语音增强算法，其特征在于：所述步骤2中，需要对数据进行预处理，产生网络模型的输入数据；所述网络模型的输入有三个，一是经过短时傅里叶变换提取的带噪语音数据的幅度谱特征X(n,k)，二是后验信噪比ξ(n,k)，三是帧掩模mask(n)。

5.根据权利要求4所述的基于只包含编码器的多头注意力机制的语音增强算法，其特征在于：所述步骤2中，预处理的步骤为：

首先通过短时傅里叶变换提取的带噪语音数据的幅度谱特征；其次用于混合的噪声数据经短时傅里叶变换得到的幅度谱和带噪语音数据的幅度谱计算后验信噪比；再用0和1补长不同帧长的输入数据得到帧掩模。

6.根据权利要求4所述的基于只包含编码器的多头注意力机制的语音增强算法，其特征在于：所述经过短时傅里叶变换提取的带噪语音数据的幅度谱特征X(n,k)和后验信噪比ξ(n,k)为一组大小为R∈N×K的二维序列，帧掩模为一组长度为N的一维序列；其中，n代表帧，对应N为最大帧数，k代表频点，对应K代表最大频点数即257，mask(n)仅由0和1组成，用于补长不同帧长的训练数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210253225.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种新型的内置式永磁同步电机的转子拓扑结构
下一篇：一种发射机智能监测控制系统及方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于只包含编码器的多头注意力机制的语音增强算法在审

专利文献下载