[发明专利]一种语音分离方法及装置在审

申请号：	202211193462.0	申请日：	2022-09-28
公开（公告）号：	CN115862660A	公开（公告）日：	2023-03-28
发明（设计）人：	王冬霞;余佳琪	申请（专利权）人：	天津职业技术师范大学（中国职业培训指导教师进修中心）
主分类号：	G10L21/0272	分类号：	G10L21/0272;G10L15/06;G10L17/04
代理公司：	天津市尚文知识产权代理有限公司 12222	代理人：	黄静
地址：	30022***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音分离方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提出的一种语音分离方法，包括：数据采集，并将采集的数据分为训练集、测试集和验证集；将所述训练集的数据经过傅里叶变换生成特征谱图，并将所述特征谱图输入到智能模型中进行训练，通过测试集和验证集对所述智能模型进行测试和验证，获得语音分离模型；将获得的混合语音数据输入到所述语音分离模型中，对所述混合语音进行分离，获得识别语音。本申请融合卷积注意力机制模块(CBAM)，在不增加参数量的同时可以有效提取全局特征，并对特征图进行自适应的调整，提升其学习效率。

技术领域

本申请请求保护一种语音分离技术，尤其涉及一种语音分离方法。本申请还涉及一种语音分离装置。

背景技术

随着人工智能领域的蓬勃发展，物联网行业迅速崛起，移动通信设备、智能音箱、智能车载等设备的使用，给人们带来极为便利的生活。其中，语音控制作为智能设备的基本单元，其性能的优劣很大程度取决于前端处理，在嘈杂的环境中分离出目标说话人，从而使设备准确识别目标指令是目前亟待解决的问题。

近年来，深度学习算法在语音分离领域有较多应用。目前的主流方法是利用不同的深度学习网络，在时、频域的基础上进行语音分离。在现有方法中，采用关注相位和谐波的语音增强模型PHASEN(相位感知网络)，模型设计为双流结构，分别处理相位和幅度信息，并设计了双向信息交互通道，提出时频注意力机制，使模型能够学习相位信息以及谐波相关性，采用双向长短时记忆网络(Bi-directional Long Short-Term Memory networks，BiLSTM)学习幅度掩码。

现有的方法采用基于时频注意力机制的双流网络PHASEN(相位感知网络)，其中网络引入的时频注意力机制增加了网络的参数量；在训练模型时采用双向长短时记忆网络(BiLSTM)学习幅度掩码，其中BiLSTM内部结构复杂，不利于模型优化。

发明内容

为了解决上述背景技术中提出的一个或者多个问题，本申请提出一种语音分离方法。本申请还涉及一种语音分离装置。

本申请提出的一种语音分离方法，包括：

数据采集，并将采集的数据分为训练集、测试集和验证集；

将所述训练集的数据经过傅里叶变换生成特征谱图，并将所述特征谱图输入到智能模型中进行训练，通过测试集和验证集对所述智能模型进行测试和验证，获得语音分离模型；

将获得的混合语音数据输入到所述语音分离模型中，对所述混合语音进行分离，获得识别语音。

可选的，所述智能模型中包含有：卷积注意力机制模块和相位感知网络；

其中，所述卷积注意力模块包括：通道注意力模块和空间注意力模块。

可选的，所述卷积注意力机制模块和所述相位感知网络的融合计算，包括训练阶段和分离阶段两种模式，分别为：

所述训练阶段对输入的语音信号进行时频分解，利用二维卷积层提取语音的幅度谱特征和相位谱特征；将提取的特征输入所述相位感知网络的双流通道进行处理，得到处理后的幅度谱特征和相位谱特征；将幅度谱特征作为先验信息进行模型训练，得到最优模型；

所述分离阶段将带噪语音分别经过特征提取与处理，得到估计的幅度谱信息与相位谱信息，将幅度谱信息输入到训练好的模型中，得到增强的幅度谱，将幅度特征与相位特征结合得到目标语音。