[发明专利]一种语音分离方法及装置在审
申请号: | 202211193462.0 | 申请日: | 2022-09-28 |
公开(公告)号: | CN115862660A | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 王冬霞;余佳琪 | 申请(专利权)人: | 天津职业技术师范大学(中国职业培训指导教师进修中心) |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L15/06;G10L17/04 |
代理公司: | 天津市尚文知识产权代理有限公司 12222 | 代理人: | 黄静 |
地址: | 30022*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 分离 方法 装置 | ||
本申请提出的一种语音分离方法,包括:数据采集,并将采集的数据分为训练集、测试集和验证集;将所述训练集的数据经过傅里叶变换生成特征谱图,并将所述特征谱图输入到智能模型中进行训练,通过测试集和验证集对所述智能模型进行测试和验证,获得语音分离模型;将获得的混合语音数据输入到所述语音分离模型中,对所述混合语音进行分离,获得识别语音。本申请融合卷积注意力机制模块(CBAM),在不增加参数量的同时可以有效提取全局特征,并对特征图进行自适应的调整,提升其学习效率。
技术领域
本申请请求保护一种语音分离技术,尤其涉及一种语音分离方法。本申请还涉及一种语音分离装置。
背景技术
随着人工智能领域的蓬勃发展,物联网行业迅速崛起,移动通信设备、智能音箱、智能车载等设备的使用,给人们带来极为便利的生活。其中,语音控制作为智能设备的基本单元,其性能的优劣很大程度取决于前端处理,在嘈杂的环境中分离出目标说话人,从而使设备准确识别目标指令是目前亟待解决的问题。
近年来,深度学习算法在语音分离领域有较多应用。目前的主流方法是利用不同的深度学习网络,在时、频域的基础上进行语音分离。在现有方法中,采用关注相位和谐波的语音增强模型PHASEN(相位感知网络),模型设计为双流结构,分别处理相位和幅度信息,并设计了双向信息交互通道,提出时频注意力机制,使模型能够学习相位信息以及谐波相关性,采用双向长短时记忆网络(Bi-directional Long Short-Term Memory networks,BiLSTM)学习幅度掩码。
现有的方法采用基于时频注意力机制的双流网络PHASEN(相位感知网络),其中网络引入的时频注意力机制增加了网络的参数量;在训练模型时采用双向长短时记忆网络(BiLSTM)学习幅度掩码,其中BiLSTM内部结构复杂,不利于模型优化。
发明内容
为了解决上述背景技术中提出的一个或者多个问题,本申请提出一种语音分离方法。本申请还涉及一种语音分离装置。
本申请提出的一种语音分离方法,包括:
数据采集,并将采集的数据分为训练集、测试集和验证集;
将所述训练集的数据经过傅里叶变换生成特征谱图,并将所述特征谱图输入到智能模型中进行训练,通过测试集和验证集对所述智能模型进行测试和验证,获得语音分离模型;
将获得的混合语音数据输入到所述语音分离模型中,对所述混合语音进行分离,获得识别语音。
可选的,所述智能模型中包含有:卷积注意力机制模块和相位感知网络;
其中,所述卷积注意力模块包括:通道注意力模块和空间注意力模块。
可选的,所述卷积注意力机制模块和所述相位感知网络的融合计算,包括训练阶段和分离阶段两种模式,分别为:
所述训练阶段对输入的语音信号进行时频分解,利用二维卷积层提取语音的幅度谱特征和相位谱特征;将提取的特征输入所述相位感知网络的双流通道进行处理,得到处理后的幅度谱特征和相位谱特征;将幅度谱特征作为先验信息进行模型训练,得到最优模型;
所述分离阶段将带噪语音分别经过特征提取与处理,得到估计的幅度谱信息与相位谱信息,将幅度谱信息输入到训练好的模型中,得到增强的幅度谱,将幅度特征与相位特征结合得到目标语音。
可选的,所述数据采集包括:
分别采集纯净数据和噪声数据,将纯净数据与噪声数据按照预设的信噪比进行混合。
可选的,所述数据采集的环境为车载语音环境。
本申请提出的一种语音分离装置,包括:
采集模块,用于数据采集,并将采集的数据分为训练集、测试集和验证集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津职业技术师范大学(中国职业培训指导教师进修中心),未经天津职业技术师范大学(中国职业培训指导教师进修中心)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211193462.0/2.html,转载请声明来源钻瓜专利网。